原始文章

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI


站上相關主題文章列表

臨床前研究指出,像ChatGPT這樣的大型語言模型可能有助於區分炎症性風濕疾病與其他疾病。一項研究比較了ChatGPT-4的診斷準確性與風濕病專家在患者數據上的表現,結果顯示ChatGPT-4在正確診斷方面與專家相當,尤其在炎症性風濕疾病案例中。雖然在檢測疾病方面敏感度高,但特異性較低。總結來說,ChatGPT-4可能是診斷炎症性風濕疾病的實用工具。 PubMed DOI

研究測試了ChatGPT-4在處理膝疼痛投訴、提供不同診斷和治療方案的表現。ChatGPT-4的診斷通常準確,與專業醫師看法一致。當提供更多資訊時,ChatGPT-4的準確性提高,有時甚至達到100%。它提供了合理的診斷和治療建議,但也可能有錯誤,需要進一步臨床評估。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,在提供小兒骨科疾病建議的可靠性,並參考了美國骨科醫學會(AAOS)的指導方針。結果顯示,ChatGPT和Gemini的符合率分別為67%和69%,差異不大。值得注意的是,ChatGPT沒有引用任何研究,而Gemini則參考了16項研究,但大多數存在錯誤或不一致。總體來看,這些模型雖然在某程度上符合指導方針,但仍有許多中立或不正確的陳述,顯示醫療AI模型需改進與提高透明度。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究評估了ChatGPT-4和Gemini在根據2022年美國骨科醫學會的前交叉韌帶重建指導方針生成回應的表現。七位專科醫生使用問卷評估這些回應,結果顯示兩者表現都不錯,平均分數超過4。Gemini在整體清晰度及康復與預防的完整性上優於ChatGPT-4,顯示出顯著的優勢。這項研究強調了大型語言模型在醫療領域的潛力,對醫療專業人員和病人皆有價值。 PubMed DOI

這篇綜述探討大型語言模型(LLMs)在骨科的應用,指出它們在解決相關挑戰上的潛力。研究分析了2014年1月至2024年2月間的68項相關研究,主要集中在臨床實踐。結果顯示,LLMs的準確率差異很大,診斷準確率從55%到93%不等,ChatGPT在疾病分類中的準確率範圍更是從2%到100%。雖然LLMs的表現令人鼓舞,但預計不會取代骨科專業人員,反而可作為提升臨床效率的工具。呼籲進行更多高品質的臨床試驗,以了解其最佳應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎(OA)相關問題的準確性。研究將25個問題分為六個主題,並由三位骨科專家進行評分。結果顯示,ChatGPT-4.0的表現最佳,64%的回答被評為「優秀」,而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高,但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力,特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

這項研究評估了幾個大型語言模型(LLMs)在回答急性膽囊炎相關臨床問題的準確性,依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview,針對十個問題進行評分。結果顯示,ChatGPT4.0對90%的問題提供一致回答,其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好,但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力,但也需認識其局限性,透過持續改進可增強醫師教育及病患資訊,助於臨床決策。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI