Diagnostic accuracy of a large language model in rheumatology: comparison of physician and ChatGPT-4.
風濕病學中一個大型語言模型的診斷準確性：醫師與 ChatGPT-4 的比較。 Rheumatol Int 2024-02-01

臨床前研究指出，像ChatGPT這樣的大型語言模型可能有助於區分炎症性風濕疾病與其他疾病。一項研究比較了ChatGPT-4的診斷準確性與風濕病專家在患者數據上的表現，結果顯示ChatGPT-4在正確診斷方面與專家相當，尤其在炎症性風濕疾病案例中。雖然在檢測疾病方面敏感度高，但特異性較低。總結來說，ChatGPT-4可能是診斷炎症性風濕疾病的實用工具。 PubMed DOI

The Large Language Model ChatGPT-4 Demonstrates Excellent Triage Capabilities and Diagnostic Performance for Patients Presenting with Various Causes of Knee Pain.
ChatGPT-4 大型語言模型展現出對於因不同原因導致膝蓋疼痛的患者具有優秀的分流能力和診斷表現。 Arthroscopy 2024-06-26

研究測試了ChatGPT-4在處理膝疼痛投訴、提供不同診斷和治療方案的表現。ChatGPT-4的診斷通常準確，與專業醫師看法一致。當提供更多資訊時，ChatGPT-4的準確性提高，有時甚至達到100%。它提供了合理的診斷和治療建議，但也可能有錯誤，需要進一步臨床評估。 PubMed DOI

Do ChatGPT and Gemini Provide Appropriate Recommendations for Pediatric Orthopaedic Conditions?
ChatGPT 和 Gemini 是否對小兒骨科疾病提供適當的建議？ J Pediatr Orthop 2024-08-22

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，在提供小兒骨科疾病建議的可靠性，並參考了美國骨科醫學會（AAOS）的指導方針。結果顯示，ChatGPT和Gemini的符合率分別為67%和69%，差異不大。值得注意的是，ChatGPT沒有引用任何研究，而Gemini則參考了16項研究，但大多數存在錯誤或不一致。總體來看，這些模型雖然在某程度上符合指導方針，但仍有許多中立或不正確的陳述，顯示醫療AI模型需改進與提高透明度。 PubMed DOI

Comparative performance analysis of large language models: ChatGPT-3.5, ChatGPT-4 and Google Gemini in glucocorticoid-induced osteoporosis.
大語言模型的比較性能分析：ChatGPT-3.5、ChatGPT-4 和 Google Gemini 在糖皮質激素誘導的骨質疏鬆症中的表現。 J Orthop Surg Res 2024-09-17

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4 和 Google Gemini，針對糖皮質激素誘導的骨質疏鬆症（GIOP）及其預防和治療的美國風濕病學會指導方針的表現。研究發現，Google Gemini 的答案較為簡潔，但 ChatGPT-4 在準確性和全面性上表現更佳，特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升，而 Google Gemini 則無明顯差異。總體來看，ChatGPT-4 是最佳選擇。 PubMed DOI

Artificial Intelligence Large Language Models Address Anterior Cruciate Ligament Reconstruction: Superior Clarity and Completeness by Gemini Compared to ChatGPT-4 in Response to American Academy of Orthopedic Surgeons Clinical Practice Guidelines.
人工智慧大型語言模型在前交叉韌帶重建中的應用：Gemini 相較於 ChatGPT-4 在回應美國骨科醫學會臨床實踐指導方針時展現出更優越的清晰度和完整性。 Arthroscopy 2024-09-23

這項研究評估了ChatGPT-4和Gemini在根據2022年美國骨科醫學會的前交叉韌帶重建指導方針生成回應的表現。七位專科醫生使用問卷評估這些回應，結果顯示兩者表現都不錯，平均分數超過4。Gemini在整體清晰度及康復與預防的完整性上優於ChatGPT-4，顯示出顯著的優勢。這項研究強調了大型語言模型在醫療領域的潛力，對醫療專業人員和病人皆有價值。 PubMed DOI

Examining the Role of Large Language Models in Orthopedics: Systematic Review.
大型語言模型在骨科中的角色探討：系統性回顧。 J Med Internet Res 2024-11-15

這篇綜述探討大型語言模型（LLMs）在骨科的應用，指出它們在解決相關挑戰上的潛力。研究分析了2014年1月至2024年2月間的68項相關研究，主要集中在臨床實踐。結果顯示，LLMs的準確率差異很大，診斷準確率從55%到93%不等，ChatGPT在疾病分類中的準確率範圍更是從2%到100%。雖然LLMs的表現令人鼓舞，但預計不會取代骨科專業人員，反而可作為提升臨床效率的工具。呼籲進行更多高品質的臨床試驗，以了解其最佳應用。 PubMed DOI

Large language models' performances regarding common patient questions about osteoarthritis: A comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Perplexity.
大型語言模型在關於骨關節炎的常見病人問題上的表現：ChatGPT-3.5、ChatGPT-4.0 和 Perplexity 的比較分析。 J Sport Health Sci 2024-11-29

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎（OA）相關問題的準確性。研究將25個問題分為六個主題，並由三位骨科專家進行評分。結果顯示，ChatGPT-4.0的表現最佳，64%的回答被評為「優秀」，而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高，但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力，特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

Using Large Language Models in the Diagnosis of Acute Cholecystitis: Assessing Accuracy and Guidelines Compliance.
使用大型語言模型於急性膽囊炎診斷中的應用：評估準確性及指導方針遵循情況。 Am Surg 2025-03-12

這項研究評估了幾個大型語言模型（LLMs）在回答急性膽囊炎相關臨床問題的準確性，依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview，針對十個問題進行評分。結果顯示，ChatGPT4.0對90%的問題提供一致回答，其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好，但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力，但也需認識其局限性，透過持續改進可增強醫師教育及病患資訊，助於臨床決策。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Performance of Artificial Intelligence in Addressing Questions Regarding Management of Osteochondritis Dissecans.
人工智慧在解決有關骨軟骨壞死症管理問題上的表現。 Sports Health 2025-04-02

這項研究評估了大型語言模型（LLM）如ChatGPT和Gemini在提供骨關節軟骨壞死（OCD）資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應，涵蓋相關性、準確性、清晰度等六個類別。結果顯示，ChatGPT在清晰度上得分最高，而Gemini在相關性和準確性上表現優異。不過，兩者在基於證據的回應上得分較低，顯示需改進。整體而言，ChatGPT表現較佳，但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

原始文章

站上相關主題文章列表