Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

The Diagnostic Performance of Large Language Models and General Radiologists in Thoracic Radiology Cases: A Comparative Study.
大型語言模型與一般放射科醫生在胸部放射學案例中的診斷表現：一項比較研究。 J Thorac Imaging 2024-09-13

這項研究評估了10個大型語言模型（LLMs）與2位認證放射科醫生在分析胸部放射學案例的診斷表現。研究收集了124個案例，結果顯示Claude 3 Opus的診斷準確率最高，達70.29%，而放射科醫生的準確率則較低，分別為52.4%和41.1%。LLMs在特定案例中的表現較佳，顯示在適當醫療監督下，LLMs可能成為臨床決策的重要工具。 PubMed DOI

The Application of Large Language Models in Gastroenterology: A Review of the Literature.
大型語言模型在胃腸病學中的應用：文獻回顧。 Cancers (Basel) 2024-10-16

大型語言模型（LLMs）在醫療領域，特別是腸胃病學中，正發揮重要作用，改善資訊獲取、診斷及個性化治療。它們能有效解讀醫學文獻，提供即時知識，並支持醫學教育。儘管潛力巨大，LLMs 在臨床實踐中的整合仍需進一步研究與監管。最近的研究顯示，LLMs 在結腸鏡檢查及癌症篩檢等方面表現良好，但仍面臨數據完整性、準確性等挑戰。成功整合需針對特定情境進行調整，並遵循指導方針。 PubMed DOI

Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial.
大型語言模型對診斷推理的影響：一項隨機臨床試驗。 JAMA Netw Open 2024-10-28

這項研究評估大型語言模型（LLM）對醫師診斷推理的影響，與傳統資源相比。研究於2023年11月29日至12月29日進行，參與者來自多所學術機構的醫師，分為兩組：一組使用LLM和傳統資源，另一組僅用傳統資源。結果顯示，LLM組的中位診斷推理分數為76%，略高於傳統組的74%，但差異不顯著（P = .60）。不過，LLM的單獨表現比傳統資源高出16個百分點（P = .03），顯示人工智慧在臨床實踐中的潛力。 PubMed DOI

Comparison of Large Language Models in Diagnosis and Management of Challenging Clinical Cases.
大型語言模型在挑戰性臨床案例診斷與管理中的比較。 Clin Ophthalmol 2024-11-18

這項研究比較了十五個大型語言模型（LLMs）在處理眼科案例的表現，測試來自《JAMA Ophthalmology》的二十個案例。結果顯示，這些模型的平均得分為19，三個模型（ChatGPT 3.5、Claude Pro和Copilot Pro）表現優於平均，其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平，對一般人來說較難理解，但對眼科醫生則可接受。研究認為，雖然LLMs的準確性不足以單獨用於病人護理，但在協助醫生方面顯示出潛力，特別是訂閱制模型。 PubMed DOI

Large Language Models in Gastroenterology: Systematic Review.
大型語言模型在胃腸病學中的應用：系統性回顧。 J Med Internet Res 2024-12-20

這篇系統性回顧探討大型語言模型（LLMs）在胃腸科及內視鏡的應用，強調其在提升診斷準確性、自動化文檔處理及改善專家教育和病人參與方面的潛力。回顧分析了21篇來自MEDLINE、Embase和Cochrane Central的研究，結果顯示5篇偏倚風險低，16篇中等風險。LLMs能有效傳播醫療資訊、協助諮詢及生成手術報告，但仍面臨數據隱私、準確性及跨學科合作等挑戰，需重視解決這些問題，以發揮其在胃腸內視鏡實務中的潛力。 PubMed DOI

The Potential Clinical Utility of the Customized Large Language Model in Gastroenterology: A Pilot Study.
客製化大型語言模型在胃腸科的潛在臨床應用：一項初步研究。 Bioengineering (Basel) 2025-01-24

這項研究探討了兩種大型語言模型（LLMs）在胃腸科臨床實踐中的應用，分別是自訂的GPT模型和傳統的GPT-4o。研究發現，自訂模型在15個臨床問題中正確回答了8個，而研究員則回答了10個。傳統的GPT-4o表現最佳，正確率達14/15。雖然兩種模型的表現略低於專家醫生，但顯示出在病人諮詢等專業任務中的潛力。研究強調了RAG技術的重要性及臨床醫師監督的必要性。 PubMed DOI

Evaluation of the Performance of Three Large Language Models in Clinical Decision Support: A Comparative Study Based on Actual Cases.
三種大型語言模型在臨床決策支持中的表現評估：基於實際案例的比較研究。 J Med Syst 2025-02-13

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示，Med-Go 的中位數得分為37.5，優於其他模型，而 Gemini 得分最低，為33.0，差異顯著（p < 0.001）。所有模型在鑑別診斷上表現較弱，但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練，以提升效能，並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

Using Large Language Models in the Diagnosis of Acute Cholecystitis: Assessing Accuracy and Guidelines Compliance.
使用大型語言模型於急性膽囊炎診斷中的應用：評估準確性及指導方針遵循情況。 Am Surg 2025-03-12

這項研究評估了幾個大型語言模型（LLMs）在回答急性膽囊炎相關臨床問題的準確性，依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview，針對十個問題進行評分。結果顯示，ChatGPT4.0對90%的問題提供一致回答，其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好，但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力，但也需認識其局限性，透過持續改進可增強醫師教育及病患資訊，助於臨床決策。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

原始文章

站上相關主題文章列表