原始文章

這項研究比較了大型語言模型(LLMs)與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例,發現LLM Claude 3.5 Sonnet的準確率達76.1%,明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具,提供高效且具成本效益的診斷支持。 PubMed DOI


站上相關主題文章列表

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究評估了10個大型語言模型(LLMs)與2位認證放射科醫生在分析胸部放射學案例的診斷表現。研究收集了124個案例,結果顯示Claude 3 Opus的診斷準確率最高,達70.29%,而放射科醫生的準確率則較低,分別為52.4%和41.1%。LLMs在特定案例中的表現較佳,顯示在適當醫療監督下,LLMs可能成為臨床決策的重要工具。 PubMed DOI

大型語言模型(LLMs)在醫療領域,特別是腸胃病學中,正發揮重要作用,改善資訊獲取、診斷及個性化治療。它們能有效解讀醫學文獻,提供即時知識,並支持醫學教育。儘管潛力巨大,LLMs 在臨床實踐中的整合仍需進一步研究與監管。最近的研究顯示,LLMs 在結腸鏡檢查及癌症篩檢等方面表現良好,但仍面臨數據完整性、準確性等挑戰。成功整合需針對特定情境進行調整,並遵循指導方針。 PubMed DOI

這項研究評估大型語言模型(LLM)對醫師診斷推理的影響,與傳統資源相比。研究於2023年11月29日至12月29日進行,參與者來自多所學術機構的醫師,分為兩組:一組使用LLM和傳統資源,另一組僅用傳統資源。結果顯示,LLM組的中位診斷推理分數為76%,略高於傳統組的74%,但差異不顯著(P = .60)。不過,LLM的單獨表現比傳統資源高出16個百分點(P = .03),顯示人工智慧在臨床實踐中的潛力。 PubMed DOI

這項研究比較了十五個大型語言模型(LLMs)在處理眼科案例的表現,測試來自《JAMA Ophthalmology》的二十個案例。結果顯示,這些模型的平均得分為19,三個模型(ChatGPT 3.5、Claude Pro和Copilot Pro)表現優於平均,其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平,對一般人來說較難理解,但對眼科醫生則可接受。研究認為,雖然LLMs的準確性不足以單獨用於病人護理,但在協助醫生方面顯示出潛力,特別是訂閱制模型。 PubMed DOI

這篇系統性回顧探討大型語言模型(LLMs)在胃腸科及內視鏡的應用,強調其在提升診斷準確性、自動化文檔處理及改善專家教育和病人參與方面的潛力。回顧分析了21篇來自MEDLINE、Embase和Cochrane Central的研究,結果顯示5篇偏倚風險低,16篇中等風險。LLMs能有效傳播醫療資訊、協助諮詢及生成手術報告,但仍面臨數據隱私、準確性及跨學科合作等挑戰,需重視解決這些問題,以發揮其在胃腸內視鏡實務中的潛力。 PubMed DOI

這項研究探討了兩種大型語言模型(LLMs)在胃腸科臨床實踐中的應用,分別是自訂的GPT模型和傳統的GPT-4o。研究發現,自訂模型在15個臨床問題中正確回答了8個,而研究員則回答了10個。傳統的GPT-4o表現最佳,正確率達14/15。雖然兩種模型的表現略低於專家醫生,但顯示出在病人諮詢等專業任務中的潛力。研究強調了RAG技術的重要性及臨床醫師監督的必要性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示,Med-Go 的中位數得分為37.5,優於其他模型,而 Gemini 得分最低,為33.0,差異顯著(p < 0.001)。所有模型在鑑別診斷上表現較弱,但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練,以提升效能,並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

這項研究評估了幾個大型語言模型(LLMs)在回答急性膽囊炎相關臨床問題的準確性,依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview,針對十個問題進行評分。結果顯示,ChatGPT4.0對90%的問題提供一致回答,其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好,但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力,但也需認識其局限性,透過持續改進可增強醫師教育及病患資訊,助於臨床決策。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI