原始文章

這項研究比較了大型語言模型(LLMs)與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例,發現LLM Claude 3.5 Sonnet的準確率達76.1%,明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具,提供高效且具成本效益的診斷支持。 PubMed DOI


站上相關主題文章列表

這項研究探討了兩種大型語言模型(LLMs)在胃腸科臨床實踐中的應用,分別是自訂的GPT模型和傳統的GPT-4o。研究發現,自訂模型在15個臨床問題中正確回答了8個,而研究員則回答了10個。傳統的GPT-4o表現最佳,正確率達14/15。雖然兩種模型的表現略低於專家醫生,但顯示出在病人諮詢等專業任務中的潛力。研究強調了RAG技術的重要性及臨床醫師監督的必要性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示,Med-Go 的中位數得分為37.5,優於其他模型,而 Gemini 得分最低,為33.0,差異顯著(p < 0.001)。所有模型在鑑別診斷上表現較弱,但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練,以提升效能,並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

這項研究評估了幾個大型語言模型(LLMs)在回答急性膽囊炎相關臨床問題的準確性,依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview,針對十個問題進行評分。結果顯示,ChatGPT4.0對90%的問題提供一致回答,其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好,但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力,但也需認識其局限性,透過持續改進可增強醫師教育及病患資訊,助於臨床決策。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究介紹了Articulate Medical Intelligence Explorer (AMIE),一個大型語言模型,旨在提升醫療診斷推理。研究評估AMIE在生成鑑別診斷的有效性,並與傳統方法比較。二十位臨床醫師針對302個複雜案例進行評估,結果顯示AMIE的準確率達59.1%,遠超過未經協助的醫師33.6%。使用AMIE的醫師準確率為51.7%,也高於僅依賴傳統資源的醫師。這些結果顯示AMIE有潛力提升診斷準確性,並強調在真實環境中進一步評估的必要性。 PubMed DOI

這項研究發現,Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師,正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師,但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒,醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

最新研究發現,OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多,診斷和收治判斷準確率都超過九成,甚至在異常檢驗判讀上還拿到滿分。相比之下,Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說,o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI

這項研究發現,Claude 3.5 Sonnet大型語言模型在判斷死亡原因時,若同時結合臨床病史和死後CT報告,準確率最高(可達78%),比只用單一資訊還要好。不同疾病類型的準確率會有差異,血液腫瘤的提升最明顯。整體來說,整合多種資訊能有效提升AI判斷死亡原因的表現。 PubMed DOI

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 PubMed DOI