原始文章

多代理對話(MAC)框架是為了提升疾病診斷而設計的,透過臨床多學科團隊的合作。在一項針對302個罕見疾病案例的研究中,MAC的表現超越了GPT-3.5和GPT-4等單一模型,無論是在初診還是後續諮詢中,診斷準確性和建議檢測效果都更佳。最佳配置為四位醫生代理和一位監督代理,並以GPT-4為基礎模型。MAC在多次測試中表現穩定,並且在性能上優於其他方法,顯著提升了大型語言模型的診斷能力,為未來醫療研究提供了新方向。 PubMed DOI


站上相關主題文章列表

將大型語言模型(LLMs)應用於臨床診斷,能提升醫生與病患的互動,但其實際使用的準備程度尚未充分評估。本文提出了醫學測試的對話推理評估框架(CRAFT-MD),透過自然對話來評估臨床LLMs的表現。研究發現,像GPT-4等模型在臨床對話推理和診斷準確性上存在顯著限制。未來建議進行真實的醫生-病患互動及徹底的病史採集,以確保這些模型能有效且倫理地融入醫療實踐。 PubMed DOI

生成式人工智慧(GAI)在醫療領域有顯著進展,但對於罕見疾病如原發性免疫疾病(PI)的輔助效果仍待探討。本研究評估了六種大型語言模型(LLMs)在提供PI臨床指導的表現。結果顯示,GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%,其中GPT-4o以96.2%領先。其他模型表現較差,準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力,但仍需改進以提升臨床實用性。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究介紹了Articulate Medical Intelligence Explorer (AMIE),一個大型語言模型,旨在提升醫療診斷推理。研究評估AMIE在生成鑑別診斷的有效性,並與傳統方法比較。二十位臨床醫師針對302個複雜案例進行評估,結果顯示AMIE的準確率達59.1%,遠超過未經協助的醫師33.6%。使用AMIE的醫師準確率為51.7%,也高於僅依賴傳統資源的醫師。這些結果顯示AMIE有潛力提升診斷準確性,並強調在真實環境中進一步評估的必要性。 PubMed DOI

這項研究推出 RDguru 智慧診斷系統,專為罕見疾病設計,結合 GPT-4、醫學知識和診斷工具。實測 238 個案例,RDguru 前 10 答案有 69.1% 命中正確診斷,前 5 有 63.6%,第一個建議正確率為 41.9%,能有效協助臨床決策。 PubMed

這項研究比較 ChatGPT-4、Gemini 1.5 和傳統診斷系統 DXplain,在36個臨床案例中測試有無檢驗數據的表現。沒檢驗數據時,DXplain雖然正確診斷次數較多,但差異不顯著。有檢驗數據後,三者表現都提升。研究建議結合 LLMs 的語言理解和 DDSS 的推理能力,有望提升診斷支援效果。 PubMed DOI

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 PubMed DOI

單靠大型語言模型(LLMs)做高風險決策有風險,因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統,分析四萬多個診斷案例後發現,醫師和LLM合作比單獨使用任何一方都更準確,因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI