原始文章

這項研究提出了一個框架,利用Meta的Llama-3-8B大型語言模型來檢測法語電子健康紀錄中的痛風。由於“goutte”有多重含義,準確檢測變得困難。研究比較了該模型與傳統的正則表達式方法,使用700段來自瑞士日內瓦大學醫院的EHR資料。結果顯示,該模型在痛風檢測上達到92.7%的正確預測率和95.4%的整體準確率,並在600段鈣焦磷酸鹽沉積病的資料上也表現良好,達94.1%準確率。這顯示LLM在非英語EHR中識別疾病的潛力,有助於改善臨床試驗的病人招募。 PubMed DOI


站上相關主題文章列表

這項研究評估了多種大型語言模型(LLMs)在從電子健康紀錄中提取數據的表現,使用了50份合成醫療筆記。共測試了18個LLM,並與基準模型RoBERTa比較,涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等,準確率超過0.98,明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性,顯示出能有效協助數據提取,減輕醫療人員的負擔。不過,仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

生成式人工智慧(GAI)在醫療領域有顯著進展,但對於罕見疾病如原發性免疫疾病(PI)的輔助效果仍待探討。本研究評估了六種大型語言模型(LLMs)在提供PI臨床指導的表現。結果顯示,GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%,其中GPT-4o以96.2%領先。其他模型表現較差,準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力,但仍需改進以提升臨床實用性。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

大型語言模型(LLMs)如GPT-4o在醫療應用,特別是鑑別診斷方面展現潛力。研究人員創建了4,967個臨床案例,涵蓋378種遺傳疾病,並翻譯HPO術語,生成多語言提示。結果顯示,GPT-4o在英語中正確識別排名第一的診斷達19.8%,而在八種非英語語言中,正確率介於16.9%到20.5%之間。這顯示該模型在非英語臨床環境中的應用潛力,並得到多方支持,推進LLMs在醫療領域的合作努力。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰,並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷,發現40例肺栓塞不良事件,流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組,評估了四個開源模型,結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能,並建議未來應加強上下文理解和醫學術語解釋,以提升檢測能力。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究開發了一種利用大型語言模型(LLMs)從電子健康紀錄(EHR)中識別健康狀況的策略,解決了手動標記的繁瑣問題。研究將2015年的心臟登記隊列與阿爾伯塔省的EHR系統結合,分析臨床筆記以檢測急性心肌梗塞、糖尿病和高血壓。結果顯示,LLM方法在敏感度和陰性預測值上優於傳統ICD代碼,且檢測趨勢穩定。這種方法有潛力提升EHR在即時疾病監測中的應用效率。 PubMed DOI

這項研究比較了四種AI語言模型在風濕病診斷上的表現,發現ChatGPT-4和Claude AI的準確率最高,超過85%,尤其在感染性疾病診斷上表現突出。不過,所有AI在腫瘤相關疾病的診斷上都比較弱。整體來說,先進AI有助於提升非洲地區風濕病診斷,但對某些疾病還有改進空間。 PubMed DOI

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed