原始文章

這項研究探討大型語言模型(LLMs),特別是Llama 2和GPT-4,在電子健康紀錄中檢測認知衰退的有效性。研究在麻省總醫院進行,分析輕度認知障礙患者的臨床筆記,並將LLMs與傳統模型比較。結果顯示,GPT-4的表現優於Llama 2,但仍不及傳統模型。集成模型的表現最佳,達到90.2%的精確度。錯誤分析顯示模型間的錯誤特徵不同,建議結合LLMs與傳統模型以提升診斷效果。該研究獲得美國國家老齡化研究所及國家醫學圖書館的資助。 PubMed DOI


站上相關主題文章列表

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究評估大型語言模型(LLMs)在識別晚期癌症患者的預立醫療計畫(ACP)文件的有效性。研究在達納法伯癌症中心進行,將LLM的表現與傳統手動查閱和自然語言處理(NLP)方法比較。使用GPT-4,研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好,整體準確率介於0.81到0.91之間,特別在複雜主題上優於NLP。雖然精確度略低,但LLM的假陽性對臨床管理仍具相關性,建議進一步研究以增強此方法。 PubMed DOI

這項研究強調大型語言模型(LLMs)在臨床任務中的可靠性,特別是針對認知測試(如MMSE和CDR)的信息提取。經過分析135,307份臨床筆記,最終使用765份進行比較,結果顯示ChatGPT(GPT-4)在準確率、敏感性和精確度上均優於LlaMA-2。研究指出,ChatGPT在減少錯誤和幻覺方面表現較佳,並可能改善癡呆症的識別與治療。總之,這強調了對LLMs進行嚴格評估的重要性,以便更好地整合到醫療實踐中。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT 和 Llama2,在提取與認知測試相關的臨床筆記資訊的表現。研究使用了765份臨床筆記,結果顯示ChatGPT在提取迷你心理狀態檢查(MMSE)和認知癡呆評分(CDR)方面的準確率均優於Llama2。特別是在MMSE的準確率上,ChatGPT達83%,而Llama2僅66.4%。此外,ChatGPT在敏感性和真陰性率上也表現更佳。研究強調了大型語言模型在癡呆研究中的潛力及其評估的重要性。 PubMed DOI

癡呆症的診斷在全球醫療中面臨挑戰,主要因為其複雜性及電子健康紀錄的不一致性。傳統診斷方法可能會漏掉或錯誤識別病例,因此需要改進工具。本研究探討人工智慧(AI)及大型語言模型(LLMs)在提升癡呆症檢測的潛力。研究結果顯示,使用GPT-4的患者紀錄聚合方法達到最高準確率0.86,顯示大型語言模型能顯著改善癡呆症診斷的準確性,優於傳統方法。 PubMed DOI

阿茲海默症是一種漸進性的神經系統疾病,影響全球數百萬人,導致認知能力下降和記憶喪失。傳統診斷方法難以早期檢測。本研究提出一種新方法,結合自然語言處理和大型語言模型,利用GenBERT來識別阿茲海默症的生物標記。透過整合臨床數據,GenBERT在早期預測方面表現優異,準確率達98.30%,並顯示出高敏感性和特異性,為阿茲海默症的早期診斷提供了可靠工具,可能改變未來的檢測與治療策略。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

目前用醫療理賠資料來判斷阿茲海默症和相關失智症,其實準確度不太理想。這篇研究用AI文字分類模型(像深度學習和大型語言模型)來分析電子病歷,結果發現Llama 2這種LLM模型表現最好,準確度明顯贏過傳統方法(AUC 0.95比0.85)。其他AI模型也比傳統方法優。這顯示用AI分析病歷有助於更準確找出ADRD病人,但還需要更多資料驗證。 PubMed DOI

這項研究開發的 CD-Tron 臨床語言模型,能在 MCI 診斷前,從超過 2,000 名病患的電子病歷中,早期偵測認知衰退。CD-Tron 表現比傳統模型更好,準確率和敏感度都很高,還能用 SHAP 值解釋預測結果,提升臨床透明度,展現語言模型在醫療早期偵測的潛力。 PubMed DOI

研究團隊開發了一套經微調的大型語言模型,能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀,準確度(AUROC)高達0.97-0.99,優於傳統方法。這些症狀不僅能預測失智症診斷,還和腦部MRI結果有關,有助提升診斷準確率並推動相關研究。 PubMed DOI