原始文章

這項研究探討大型語言模型(LLMs),特別是Llama 2和GPT-4,在電子健康紀錄中檢測認知衰退的有效性。研究在麻省總醫院進行,分析輕度認知障礙患者的臨床筆記,並將LLMs與傳統模型比較。結果顯示,GPT-4的表現優於Llama 2,但仍不及傳統模型。集成模型的表現最佳,達到90.2%的精確度。錯誤分析顯示模型間的錯誤特徵不同,建議結合LLMs與傳統模型以提升診斷效果。該研究獲得美國國家老齡化研究所及國家醫學圖書館的資助。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在自然語言處理領域有潛力,可加速臨床實踐,如診斷、預防和治療。智能對話系統運用LLMs被視為治療的未來,尤其是在ChatGPT時代。這研究專注於在醫療保健領域運用LLMs,特別關注認知衰退和產後抑鬱。討論LLMs在醫療保健中的好處,如增進臨床任務和提供個人化醫療,以及相關擔憂,如數據隱私和公平性。這有助於全球討論將LLMs整合到醫療系統中。 PubMed DOI

這項研究比較了不同的機器學習技術,用於辨識臨床記錄中的認知衰退。他們發現,結合大型語言模型(LLM)、傳統機器學習和深度學習能夠取得最佳表現。這個整合模型具有高精確度、召回率和F1分數。研究顯示,將LLM與傳統模型結合使用,能夠透過彼此的優勢互補,提高診斷準確性。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

這項研究評估大型語言模型(LLMs)在識別晚期癌症患者的預立醫療計畫(ACP)文件的有效性。研究在達納法伯癌症中心進行,將LLM的表現與傳統手動查閱和自然語言處理(NLP)方法比較。使用GPT-4,研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好,整體準確率介於0.81到0.91之間,特別在複雜主題上優於NLP。雖然精確度略低,但LLM的假陽性對臨床管理仍具相關性,建議進一步研究以增強此方法。 PubMed DOI

這項研究強調大型語言模型(LLMs)在臨床任務中的可靠性,特別是針對認知測試(如MMSE和CDR)的信息提取。經過分析135,307份臨床筆記,最終使用765份進行比較,結果顯示ChatGPT(GPT-4)在準確率、敏感性和精確度上均優於LlaMA-2。研究指出,ChatGPT在減少錯誤和幻覺方面表現較佳,並可能改善癡呆症的識別與治療。總之,這強調了對LLMs進行嚴格評估的重要性,以便更好地整合到醫療實踐中。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT 和 Llama2,在提取與認知測試相關的臨床筆記資訊的表現。研究使用了765份臨床筆記,結果顯示ChatGPT在提取迷你心理狀態檢查(MMSE)和認知癡呆評分(CDR)方面的準確率均優於Llama2。特別是在MMSE的準確率上,ChatGPT達83%,而Llama2僅66.4%。此外,ChatGPT在敏感性和真陰性率上也表現更佳。研究強調了大型語言模型在癡呆研究中的潛力及其評估的重要性。 PubMed DOI

癡呆症的診斷在全球醫療中面臨挑戰,主要因為其複雜性及電子健康紀錄的不一致性。傳統診斷方法可能會漏掉或錯誤識別病例,因此需要改進工具。本研究探討人工智慧(AI)及大型語言模型(LLMs)在提升癡呆症檢測的潛力。研究結果顯示,使用GPT-4的患者紀錄聚合方法達到最高準確率0.86,顯示大型語言模型能顯著改善癡呆症診斷的準確性,優於傳統方法。 PubMed DOI

阿茲海默症是一種漸進性的神經系統疾病,影響全球數百萬人,導致認知能力下降和記憶喪失。傳統診斷方法難以早期檢測。本研究提出一種新方法,結合自然語言處理和大型語言模型,利用GenBERT來識別阿茲海默症的生物標記。透過整合臨床數據,GenBERT在早期預測方面表現優異,準確率達98.30%,並顯示出高敏感性和特異性,為阿茲海默症的早期診斷提供了可靠工具,可能改變未來的檢測與治療策略。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI