原始文章

這項研究發現,用大型語言模型(像Llama3和Phi3)分析護理紀錄來偵測譫妄,比傳統的關鍵字比對更準確。特別是finetuning後的Phi3(3.8B)模型,準確率高達90.24%,AUROC也有96.07%,顯示AI有助於提升臨床譫妄偵測的效率和準確性。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是Llama 2和GPT-4,在電子健康紀錄中檢測認知衰退的有效性。研究在麻省總醫院進行,分析輕度認知障礙患者的臨床筆記,並將LLMs與傳統模型比較。結果顯示,GPT-4的表現優於Llama 2,但仍不及傳統模型。集成模型的表現最佳,達到90.2%的精確度。錯誤分析顯示模型間的錯誤特徵不同,建議結合LLMs與傳統模型以提升診斷效果。該研究獲得美國國家老齡化研究所及國家醫學圖書館的資助。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是Llama-2,如何在電子健康紀錄(EHRs)中檢測精神科入院紀錄的自殺風險。研究人員評估了不同Llama-2模型在100份精神科報告上的表現,並與專家定義的真實情況進行比較。經過德國微調的Llama-2模型表現最佳,準確率達87.5%,敏感性83.0%,特異性91.8%。結果顯示,LLMs能有效提取自殺相關資訊,並保持數據隱私,顯示其在監測精神科緊急情況及增強自殺管理上的潛在應用價值。 PubMed DOI

譫妄是一種嚴重的狀況,會導致注意力和認知功能突然下降,影響健康。由於其暫時性和多樣性,譫妄常被電子健康紀錄忽略。為了改善識別和診斷,專家小組建立了症狀分類和專門語料庫,並採用先進的自然語言處理技術,從臨床筆記中提取譫妄症狀。研究發現GatorTron模型表現最佳,達到最高F1分數,並進行錯誤分析以解決挑戰,這對於創建有效的診斷工具是重要的一步。 PubMed DOI

癡呆症的診斷在全球醫療中面臨挑戰,主要因為其複雜性及電子健康紀錄的不一致性。傳統診斷方法可能會漏掉或錯誤識別病例,因此需要改進工具。本研究探討人工智慧(AI)及大型語言模型(LLMs)在提升癡呆症檢測的潛力。研究結果顯示,使用GPT-4的患者紀錄聚合方法達到最高準確率0.86,顯示大型語言模型能顯著改善癡呆症診斷的準確性,優於傳統方法。 PubMed DOI

這項研究探討了名為DELSTAR的客製化大型語言模型,旨在協助臨床藥學研究,特別是針對藥物相關的譫妄問題。研究評估DELSTAR在回答複雜臨床問題上的能力與表現,結果顯示其提供的資訊比傳統文獻回顧更準確且全面。DELSTAR的基礎模型中,GPT-3.5和GPT-4o表現最佳,但仍需改進數據品質和性能。總體而言,DELSTAR在臨床藥學研究中展現潛力,建議進一步微調以提升效能。 PubMed DOI

這項研究用GPT-4o和Llama3.3等大型語言模型,測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示,這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀,有機會讓癌症登記流程更快、更可靠,提升公共衛生和臨床照護品質。 PubMed DOI

目前用醫療理賠資料來判斷阿茲海默症和相關失智症,其實準確度不太理想。這篇研究用AI文字分類模型(像深度學習和大型語言模型)來分析電子病歷,結果發現Llama 2這種LLM模型表現最好,準確度明顯贏過傳統方法(AUC 0.95比0.85)。其他AI模型也比傳統方法優。這顯示用AI分析病歷有助於更準確找出ADRD病人,但還需要更多資料驗證。 PubMed DOI

一項涵蓋13家醫院的研究發現,GPT-4-Turbo這種大型語言模型在判斷病人是否有近期長照機構接觸史時,準確度跟人工差不多甚至更高,速度快25倍、成本省20倍,還能抓出人工審查的錯誤。這代表AI能有效從醫療紀錄中擷取重要資訊,幫助提升感染控制和醫院作業效率。 PubMed DOI

研究團隊開發了一套經微調的大型語言模型,能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀,準確度(AUROC)高達0.97-0.99,優於傳統方法。這些症狀不僅能預測失智症診斷,還和腦部MRI結果有關,有助提升診斷準確率並推動相關研究。 PubMed DOI