原始文章

這項研究發現,用大型語言模型(像Llama3和Phi3)分析護理紀錄來偵測譫妄,比傳統的關鍵字比對更準確。特別是finetuning後的Phi3(3.8B)模型,準確率高達90.24%,AUROC也有96.07%,顯示AI有助於提升臨床譫妄偵測的效率和準確性。 PubMed DOI


站上相關主題文章列表

癡呆症的診斷在全球醫療中面臨挑戰,主要因為其複雜性及電子健康紀錄的不一致性。傳統診斷方法可能會漏掉或錯誤識別病例,因此需要改進工具。本研究探討人工智慧(AI)及大型語言模型(LLMs)在提升癡呆症檢測的潛力。研究結果顯示,使用GPT-4的患者紀錄聚合方法達到最高準確率0.86,顯示大型語言模型能顯著改善癡呆症診斷的準確性,優於傳統方法。 PubMed DOI

這項研究探討了名為DELSTAR的客製化大型語言模型,旨在協助臨床藥學研究,特別是針對藥物相關的譫妄問題。研究評估DELSTAR在回答複雜臨床問題上的能力與表現,結果顯示其提供的資訊比傳統文獻回顧更準確且全面。DELSTAR的基礎模型中,GPT-3.5和GPT-4o表現最佳,但仍需改進數據品質和性能。總體而言,DELSTAR在臨床藥學研究中展現潛力,建議進一步微調以提升效能。 PubMed DOI

這項研究用GPT-4o和Llama3.3等大型語言模型,測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示,這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀,有機會讓癌症登記流程更快、更可靠,提升公共衛生和臨床照護品質。 PubMed DOI

目前用醫療理賠資料來判斷阿茲海默症和相關失智症,其實準確度不太理想。這篇研究用AI文字分類模型(像深度學習和大型語言模型)來分析電子病歷,結果發現Llama 2這種LLM模型表現最好,準確度明顯贏過傳統方法(AUC 0.95比0.85)。其他AI模型也比傳統方法優。這顯示用AI分析病歷有助於更準確找出ADRD病人,但還需要更多資料驗證。 PubMed DOI

這項研究探討如何用 Llama 3.1-8B 這類大型語言模型,從澳洲長照機構的護理紀錄中擷取失智症患者的躁動行為和營養不良風險資訊。結果發現,少樣本學習比零樣本學習好,PEFT 技術能提升兩者表現,RAG 只對少樣本有幫助。最佳組合是少樣本加 RAG,但零樣本加 PEFT 也差不多好,提供臨床資訊擷取的實用參考。 PubMed DOI

一項涵蓋13家醫院的研究發現,GPT-4-Turbo這種大型語言模型在判斷病人是否有近期長照機構接觸史時,準確度跟人工差不多甚至更高,速度快25倍、成本省20倍,還能抓出人工審查的錯誤。這代表AI能有效從醫療紀錄中擷取重要資訊,幫助提升感染控制和醫院作業效率。 PubMed DOI

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed

研究團隊開發了一套經微調的大型語言模型,能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀,準確度(AUROC)高達0.97-0.99,優於傳統方法。這些症狀不僅能預測失智症診斷,還和腦部MRI結果有關,有助提升診斷準確率並推動相關研究。 PubMed DOI

這項研究用大型語言模型(LLMs)自動從電子病歷的臨床紀錄辨識失眠,準確度高於傳統BERT模型(F1分數93.0和85.7)。這個方法不只偵測失眠效果好,也有潛力應用在其他容易被忽略的疾病診斷上。 PubMed DOI

大部分醫療紀錄都是非結構化,讓資料分析很困難。這項研究測試九種大型語言模型,能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型,表現都很優秀,最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案,有機會取代人工處理。 PubMed DOI