原始文章

這項研究比較多種大型語言模型,發現經過微調的GatorTronGPT在從臨床紀錄中擷取鴉片類藥物過量和使用障礙的關鍵資訊上表現最佳。結果顯示,生成式LLM能有效協助擷取相關資訊,對後續研究和介入措施很有幫助。 PubMed


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)在藥物審查中的表現,特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM,發現ChatGPT在劑量方案上表現良好,但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用,但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議,而Gemini在基因組學上表現不錯。研究指出,LLM在藥物審查中有潛力,但整合進醫療系統對病人安全至關重要。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何分析1型糖尿病患者的持續血糖監測(CGM)數據。研究發現,GPT-4在10項定量指標中有9項達到完美準確度,並且在兩位臨床評分者的評估下,其生成的定性描述在準確性、完整性和安全性方面表現優異。這顯示GPT-4能有效總結CGM數據,可能提升糖尿病護理,並提供分析醫療數據的新方法。 PubMed DOI

這項研究探討如何從電子健康紀錄中提取與炎症性腸病(IBD)相關的病人報告結果(PROs),比較了傳統自然語言處理(tNLP)和大型語言模型(LLMs)如GPT-4的表現。研究發現,GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP,特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力,且不受人口統計或診斷偏見影響。 PubMed DOI

物質使用障礙(SUD)是影響個人健康與社會福祉的重要議題。診斷與治療SUD需考量多種因素,但現行的診斷系統如ICD-10常缺乏必要細節,醫師需依賴DSM-5補充資訊。傳統自然語言處理(NLP)在解讀臨床語言上有困難,但大型語言模型(LLMs)顯示出潛力。本研究探討如何利用LLMs從臨床筆記中提取SUD的嚴重程度資訊,實驗結果顯示開源LLM Flan-T5在召回率上優於傳統方法,能有效提升SUD患者的風險評估與治療規劃。 PubMed DOI

在電子病歷中找出藥物不良事件(ADEs)很困難,因為相關資訊多藏在醫師的自由書寫紀錄裡。人工審查又很耗時,所以需要自動化工具。這項研究用大型語言模型來偵測ADEs,發現不到15%的出院紀錄會明確記載ADEs與藥物的關聯,顯示通報機制還有很大改進空間。 PubMed DOI

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed

這篇研究用標註過的出院摘要,建立大規模資料集,並用多種大型語言模型來偵測八種物質使用情形。經過微調的 Llama-DrugDetector-70B 模型,對大多數物質的偵測準確率很高(F1 分數 ≥ 0.95),但像鴉片類藥物和多重物質使用的偵測還有進步空間。整體來說,LLM 有助提升臨床紀錄中物質使用的辨識,但還需要更多研究才能廣泛應用。 PubMed DOI

這項研究用YouTube留言分析鴉片類藥物混用經驗,並分辨正負面影響。團隊運用GPT-3.5 Turbo等AI技術,準確辨識高風險用藥和過量風險,F1-score高達0.95,優於傳統方法。結果顯示,AI分析社群媒體有助於更了解鴉片危機,並提升介入策略效果。 PubMed DOI

大部分醫療紀錄都是非結構化,讓資料分析很困難。這項研究測試九種大型語言模型,能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型,表現都很優秀,最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案,有機會取代人工處理。 PubMed DOI