原始文章

這項研究評估多種大型語言模型,利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示,大型且專業化的模型在基本資訊擷取表現最好,但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助,顯示LLMs自動化醫療文本分析有潛力,但還需改進。 PubMed DOI


站上相關主題文章列表

這項研究探討小型大型語言模型(sLLM)在從病理報告中提取關鍵資訊的效果。使用三個版本的Llama 2模型,參數從70億到700億不等,並在零樣本和五樣本學習情境下進行評估。結果顯示,700億參數的模型在五樣本情境下表現優異,顯示sLLM能有效提升數據提取的效率與準確性。研究強調範例學習的重要性,並討論模型大小、準確性及處理時間的權衡,支持在臨床環境中應用先進語言模型,以改善病人護理和生物醫學研究。 PubMed DOI

大型語言模型(LLMs)有潛力顯著改變臨床醫學,能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過,這些模型的有效運用需謹慎設計提示,以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念,以及運用策略性提示技術,對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解,能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在從電子健康紀錄中提取數據的表現,使用了50份合成醫療筆記。共測試了18個LLM,並與基準模型RoBERTa比較,涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等,準確率超過0.98,明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性,顯示出能有效協助數據提取,減輕醫療人員的負擔。不過,仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

這項研究提出了一種名為「GAPrompt」的新方法,旨在提升大型語言模型(LLMs)在自動化臨床評估中的應用,特別是針對電子健康紀錄(EHRs)中的中風評估。GAPrompt包含五個關鍵組件,包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示,GAPrompt能有效分析EHRs並提供定量評估,解決傳統中風評估的勞動密集問題,顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

從自由文本醫療紀錄中提取結構化數據,特別是病理報告,面臨不少挑戰。傳統方法因醫療語言複雜而困難重重。這項研究開發了一個端到端的LLM管道,能有效提取病理報告中的診斷、解剖部位等元素。透過人機協作,我們將重大錯誤率降至0.99%。在3520份報告中,識別腎腫瘤亞型的F1分數達0.99,顯示LLM提取管道在良好指示下可達接近專家準確性,並可應用於其他臨床信息提取任務。 PubMed DOI

開源大型語言模型(LLMs)在從放射科報告擷取標籤上,比傳統規則式工具(如 CheXpert)更準確。規模較大的 LLMs,特別在判讀困難異常(如肋骨骨折)時,敏感度更高。不同提示策略(如 chain-of-thought)效果不一。即使標籤有雜訊,用 LLM 擷取的標籤訓練影像分類器,表現仍不錯,但最終評估結果會受標註方法影響很大。因此,選對 LLM、提示方式和評估方法對醫療 AI 發展很重要。 PubMed DOI

這篇文章介紹了幾種常見的提示工程技巧,像是 zero-shot、few-shot 和 chain-of-thought,說明它們如何幫助提升 AI 在介入放射學領域的表現。內容也討論資料隱私、法規等挑戰,並展望未來像檢索增強生成、多模態模型等新方向。 PubMed DOI

這項研究用標準化、針對人類優化的提示語,讓大型語言模型標註六家醫院的放射科報告,結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語,LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

作者開發了一套端到端流程,運用大型語言模型(LLMs)從非結構化的病理報告中精準擷取並標準化資料,最初應用於腎臟腫瘤。這方法結合彈性提示設計、直接產生表格輸出及錯誤修正機制,於2,297份報告中達到極高準確率(macro F1最高0.99),也能應用於其他癌症,強調明確任務定義和跨領域合作的重要性。 PubMed DOI

這篇文章說明大型語言模型(LLMs)能準確從臨床文本抓取數值資料,像是檢驗數據和生命徵象。作者提出新提示策略和方法,能有效降低錯誤,並在標註病歷上驗證成果,也證明這方法適用於大量器官捐贈者資料分析,有助提升器官採集資料的研究可用性。 PubMed