A pilot feasibility study comparing large language models in extracting key information from ICU patient text records from an Irish population.
一項針對愛爾蘭人群 ICU 患者文本記錄中提取關鍵信息的大型語言模型比較的初步可行性研究。 Intensive Care Med Exp 2024-08-15

這項研究探討大型語言模型（LLMs）在生成重症監護病房（ICU）病人出院摘要的表現，分析了匿名臨床筆記。三個模型中，GPT-4 API的表現最佳，準確識別41.5%的關鍵臨床事件，ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異，但仍有小錯誤，且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看，這些LLM在生成出院摘要上有潛力，但仍需改進。 PubMed DOI

Evaluation Framework of Large Language Models in Medical Documentation: Development and Usability Study.
大型語言模型在醫療文檔中的評估框架：開發與可用性研究。 J Med Internet Res 2024-11-20

這項研究旨在開發和驗證一個框架，以評估大型語言模型（LLM）生成的急診室記錄的準確性和臨床適用性。研究中，52名參與者使用HyperCLOVA X LLM創建了33份記錄，並採用雙重評估方法進行分析。臨床評估顯示評估者之間的可靠性高，而定量評估則識別出七種主要錯誤類型，其中無效生成錯誤最為常見。研究結果顯示該框架在臨床可接受性上具備潛力，為未來的研究和應用提供了方向。 PubMed DOI

Developing and Evaluating Large Language Model-Generated Emergency Medicine Handoff Notes.
開發與評估大型語言模型生成的急診醫學交接筆記。 JAMA Netw Open 2024-12-03

這項研究探討大型語言模型（LLM）生成的急診醫學交接筆記，針對從急診轉入住院的病人進行。研究在紐約長老會/威爾康奈爾醫學中心進行，分析了1,600份病人紀錄。結果顯示，LLM生成的筆記在詞彙和細節上優於醫生撰寫的筆記，但在實用性和病人安全性方面略遜於醫生的評估。這強調了在臨床使用LLM時，醫生參與的重要性，並提供了評估病人安全的框架。 PubMed DOI

Evaluating Large Language Models in extracting cognitive exam dates and scores.
評估大型語言模型在提取認知考試日期和分數方面的表現。 PLOS Digit Health 2024-12-11

這項研究強調大型語言模型（LLMs）在臨床任務中的可靠性，特別是針對認知測試（如MMSE和CDR）的信息提取。經過分析135,307份臨床筆記，最終使用765份進行比較，結果顯示ChatGPT（GPT-4）在準確率、敏感性和精確度上均優於LlaMA-2。研究指出，ChatGPT在減少錯誤和幻覺方面表現較佳，並可能改善癡呆症的識別與治療。總之，這強調了對LLMs進行嚴格評估的重要性，以便更好地整合到醫療實踐中。 PubMed DOI

An evaluation framework for clinical use of large language models in patient interaction tasks.
大型語言模型在病患互動任務臨床應用的評估框架。 Nat Med 2025-01-03

將大型語言模型（LLMs）應用於臨床診斷，能提升醫生與病患的互動，但其實際使用的準備程度尚未充分評估。本文提出了醫學測試的對話推理評估框架（CRAFT-MD），透過自然對話來評估臨床LLMs的表現。研究發現，像GPT-4等模型在臨床對話推理和診斷準確性上存在顯著限制。未來建議進行真實的醫生-病患互動及徹底的病史採集，以確保這些模型能有效且倫理地融入醫療實踐。 PubMed DOI

The Clinicians' Guide to Large Language Models: A General Perspective With a Focus on Hallucinations.
大型語言模型的臨床醫師指南：一般觀點與聚焦於幻覺的探討。 Interact J Med Res 2025-01-28

大型語言模型（LLMs）有潛力改變醫療實務，但臨床醫師需注意相關風險，特別是幻覺風險—即模型生成的虛假資訊。這些幻覺可能因訓練數據問題或模型特性而產生，若不妥善管理，可能導致不準確的診斷和治療建議。為了降低這些風險，已開發出一套技術框架，旨在安全地將LLMs整合進臨床實務，並推動更廣泛的機構實施。 PubMed DOI

Cross sectional pilot study on clinical review generation using large language models.
使用大型語言模型生成臨床評估的橫斷面初步研究。 NPJ Digit Med 2025-03-20

隨著醫學文獻快速增長，使用大型語言模型（LLMs）來創建臨床評估的興趣也在上升。不過，對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估，發現LLMs雖然能快速產出內容，但通常缺乏深度、參考文獻少且邏輯不夠一致。此外，LLMs常引用不知名期刊，且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足，顯示需要改進檢測方法和建立更強的倫理框架，以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

Physician- and Large Language Model-Generated Hospital Discharge Summaries.
醫師與大型語言模型生成的出院摘要 JAMA Intern Med 2025-05-05

研究發現，大型語言模型（LLM）生成的出院摘要，品質和醫師寫的差不多，受歡迎程度也相近。LLM寫的內容比較精簡、結構清楚，但資訊沒那麼完整，錯誤率也稍高。不過這些錯誤通常不會造成傷害。只要有醫師審核，LLM生成的摘要很有機會成為醫院的好幫手。 PubMed DOI

Large Language Models in Medicine: Clinical Applications, Technical Challenges, and Ethical Considerations.
醫學中的大型語言模型：臨床應用、技術挑戰與倫理考量 Healthc Inform Res 2025-05-19

大型語言模型在醫療文件撰寫和決策輔助上很有潛力，但因準確性、驗證、偏見和隱私等問題，現階段還不適合完全自動化臨床應用。未來要安全有效導入，需加強研究、訂定明確規範，並維持人工監督。 PubMed DOI

Performance evaluation of large language models in pediatric nephrology clinical decision support: a comprehensive assessment.
大型語言模型於兒童腎臟科臨床決策支援之表現評估：全面性評估 Pediatr Nephrol 2025-06-03

這項研究發現，雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳，正確率達86.9%，但所有模型都會出現幻覺，甚至可能給出危險建議。即使用專業資料微調，推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作，還不適合獨立臨床應用，未來需加強可靠性與可解釋性。 PubMed DOI

原始文章

站上相關主題文章列表