The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Classifying Unstructured Text in Electronic Health Records for Mental Health Prediction Models: Large Language Model Evaluation Study.
電子健康紀錄中非結構化文本的分類以進行心理健康預測模型：大型語言模型評估研究。 JMIR Med Inform 2025-01-26

這項研究探討大型語言模型（LLMs）在分類與心理健康相關的電子健康紀錄（EHRs）術語的有效性，並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據，分析了因心理健康問題入院的病人EHR。結果顯示，LLM與臨床醫生在術語的廣泛分類上達成高一致性（κ=0.77），但在具體的心理健康（κ=0.62）和身體健康術語（κ=0.69）上則較低，顯示出LLM的變異性。儘管如此，研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

Inductive reasoning with large language models: A simulated randomized controlled trial for epilepsy.
大型語言模型的歸納推理：針對癲癇的模擬隨機對照試驗。 Epilepsy Res 2025-02-28

這項研究探討了人工智慧，特別是大型語言模型（LLMs），在模擬隨機臨床試驗中對癲癇藥物cenobamate的應用。試驗包含240名患者，分為安慰劑組和全劑量藥物組。AI能準確分析臨床筆記，評估藥物的療效與安全性，結果顯示AI分析與人類分析相近，僅在療效識別上有小差異。這顯示AI在未來臨床研究中具備高效且可擴展的潛力，能減少對傳統數據挖掘方法的需求。 PubMed DOI

Cross sectional pilot study on clinical review generation using large language models.
使用大型語言模型生成臨床評估的橫斷面初步研究。 NPJ Digit Med 2025-03-20

隨著醫學文獻快速增長，使用大型語言模型（LLMs）來創建臨床評估的興趣也在上升。不過，對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估，發現LLMs雖然能快速產出內容，但通常缺乏深度、參考文獻少且邏輯不夠一致。此外，LLMs常引用不知名期刊，且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足，顯示需要改進檢測方法和建立更強的倫理框架，以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型（LLM）作為評審自動化評估醫療領域 AI 文字生成 medRxiv 2025-05-02

本研究提出用大型語言模型（LLM）自動評估AI生成的電子健康紀錄（EHR）摘要，效果和專家評分高度一致，尤其是像GPT-3這類模型。這種方法省時又可靠，有助於確保醫療AI摘要的品質與安全性，適合大規模應用。 PubMed DOI

Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.
將標題「Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.」翻譯為繁體中文(zh-TW)如下：「評估大型語言模型與大型推理模型作為急診內科決策支援工具的應用」 Comput Biol Med 2025-05-13

最新研究發現，OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多，診斷和收治判斷準確率都超過九成，甚至在異常檢驗判讀上還拿到滿分。相比之下，Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說，o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI

Using large language models (LLMs) to apply analytic rubrics to score post-encounter notes.
使用大型語言模型（LLMs）應用分析性評分規準於後診紀錄評分 Med Teach 2025-05-17

這項研究發現，大型語言模型（LLMs）在有明確、結構化提示下，能準確且一致地評分醫學生臨床紀錄，但如果只給簡單指示，結果會不穩定。LLM有時會算錯總分，需要外部協助。整體來說，經過優化後，LLM有潛力成為醫學教育自動評分工具，但針對更複雜的評分系統還需進一步研究。 PubMed DOI

Large language model discharge summary preparation using real-world electronic medical record data shows promise.
使用真實世界電子病歷資料進行大型語言模型出院摘要撰寫展現潛力 Intern Med J 2025-05-28

**重點摘要：** 這項研究測試了兩個大型語言模型（LLMs），用來從真實的臨床紀錄自動產生出院摘要，並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多，顯示LLMs有潛力協助醫師準備出院摘要，進而減輕臨床醫師的行政工作負擔。 PubMed DOI

A large language model improves clinicians' diagnostic performance in complex critical illness cases.
大型語言模型提升臨床醫師在複雜重症病例中的診斷表現 Crit Care 2025-06-06

這項研究發現，DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症，讓診斷正確率從 27% 提升到 58%，AI 自己的正確率則是 60%。有 AI 幫忙時，住院醫師不只診斷更準確，速度也更快，鑑別診斷品質也提升。整體來說，這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

Verifiable Summarization of Electronic Health Records Using Large Language Models to Support Chart Review.
使用大型語言模型驗證性摘要電子健康紀錄以支援病歷審查 medRxiv 2025-06-12

這項研究發現，用大型語言模型自動產生心臟衰竭住院摘要，能幫助部分醫師更快回答問題，且準確率沒變。大多數醫師認為這樣能省時間，也願意使用，但摘要格式要配合個人需求。整體來說，LLM有助提升醫師效率，但摘要內容還需客製化。 PubMed DOI

原始文章

站上相關主題文章列表