The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Enhancing doctor-patient communication using large language models for pathology report interpretation.
利用大型語言模型增強醫生與病人之間的溝通，以解讀病理報告。 BMC Med Inform Decis Mak 2025-01-24

這項研究探討大型語言模型（如GPT-4）如何提升術後病理報告的可讀性與理解度。研究分析了698份來自四家醫院的病理報告，重點在惡性腫瘤。透過創建詮釋性病理報告（IPRs）模板，發現使用IPRs後，病人的理解分數從5.23提升至7.98，醫生與病人溝通時間也減少超過70%。雖然未直接測量病人的治療結果，但改善的理解度和溝通效率可能對病人的參與度有正面影響，顯示人工智慧在醫療溝通中的潛力。 PubMed DOI

Evaluating interactions of patients with large language models for medical information.
評估患者與大型語言模型在醫療資訊上的互動。 BJU Int 2025-02-19

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月，共招募300名患者，評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究，結果顯示大多數患者認為聊天機器人的回應有用且易懂，但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出，這類模型可增強患者教育，並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Summarizing Online Patient Conversations Using Generative Language Models: Experimental and Comparative Study.
使用生成語言模型總結線上病患對話：實驗性和比較研究。 JMIR Med Inform 2025-04-14

這項研究探討大型語言模型（LLMs）在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型，並測試不同的提示策略。結果顯示，GPT-3.5在零-shot提示中表現最佳，並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解，但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

Exploring large language models for summarizing and interpreting an online brain tumor support forum.
運用大型語言模型於線上腦腫瘤支持論壇的摘要與詮釋之探討 Digit Health 2025-04-29

這項研究發現，GPT-4在總結腦瘤支持論壇貼文時，品質和效率都勝過GPT-3.5、Llama 3和傳統主題分析法，結果也跟人工分析相近，但速度快很多。雖然GPT-4很有潛力協助健康相關資料分析，但還是有模型偏誤和處理限制等問題需要注意。 PubMed DOI

Extraction of Normalized Symptom Mentions From Clinical Narratives Using Large Language Models.
使用大型語言模型從臨床敘述中擷取標準化症狀提及 AMIA Annu Symp Proc 2025-05-26

**重點整理：** 這項研究顯示，只要搭配詳細的提示、範例和逐步推理，大型語言模型（LLMs）就能夠準確地從臨床紀錄中擷取出常見的病人症狀。跟傳統的機器學習方法相比，LLMs在從自由文本中辨識和標準化症狀資訊方面表現得更好，這有助於提升醫療流程，也能支持更多相關研究。 PubMed

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Towards Optimizing LLM Use in Healthcare: Identifying Patient Questions in MyChart Messages.
優化 LLM 在醫療保健中的應用：識別 MyChart 訊息中的病患提問 AMIA Annu Symp Proc 2025-05-26

這項研究分析超過四百萬則病患與醫療人員的訊息，發現用大型語言模型（LLMs）協助處理臨床訊息有潛力，但因訊息多半口語且問題常隱含，偵測難度高。研究也發現有四分之一的病患問題沒被回覆，凸顯準確辨識問題的重要性，並建議將LLMs納入醫療訊息流程。 PubMed

When investigator meets large language models: a qualitative analysis of cancer patient decision-making journeys.
當研究者遇上大型語言模型：癌症病患決策歷程的質性分析 NPJ Digit Med 2025-06-05

這項研究發現，LLM像ChatGPT-4o能快速抓到結構和後勤主題，但人類分析師更能掌握情感和心理細節。結合兩者分析，有助提升健康研究的廣度和深度。作者建議未來可採用這種混合方式。 PubMed DOI

原始文章

站上相關主題文章列表