Application of Large Language Models in Medical Training Evaluation-Using ChatGPT as a Standardized Patient: Multimetric Assessment.
大型語言模型在醫學訓練評估中的應用 - 使用 ChatGPT 作為標準化病人：多指標評估。 J Med Internet Res 2025-01-01

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人，特別是在病史採集方面。研究分為兩個階段：第一階段評估其可行性，模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性，並調整提示以增強回應。結果顯示，ChatGPT能有效區分不同質量的回應，經過修訂的提示使其準確性提高了4.926倍。整體而言，研究表明ChatGPT可作為模擬醫學評估的工具，並有潛力改善醫學訓練。 PubMed DOI

Evaluating interactions of patients with large language models for medical information.
評估患者與大型語言模型在醫療資訊上的互動。 BJU Int 2025-02-19

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月，共招募300名患者，評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究，結果顯示大多數患者認為聊天機器人的回應有用且易懂，但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出，這類模型可增強患者教育，並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Which AI doctor would you like to see? Emulating healthcare provider-patient communication models with GPT-4: proof-of-concept and ethical exploration.
您希望看到哪位 AI 醫生？以 GPT-4 模擬醫療提供者與病人之間的溝通模式：概念驗證與倫理探索。 J Med Ethics 2025-03-03

這篇論文探討如何利用大型語言模型（LLMs），像是ChatGPT-4，來改善醫療溝通，讓病人能選擇喜歡的溝通風格。研究基於Emanuel和Emanuel的四種溝通模式：父權式、資訊式、詮釋式和審議式，旨在滿足病人的需求與偏好。不過，論文也提到潛在風險，如可能加深偏見及LLMs的說服性，可能導致病人與醫療提供者之間的互動出現意外操控。 PubMed DOI

Virtual Patient Simulations Using Social Robotics Combined With Large Language Models for Clinical Reasoning Training in Medical Education: Mixed Methods Study.
結合社交機器人和大型語言模型的虛擬病人模擬在醫學教育中進行臨床推理訓練的混合方法研究。 J Med Internet Res 2025-03-07

這項研究探討社交機器人虛擬病人平台與大型語言模型在醫學生臨床推理訓練中的效果，並與傳統電腦平台比較。瑞典的15名醫學生參與，結果顯示社交機器人平台更具真實感，對學習幫助更大，平均分數較高。定性反饋指出該機器人在臨床推理、溝通及情感技能訓練上的優勢，但也提到一些技術限制。研究建議將社交機器人和大型語言模型整合進虛擬病人模擬中，以提升醫學教育的學習體驗，並提出改進建議。 PubMed DOI

Summarizing Online Patient Conversations Using Generative Language Models: Experimental and Comparative Study.
使用生成語言模型總結線上病患對話：實驗性和比較研究。 JMIR Med Inform 2025-04-14

這項研究探討大型語言模型（LLMs）在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型，並測試不同的提示策略。結果顯示，GPT-3.5在零-shot提示中表現最佳，並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解，但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

Development of a GPT-4-Powered Virtual Simulated Patient and Communication Training Platform for Medical Students to Practice Discussing Abnormal Mammogram Results With Patients: Multiphase Study.
開發以 GPT-4 為核心的虛擬模擬病人與溝通訓練平台，供醫學生練習與病人討論異常乳房攝影（Mammogram）結果：多階段研究 JMIR Form Res 2025-04-17

這項研究開發了一個用GPT-4打造的虛擬模擬病人，幫助醫學生練習和病人討論異常乳房攝影結果。團隊邀集多方專家設計情境，並多次測試調整。GPT-4讓對話更自然，也能給學習者回饋，但有時會誤判溝通流程。初步成果不錯，接下來會讓醫學生實際體驗，評估可行性和接受度。 PubMed DOI

Beyond Traditional Simulation: An Exploratory Study on the Effectiveness and Acceptability of ChatGPT‑4o Advanced Voice Mode for Communication Skills Practice Among Medical Students.
超越傳統模擬：探討 ChatGPT‑4o 進階語音模式於醫學生溝通技巧練習之成效與可接受性的初步研究 Cureus 2025-06-20

這項研究發現，讓醫學生用 ChatGPT 扮演「標準化病人」練習溝通，能提升他們面對困難情境的信心，學生覺得這種方式安全又方便，回饋也很詳細。不過，AI 在情感表現和技術上還有待加強，不同學校學生的接受度也不一樣。由於樣本少、沒對照組，結果僅供參考，未來還需更大規模的客觀研究。 PubMed DOI

Implementing Large Language Models in Health Care: Clinician-Focused Review With Interactive Guideline.
在醫療保健中導入大型語言模型：以臨床醫師為中心的綜述與互動式指引 J Med Internet Res 2025-07-11

這篇綜述分析270篇文獻，發現現有大型語言模型（如GPT-4）雖然能協助醫師處理多種臨床任務，但沒有單一模型能全面勝任所有需求，專業任務還需客製化。多數先進模型又是封閉原始碼，造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引，幫助醫師選擇合適的LLM。 PubMed DOI

Synthetic Patient-Physician Conversations Simulated by Large Language Models: A Multi-Dimensional Evaluation.
由大型語言模型模擬的虛擬醫病對話：多面向評估 Sensors (Basel) 2025-07-30

這項研究比較四款主流大型語言模型在產生整形外科醫病對話的表現，結果顯示它們都能產生真實又實用的對話，平均分數都超過4.5分。雖然 Gemini Pro 2.5 和 Claude 3.7 Sonnet 表現稍好，但彼此間沒有明顯差異。這些模型適合用於醫學教育和研究，但還是要注意多元性和偏見的問題。 PubMed DOI

原始文章

站上相關主題文章列表