Doctor Versus Artificial Intelligence: Patient and Physician Evaluation of Large Language Model Responses to Rheumatology Patient Questions in a Cross-Sectional Study.
醫生對抗人工智慧：患者和醫師評估大型語言模型回答風濕病學患者問題的交叉研究。 Arthritis Rheumatol 2024-02-29

研究比較了患者對風濕病問題的大型語言模型（LLM）聊天機器人和醫師回答的評價。結果顯示，患者認為兩者在詳細度和易讀性上沒有太大差異。但風濕病專家卻認為AI回答在詳細度、易讀性和準確性上比醫師回答差。患者和醫師對AI回答的喜好有所不同，患者更難分辨AI生成的答案。總結來說，患者對AI回答的看法與醫師相似，但風濕病專家則認為AI回答表現較差。 PubMed DOI

Physician Versus Large Language Model Chatbot Responses to Web-Based Questions From Autistic Patients in Chinese: Cross-Sectional Comparative Analysis.
醫師與大型語言模型聊天機器人對自閉症患者網絡問題的中文回應：橫斷面比較分析。 J Med Internet Res 2024-04-30

研究評估大型語言模型對自閉症患者回應的效果，發現醫師回應更準確實用，而LLMs在同理心表現較佳。在將LLMs應用到臨床前，還需進一步研究和改進。 PubMed DOI

The potential and pitfalls of using a large language model such as ChatGPT, GPT-4, or LLaMA as a clinical assistant.
使用大型語言模型如ChatGPT、GPT-4或LLaMA作為臨床助手的潛力與陷阱。 J Am Med Inform Assoc 2024-07-17

研究評估了大型語言模型在醫療保健領域的應用，尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄，測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異，而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力，但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計，以更好地應用於醫療保健。 PubMed DOI

The Potential Impact of Large Language Models on Doctor-Patient Communication: A Case Study in Prostate Cancer.
大型語言模型對醫生與病人溝通的潛在影響：前列腺癌的案例研究。 Healthcare (Basel) 2024-08-09

近年來，大型語言模型（LLMs）已被應用於醫療領域，特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果，包括ChatGPT（3.5）、Gemini（Pro）和Co-Pilot（免費版），並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測，八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示，LLM，尤其是ChatGPT，通常提供比指南更準確且友好的資訊，顯示出其在改善醫療溝通上的潛力。不過，不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

Can large language models address unmet patient information needs and reduce provider burnout in the management of thyroid disease?
大型語言模型能否滿足患者未被滿足的信息需求並減少在甲狀腺疾病管理中的醫療提供者倦怠？ Surgery 2024-10-18

這項研究探討大型語言模型（LLMs），如ChatGPT，對甲狀腺疾病病人問題的回答效果，並與醫生的回應進行比較。分析了來自Reddit的33個問題，並收集了醫生及LLMs（GPT-3.5和GPT-4）的回應。結果顯示，GPT在準確性、質量和同理心上均優於醫生，特別是GPT-4表現最佳。這顯示LLMs能提供更準確、完整且具同理心的回應，可能有助於減輕醫生的工作負擔及降低職業倦怠。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Evaluating interactions of patients with large language models for medical information.
評估患者與大型語言模型在醫療資訊上的互動。 BJU Int 2025-02-19

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月，共招募300名患者，評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究，結果顯示大多數患者認為聊天機器人的回應有用且易懂，但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出，這類模型可增強患者教育，並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

A Future of Self-Directed Patient Internet Research: Large Language Model-Based Tools Versus Standard Search Engines.
自我導向病患網路研究的未來：大型語言模型工具與標準搜尋引擎的比較。 Ann Biomed Eng 2025-03-02

這項研究評估了幾個大型語言模型（LLM）聊天機器人，包括Google、Bard、GPT-3.5和GPT-4，對於慢性健康狀況的病人教育效果。研究針對高血壓、高脂血症、糖尿病、焦慮和情緒障礙等五個常見健康問題進行評分。結果顯示，GPT-3.5和GPT-4在內容的全面性和質量上表現優於Bard和Google，但後者的回應更易讀。整體來看，這項研究建議LLM工具在健康查詢中可能比傳統搜尋引擎提供更準確的信息，適合用於病人教育。 PubMed DOI

Which AI doctor would you like to see? Emulating healthcare provider-patient communication models with GPT-4: proof-of-concept and ethical exploration.
您希望看到哪位 AI 醫生？以 GPT-4 模擬醫療提供者與病人之間的溝通模式：概念驗證與倫理探索。 J Med Ethics 2025-03-03

這篇論文探討如何利用大型語言模型（LLMs），像是ChatGPT-4，來改善醫療溝通，讓病人能選擇喜歡的溝通風格。研究基於Emanuel和Emanuel的四種溝通模式：父權式、資訊式、詮釋式和審議式，旨在滿足病人的需求與偏好。不過，論文也提到潛在風險，如可能加深偏見及LLMs的說服性，可能導致病人與醫療提供者之間的互動出現意外操控。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

原始文章

站上相關主題文章列表