Doctor Versus Artificial Intelligence: Patient and Physician Evaluation of Large Language Model Responses to Rheumatology Patient Questions in a Cross-Sectional Study.
醫生對抗人工智慧：患者和醫師評估大型語言模型回答風濕病學患者問題的交叉研究。 Arthritis Rheumatol 2024-02-29

研究比較了患者對風濕病問題的大型語言模型（LLM）聊天機器人和醫師回答的評價。結果顯示，患者認為兩者在詳細度和易讀性上沒有太大差異。但風濕病專家卻認為AI回答在詳細度、易讀性和準確性上比醫師回答差。患者和醫師對AI回答的喜好有所不同，患者更難分辨AI生成的答案。總結來說，患者對AI回答的看法與醫師相似，但風濕病專家則認為AI回答表現較差。 PubMed DOI

Leveraging large language models for generating responses to patient messages-a subjective analysis.
運用大型語言模型生成對患者訊息回應的主觀分析。 J Am Med Inform Assoc 2024-04-01

研究使用大型語言模型在電子健康記錄入口網站中回應患者訊息。CLAIR-Short和CLAIR-Long模型經醫師評估後，CLAIR-Long在同理心、反應速度和準確性表現較佳，提供更多患者教育內容。研究建議大型語言模型可增進患者與醫療提供者溝通。 PubMed DOI

Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study.
生成式大型語言模型與同儕患者對於解釋普通患者的檢驗結果的回答品質：評估研究。 ArXiv 2024-03-30

研究使用GPT-4等大型語言模型回答病人的實驗室檢驗問題，結果顯示GPT-4回答通常更準確、相關、有幫助且安全。但在醫學背景下解釋不足及偶爾不準確。提升回答方法包括提示工程、擴充、檢索增強生成和評估。 PubMed DOI

Quality of Answers of Generative Large Language Models Versus Peer Users for Interpreting Laboratory Test Results for Lay Patients: Evaluation Study.
生成式大型語言模型與同儕用戶對於解釋普通患者的實驗室檢驗結果的答案品質：評估研究。 J Med Internet Res 2024-04-17

病患常覺得實驗室檢驗報告難懂，常上網求助。研究發現，使用GPT-4等大型語言模型回答問題更準確、有幫助、相關且安全。但仍需改進處理不準確和缺乏個人化的問題。改進策略包括即時調整、擴充、檢索和評估回應品質。 PubMed DOI

Leveraging Large Language Models for Improved Patient Access and Self-Management: Assessor-Blinded Comparison Between Expert- and AI-Generated Content.
利用大型語言模型改善患者接觸和自我管理：專家和人工智慧生成內容的評估者盲檢比較。 J Med Internet Res 2024-04-25

研究比較Google Bard、ChatGPT-3.5和ChatGPT-4對口腔健康問題的建議效果，結果發現Google Bard易讀性高，但適當性稍差；ChatGPT-3.5和ChatGPT-4在適當性表現較好，尤其ChatGPT-4更穩定。這些模型被認為無害，對幫助性和意圖捕捉也相當。顯示大型語言模型在口腔健康護理有潛力，但仍需改進和考慮道德問題，未來研究應著重於安全整合策略。 PubMed DOI

Physician Versus Large Language Model Chatbot Responses to Web-Based Questions From Autistic Patients in Chinese: Cross-Sectional Comparative Analysis.
醫師與大型語言模型聊天機器人對自閉症患者網絡問題的中文回應：橫斷面比較分析。 J Med Internet Res 2024-04-30

研究評估大型語言模型對自閉症患者回應的效果，發現醫師回應更準確實用，而LLMs在同理心表現較佳。在將LLMs應用到臨床前，還需進一步研究和改進。 PubMed DOI

The potential and pitfalls of using a large language model such as ChatGPT, GPT-4, or LLaMA as a clinical assistant.
使用大型語言模型如ChatGPT、GPT-4或LLaMA作為臨床助手的潛力與陷阱。 J Am Med Inform Assoc 2024-07-17

研究評估了大型語言模型在醫療保健領域的應用，尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄，測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異，而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力，但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計，以更好地應用於醫療保健。 PubMed DOI

Comparative analysis of large language models in medical counseling: A focus on Helicobacter pylori infection.
醫療諮詢中大型語言模型的比較分析：聚焦於 Helicobacter pylori 感染。 Helicobacter 2024-07-30

這項研究評估了三種大型語言模型（LLMs）在幽門螺旋桿菌感染諮詢中的有效性，重點分析其在英語和中文的表現。研究期間為2023年11月20日至12月1日，針對15個H. pylori相關問題進行評估。結果顯示，準確性得分為4.80，顯示良好，但完整性和可理解性得分較低，分別為1.82和2.90。英語回應在完整性和準確性上普遍優於中文。結論指出，雖然LLMs在提供資訊上表現不錯，但在完整性和可靠性方面仍需改進，以提升其作為醫療諮詢工具的效能。 PubMed DOI

The Potential Impact of Large Language Models on Doctor-Patient Communication: A Case Study in Prostate Cancer.
大型語言模型對醫生與病人溝通的潛在影響：前列腺癌的案例研究。 Healthcare (Basel) 2024-08-09

近年來，大型語言模型（LLMs）已被應用於醫療領域，特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果，包括ChatGPT（3.5）、Gemini（Pro）和Co-Pilot（免費版），並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測，八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示，LLM，尤其是ChatGPT，通常提供比指南更準確且友好的資訊，顯示出其在改善醫療溝通上的潛力。不過，不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

Large Language Models to Help Appeal Denied Radiotherapy Services.
大型語言模型協助上訴被拒的放射治療服務。 JCO Clin Cancer Inform 2024-09-09

這項研究評估了多種大型語言模型（LLMs）在協助醫生對放射治療保險拒絕上訴的表現。測試的模型包括GPT-3.5、GPT-4及其具網路搜尋能力的版本。研究使用20個模擬病歷進行評估，結果顯示GPT-3.5、GPT-4和GPT-4web能產生清晰且具臨床相關性的上訴信，對加速上訴過程有幫助。相對而言，經微調的GPT-3.5ft表現較差，且所有模型在引用文獻時均有困難。整體而言，LLMs可減輕醫生的文書負擔，但小型數據集微調可能影響性能。 PubMed DOI

原始文章

站上相關主題文章列表