A Qualitative Evaluation of ChatGPT4 and PaLM2's Response to Patient's Questions Regarding Age-Related Macular Degeneration.
對於患者關於年齡相關性黃斑變性問題的 ChatGPT4 和 PaLM2 回應的質性評估。 Diagnostics (Basel) 2024-07-27

這篇論文探討了兩個大型語言模型（LLMs），ChatGPT4 和 PaLM2，對於年齡相關黃斑變性（AMD）患者常見問題的回答效果。研究強調患者了解病情對於慢性疾病管理的重要性。從專注於 AMD 的網站整理了143個問題，並讓這兩個模型及三位眼科醫生回答。結果顯示，ChatGPT4 在臨床共識、潛在危害等方面表現優於 PaLM2，顯示出這些模型在患者教育上的潛力，但仍需謹慎使用，不能取代專業醫療建議。 PubMed DOI

Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

Evaluating the Accuracy of Responses by Large Language Models for Information on Disease Epidemiology.
評估大型語言模型對疾病流行病學資訊回應的準確性。 Pharmacoepidemiol Drug Saf 2025-02-04

這項研究評估了大型語言模型（LLMs），如ChatGPT-3.5、ChatGPT-4和Google Bard，在提供疾病流行病學數據的準確性。研究設計了21個問題，並將其提交給每個模型兩次。結果顯示，ChatGPT-4的準確率最高，達76.2%，其次是Bard的50.0%和ChatGPT-3.5的45.2%。雖然ChatGPT-4表現較佳，但三者皆存在不準確性和參考文獻問題，限制了它們在醫藥和學術界的實用性。 PubMed DOI

The use of large language models to enhance cancer clinical trial educational materials.
利用大型語言模型增強癌症臨床試驗教育材料的應用。 JNCI Cancer Spectr 2025-02-08

這項研究探討了大型語言模型（LLMs），特別是GPT-4，在製作癌症臨床試驗教育內容的潛力，旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書，生成簡短摘要和多選題，並透過患者調查和眾包註釋來評估其有效性。結果顯示，摘要內容可讀且具資訊性，患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高，但當要求提供未明確列出的資訊時，GPT-4的準確性較低。整體而言，研究顯示GPT-4能有效生成患者友好的教育材料，但仍需人類監督以確保準確性。 PubMed DOI

Evaluating large language models as patient education tools for inflammatory bowel disease: A comparative study.
評估大型語言模型作為炎症性腸病患者教育工具的效果：一項比較研究。 World J Gastroenterol 2025-02-17

炎症性腸病（IBD）影響全球數百萬人，因此有效的病人教育非常重要。大型語言模型（LLMs）如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊，但其準確性尚未廣泛研究。研究中，腸胃科專家設計了15個IBD問題，評估這三個模型的表現。結果顯示，這些模型在基本資訊上表現良好，但在複雜主題如藥物副作用和飲食改變時，表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力，但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Evaluating the performance of large language models in health education for patients with ankylosing spondylitis/spondyloarthritis: a cross-sectional, single-blind study in China.
評估大型語言模型在健康教育中對於強直性脊柱炎/脊椎關節炎患者的表現：中國的一項橫斷面單盲研究。 BMJ Open 2025-03-21

這項研究評估大型語言模型（LLMs）在教育強直性脊柱炎（AS）和脊椎關節炎（SpA）患者的有效性，涵蓋182名參與者，包括4名風濕病學專家和178名患者。結果顯示，LLMs如ChatGPT-4o和Kimi在提供準確的醫療資訊上表現優於傳統指導，且患者對這些資訊的理解和接受度也較高。研究建議LLMs在醫療知識傳遞和患者教育上具潛力，未來可能成為醫療實踐中的重要工具。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

原始文章

站上相關主題文章列表