Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

Large language models for diabetes training: a prospective study.
糖尿病訓練的大型語言模型：一項前瞻性研究。 Sci Bull (Beijing) 2025-02-13

糖尿病是全球健康的重要議題，醫療人員對其知識水平參差不齊，顯示出有效訓練的必要性。大型語言模型（LLMs）如ChatGPT-4.0和Google Bard在糖尿病教育上展現新可能性。本研究評估了十個模型在糖尿病相關考試中的表現，結果顯示ChatGPT-4.0在英語考試中通過率達62.50%，在中文考試中也表現優異，準確率高達84.82%。這些模型有潛力提升醫療專業人員的糖尿病訓練效果。 PubMed DOI

Evaluating large language models as patient education tools for inflammatory bowel disease: A comparative study.
評估大型語言模型作為炎症性腸病患者教育工具的效果：一項比較研究。 World J Gastroenterol 2025-02-17

炎症性腸病（IBD）影響全球數百萬人，因此有效的病人教育非常重要。大型語言模型（LLMs）如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊，但其準確性尚未廣泛研究。研究中，腸胃科專家設計了15個IBD問題，評估這三個模型的表現。結果顯示，這些模型在基本資訊上表現良好，但在複雜主題如藥物副作用和飲食改變時，表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力，但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI

Evaluating large language models as a supplementary patient information resource on antimalarial use in systemic lupus erythematosus.
評估大型語言模型作為系統性紅斑狼瘡抗瘧藥使用的補充病患資訊資源。 Lupus 2025-02-27

這項研究評估了三種大型語言模型（LLMs）—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡（SLE）使用的準確性和完整性。研究設計了十三個問題，兩位風濕病學專家對模型回應進行評分。結果顯示，雖然準確性高，但完整性差異明顯：Copilot 38.5%，GPT-3.5 55.9%，GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面，GPT-4 完整性達100%。研究指出，GPT-4 有潛力改善病人對 SLE 治療的理解，但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Performance of popular large language models in glaucoma patient education: A randomized controlled study.
流行大型語言模型在青光眼患者教育中的表現：一項隨機對照研究。 Adv Ophthalmol Pract Res 2025-03-31

這項研究探討了四個大型語言模型（LLMs）——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答，並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動，並與醫生一起評分，標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示，Baichuan 2 和 ChatGPT-4.0 表現最佳，且兩者在患者和醫生評估中無顯著差異，結論認為這兩者是有效的青光眼教育工具。 PubMed DOI

Evaluating the Effectiveness of Large Language Models in Providing Patient Education for Chinese Patients With Ocular Myasthenia Gravis: Mixed Methods Study.
評估大型語言模型在為中國眼肌無力患者提供病患教育方面的有效性：混合方法研究。 J Med Internet Res 2025-04-10

眼肌型重症肌無力（OMG）主要影響眼部肌肉，常見症狀有眼瞼下垂和重影。由於中國醫療資源有限，患者教育顯得尤為重要。本研究評估大型語言模型（LLMs）在教育OMG患者的有效性，分為兩階段進行。結果顯示，ChatGPT o1-preview在準確性和有用性上表現最佳，並獲得患者較高滿意度。儘管LLMs在患者教育上展現潛力，但仍需解決錯誤資訊和可讀性等問題，以確保安全有效的臨床應用。 PubMed DOI

Large Language Models as a Consulting Hotline for Patients With Breast Cancer and Specialists in China: Cross-Sectional Questionnaire Study.
大型語言模型作為中國乳癌患者與專科醫師的諮詢熱線：橫斷式問卷研究 JMIR Med Inform 2025-05-27

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示，英文版 ChatGPT 答案最準確、最實用，特別適合一般病患提問。不過，兩款 LLM 在專業問題上表現都不佳，且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策，資料安全和法律風險也需注意，未來還要進一步研究。 PubMed DOI

Evaluation of the Performance of Large Language Models in the Management of Axial Spondyloarthropathy: Analysis of EULAR 2022 Recommendations.
大型語言模型在軸向脊椎關節病管理中的表現評估：EULAR 2022 指南分析 Diagnostics (Basel) 2025-06-26

這項研究發現，Gemini 2.0的答案最容易閱讀，ChatGPT-4o和Gemini 2.0的回覆比ChatGPT-3.5更可靠、實用，且ChatGPT-4o的內容和指引最接近。整體來說，ChatGPT-4o和Gemini 2.0有機會成為風濕免疫科醫師的臨床決策好幫手。 PubMed DOI

原始文章

站上相關主題文章列表