Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

The reliability of freely accessible, baseline, general-purpose large language model generated patient information for frequently asked questions on liver disease: a preliminary cross-sectional study.
自由可獲得的基線通用大型語言模型生成的肝病常見問題患者資訊的可靠性：一項初步橫斷面研究。 Expert Rev Gastroenterol Hepatol 2025-02-22

這項研究評估了大型語言模型（LLMs），如ChatGPT-3.5和Gemini，提供肝病病人資訊的有效性，並與兩位腸胃科醫生的回應進行比較。重點在於準確性、完整性及對20個常見問題的回答質量。結果顯示，LLM生成的回應與專家回應之間沒有顯著差異，兩組的平均分數都很高，顯示LLMs能提供可靠的肝病資訊。整體而言，研究結果顯示免費的LLMs有潛力成為病人資訊的重要資源。 PubMed DOI

Evaluating large language models as a supplementary patient information resource on antimalarial use in systemic lupus erythematosus.
評估大型語言模型作為系統性紅斑狼瘡抗瘧藥使用的補充病患資訊資源。 Lupus 2025-02-27

這項研究評估了三種大型語言模型（LLMs）—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡（SLE）使用的準確性和完整性。研究設計了十三個問題，兩位風濕病學專家對模型回應進行評分。結果顯示，雖然準確性高，但完整性差異明顯：Copilot 38.5%，GPT-3.5 55.9%，GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面，GPT-4 完整性達100%。研究指出，GPT-4 有潛力改善病人對 SLE 治療的理解，但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

[Can large language models answer clinical questions?].
大型語言模型能否回答臨床問題？ Recenti Prog Med 2025-03-14

大型語言模型（LLMs）如ChatGPT在醫學領域的應用潛力巨大，但也帶來了準確性和可靠性的挑戰。研究顯示，LLMs能提供正確的疾病管理資訊，但必須符合國際指導方針。關鍵考量包括回應的可讀性、與指導方針的一致性、資訊來源的時效性、跨模型和跨語言的一致性，以及臨床使用的驗證。總之，雖然LLMs能提升醫學教育和決策，但仍需謹慎評估，以確保其在臨床中的安全與有效性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性：系統性回顧與網絡統合分析 J Med Internet Res 2025-04-30

這篇回顧分析168篇研究，發現ChatGPT-4o在選擇題最準，ChatGPT-4開放式問題表現最好，但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出，Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Identification of Online Health Information Using Large Pretrained Language Models: Mixed Methods Study.
利用大型預訓練語言模型識別線上健康資訊：混合方法研究 J Med Internet Res 2025-05-14

這項研究比較了四款主流AI（ChatGPT-3.5、ChatGPT-4、Ernie Bot、iFLYTEK Spark）辨識網路健康資訊真偽的能力。結果顯示，ChatGPT-4 準確率最高，Ernie Bot 和 iFLYTEK Spark 表現也不錯，ChatGPT-3.5 稍微落後。雖然整體表現佳，但在專業或複雜情境下還有進步空間。 PubMed DOI

Comparative analysis of language models in addressing syphilis-related queries.
針對梅毒相關問題之語言模型的比較分析 Med Oral Patol Oral Cir Bucal 2025-05-27

這項研究比較了10款大型語言模型在提供梅毒資訊的表現，發現ChatGPT 4.0和Claude的正確率最高，但有些模型在複雜議題上表現不佳，還會出現過時或錯誤的資訊。只有六成AI生成內容能直接用於臨床，顯示專家審核仍不可或缺。 PubMed DOI

原始文章

站上相關主題文章列表