Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

Comparing the performance of ChatGPT and ERNIE Bot in answering questions regarding liver cancer interventional radiology in Chinese and English contexts: A comparative study.
比較 ChatGPT 和 ERNIE Bot 在中英文語境下回答有關肝癌介入放射學問題的表現：一項比較研究。 Digit Health 2025-01-24

這項研究評估了兩個大型語言模型（LLMs），ERNIE Bot 和 ChatGPT，在回答肝癌介入放射學問題的有效性，特別是針對經動脈化療栓塞（TACE）和肝動脈灌注化療（HAIC）。共設計38個問題，由10位專業人士評估兩者的回答。結果顯示，ERNIE Bot 在中文環境中表現較佳，而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊，但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI

Large language models for diabetes training: a prospective study.
糖尿病訓練的大型語言模型：一項前瞻性研究。 Sci Bull (Beijing) 2025-02-13

糖尿病是全球健康的重要議題，醫療人員對其知識水平參差不齊，顯示出有效訓練的必要性。大型語言模型（LLMs）如ChatGPT-4.0和Google Bard在糖尿病教育上展現新可能性。本研究評估了十個模型在糖尿病相關考試中的表現，結果顯示ChatGPT-4.0在英語考試中通過率達62.50%，在中文考試中也表現優異，準確率高達84.82%。這些模型有潛力提升醫療專業人員的糖尿病訓練效果。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Comparative performance analysis of global and chinese-domain large language models for myopia.
全球與中國域大型語言模型在近視方面的比較性能分析。 Eye (Lond) 2025-04-13

這項研究評估了全球大型語言模型（LLMs）和中文領域的LLMs在回答近視相關問題的表現。測試的模型包括ChatGPT-3.5、ChatGPT-4.0、Google Bard等，還有華佗GPT、MedGPT等中文模型。共評估39個問題，專家用3分制評分。結果顯示，ChatGPT-3.5、百度ERNIE 4.0和ChatGPT-4.0在準確性上表現最佳，且ChatGPT系列在全面性和同理心方面也表現不錯。整體來看，無論是全球還是中文模型，都能有效解決近視問題，特別是全球模型表現優異。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Large Language Models as a Consulting Hotline for Patients With Breast Cancer and Specialists in China: Cross-Sectional Questionnaire Study.
大型語言模型作為中國乳癌患者與專科醫師的諮詢熱線：橫斷式問卷研究 JMIR Med Inform 2025-05-27

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示，英文版 ChatGPT 答案最準確、最實用，特別適合一般病患提問。不過，兩款 LLM 在專業問題上表現都不佳，且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策，資料安全和法律風險也需注意，未來還要進一步研究。 PubMed DOI

Evaluating performance of large language models for atrial fibrillation management using different prompting strategies and languages.
使用不同提示策略與語言評估大型語言模型於心房顫動管理的表現 Sci Rep 2025-05-30

這項研究針對2024年ESC心房顫動指引，測試三款大型語言模型（ChatGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro），發現它們在指引一致性上表現中等到高，Claude 3.5 Sonnet用思路鏈提問法時最好（60.3%）。中英文表現差不多，但LLM常建議比指引更積極的治療。建議臨床使用時多問幾次、用不同問法，並持續評估模型表現。 PubMed DOI

Performance of DeepSeek-R1 and ChatGPT-4o on the Chinese National Medical Licensing Examination: A Comparative Study.
DeepSeek-R1 與 ChatGPT-4o 在中國國家醫師執照考試的表現：一項比較研究 J Med Syst 2025-06-03

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示，DeepSeek-R1 的正確率（92.0%）明顯高於 ChatGPT-4o（87.2%），尤其在簡單題目上表現更好，但在難題或特定科目上兩者差異不大。整體來說，DeepSeek-R1 表現較優。 PubMed DOI

Evaluating Large Language Models in Ptosis-Related inquiries: A Cross-Lingual Study.
重語言模型於Ptosis相關問題的評估：一項跨語言研究 Transl Vis Sci Technol 2025-07-16

這項研究比較多種大型語言模型在回答眼瞼下垂相關問題的表現，發現GPT-4o在英文回答最優，Qwen2.5則在中文表現突出。雖然AI有助於病人衛教和醫師諮詢，但臨床應用前還需更多驗證和調整，顯示AI有提升多語言醫療溝通的潛力。 PubMed DOI

原始文章

站上相關主題文章列表