A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Evaluating the Efficacy of Large Language Models in Generating Medical Documentation: A Comparative Study of ChatGPT-4, ChatGPT-4o, and Claude.
評估大型語言模型在生成醫療文檔中的效能：ChatGPT-4、ChatGPT-4o 和 Claude 的比較研究。 Aesthetic Plast Surg 2025-04-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、ChatGPT-4o 和 Claude—在生成手術報告和出院摘要的效果。研究重點在準確性、效率和質量，由整形外科醫生進行驗證。可讀性用不同指數評估，可靠性則用DISCERN分數衡量。結果顯示，Claude在速度和輸出質量上優於其他模型，成為醫療文檔中最有效率的LLM，可能改善醫患溝通和病人結果。研究強調選擇合適的LLMs對臨床應用的重要性。 PubMed DOI

Assessing large language models as assistive tools in medical consultations for Kawasaki disease.
將「Assessing large language models as assistive tools in medical consultations for Kawasaki disease.」翻譯為：「評估大型語言模型作為川崎病醫療諮詢輔助工具的可行性」 Front Artif Intell 2025-04-15

這項研究比較三款AI語言模型在回答川崎病問題時的表現。結果顯示，Claude 3.5 Sonnet 答案最準確，特別適合專業醫師提問；Gemini 1.5 Pro 則在家長提問時最容易理解。不過，所有模型都有可能出現錯誤資訊。建議家長查詢時優先選用 Claude 3.5 Sonnet 並用適合家長的提問方式。未來還需持續改進AI模型，確保醫療資訊正確可靠。 PubMed DOI

Evaluating Large Language Models in Cardiovascular Antithrombotic Care: Performance, Accuracy, and Implications for Clinical Practice.
心血管抗血栓治療中大型語言模型的評估：表現、準確性及其對臨床實務的影響 Can J Cardiol 2025-04-16

這項研究發現，Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師，正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師，但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒，醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

Harnessing advanced large language models in otolaryngology board examinations: an investigation using python and application programming interfaces.
在耳鼻喉科專科醫師考試中運用先進大型語言模型：以 Python 與應用程式介面進行的探討 Eur Arch Otorhinolaryngol 2025-04-25

這項研究測試了11款大型語言模型在耳鼻喉科專科考題上的表現，GPT-4o正確率最高，特別擅長過敏學和頭頸腫瘤題目。Claude系列表現也不錯，但還是略輸GPT-4。GPT-3.5 Turbo的正確率則比去年下降。所有模型答單選題都比多選題好。整體來看，新一代LLM在醫療領域很有潛力，但表現會變動，需持續追蹤和優化。 PubMed DOI

Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性：系統性回顧與網絡統合分析 J Med Internet Res 2025-04-30

這篇回顧分析168篇研究，發現ChatGPT-4o在選擇題最準，ChatGPT-4開放式問題表現最好，但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出，Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

A clinician-based comparative study of large language models in answering medical questions: the case of asthma.
以臨床醫師為基礎之大型語言模型在醫學問題回答上的比較研究：以氣喘為例 Front Pediatr 2025-05-12

這項研究比較四種大型語言模型在回答兒童氣喘問題時的表現，結果 GPT-4.0 最優，YouChat 最差，GPT-3.5 和 GPT-4.0 都比其他兩款好，但兩者差異不大。雖然這些模型能提供準確醫療資訊，醫師還是要批判性判斷，不能全然相信。未來隨技術進步，這些模型有望成為可靠的醫療工具。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Comparative analysis of language models in addressing syphilis-related queries.
針對梅毒相關問題之語言模型的比較分析 Med Oral Patol Oral Cir Bucal 2025-05-27

這項研究比較了10款大型語言模型在提供梅毒資訊的表現，發現ChatGPT 4.0和Claude的正確率最高，但有些模型在複雜議題上表現不佳，還會出現過時或錯誤的資訊。只有六成AI生成內容能直接用於臨床，顯示專家審核仍不可或缺。 PubMed DOI

Evaluating performance of large language models for atrial fibrillation management using different prompting strategies and languages.
使用不同提示策略與語言評估大型語言模型於心房顫動管理的表現 Sci Rep 2025-05-30

這項研究針對2024年ESC心房顫動指引，測試三款大型語言模型（ChatGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro），發現它們在指引一致性上表現中等到高，Claude 3.5 Sonnet用思路鏈提問法時最好（60.3%）。中英文表現差不多，但LLM常建議比指引更積極的治療。建議臨床使用時多問幾次、用不同問法，並持續評估模型表現。 PubMed DOI

原始文章

站上相關主題文章列表