Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

Performance of Large Language Models ChatGPT and Gemini on Workplace Management Questions in Radiology.
大型語言模型 ChatGPT 和 Gemini 在放射科工作管理問題上的表現。 Diagnostics (Basel) 2025-02-26

本研究探討大型語言模型（LLMs）在放射學職場管理的有效性，評估了ChatGPT-3.5、ChatGPT-4.0、Gemini及Gemini Advanced的表現。透過31個問題的回應，評估者使用4分制指標進行評分。結果顯示，ChatGPT-4.0在所有類別中表現最佳，且有顯著差異。Gemini Advanced也優於Gemini，顯示出對ChatGPT-3.5的趨勢。所有回應均未被評為「不足」，顯示LLMs能有效提升放射學職場管理效率。 PubMed DOI

Comparison of ChatGPT-4, Copilot, Bard and Gemini Ultra on an Otolaryngology Question Bank.
耳鼻喉科問題庫中 ChatGPT-4、Copilot、Bard 和 Gemini Ultra 的比較。 Clin Otolaryngol 2025-03-13

這項研究評估了四個大型語言模型（LLMs）的表現，包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra，專注於耳鼻喉科的題庫。共收集350道選擇題，結果顯示Gemini Ultra準確率最高，達79.8%，GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長，且包含解釋性圖片，而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題，顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Large Language Models' Responses to Spinal Cord Injury: A Comparative Study of Performance.
大型語言模型對脊髓損傷的反應：性能的比較研究。 J Med Syst 2025-03-25

這項研究評估了四個大型語言模型（LLMs）在回答脊髓損傷相關問題的表現，包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示，Gemini的資訊品質最佳，但可讀性較低，需大學程度理解。ChatGPT在準確性上表現最佳，達83.8%的「良好」評級，超過其他模型。所有模型在全面性和自我修正能力上表現良好，特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

Accuracy and quality of ChatGPT-4o and Google Gemini performance on image-based neurosurgery board questions.
ChatGPT-4o 和 Google Gemini 在影像基礎神經外科考試問題上的準確性和質量。 Neurosurg Rev 2025-03-25

這項研究評估了兩個大型語言模型（LLMs），GPT-4o 和 Google Gemini，在神經外科考試影像問題上的表現。共分析379個問題，結果顯示GPT-4o的正確率為51.45%，明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出，且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高，但兩者在影像問題上的表現仍不及傳統考試，顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

Comparative analysis of ChatGPT-4o mini, ChatGPT-4o and Gemini Advanced in the treatment of postmenopausal osteoporosis.
ChatGPT-4o mini、ChatGPT-4o 與 Gemini Advanced 在治療停經後骨質疏鬆症的比較分析 BMC Musculoskelet Disord 2025-04-16

這項研究比較三款AI（ChatGPT-4o mini、ChatGPT-4o、Gemini Advanced）回答停經後骨質疏鬆症問題的表現。結果發現，ChatGPT-4o 在常見問題的正確率最高，回答也較精簡；而在根據指引設計的問題上，ChatGPT-4o mini 和 ChatGPT-4o 表現都不錯。三款AI都有不錯的自我修正能力。總結來說，ChatGPT-4o 最適合回答一般PMOP問題。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Evaluation of the Performance of Large Language Models in the Management of Axial Spondyloarthropathy: Analysis of EULAR 2022 Recommendations.
大型語言模型在軸向脊椎關節病管理中的表現評估：EULAR 2022 指南分析 Diagnostics (Basel) 2025-06-26

這項研究發現，Gemini 2.0的答案最容易閱讀，ChatGPT-4o和Gemini 2.0的回覆比ChatGPT-3.5更可靠、實用，且ChatGPT-4o的內容和指引最接近。整體來說，ChatGPT-4o和Gemini 2.0有機會成為風濕免疫科醫師的臨床決策好幫手。 PubMed DOI

原始文章

站上相關主題文章列表