Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Evaluating AI Chatbot Responses to Postkidney Transplant Inquiries.
評估 AI 聊天機器人對腎臟移植後詢問的回應。 Transplant Proc 2025-01-15

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量，並透過病人教育材料評估工具（PEMAT）檢視可理解性和可行性。結果顯示，回應質量高（中位分數4），可理解性良好（中位72.7%），但可行性較差（中位20%）。可讀性較難，Claude 3.0提供最可靠的回應，而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

Evaluating AI performance in nephrology triage and subspecialty referrals.
評估人工智慧在腎臟科分診和專科轉診中的表現。 Sci Rep 2025-01-27

這項研究探討了大型語言模型ChatGPT在腎臟科病例分診的有效性，特別是在因人口老化導致腎臟問題增加的情況下。兩位腎臟科醫生設計了100個病人情境，結果顯示ChatGPT在判斷腎臟科需求的準確率高達99-100%，選擇正確子專科的準確率為96-99%，兩輪評估的協議率為97%。雖然結果顯示AI能提升醫療分診的效率與準確性，但仍需改進在複雜病情的多學科護理整合方面。整體而言，研究強調了AI在改善臨床決策及發展量身訂做的分診系統的潛力。 PubMed DOI

Evaluation of the Performance of Three Large Language Models in Clinical Decision Support: A Comparative Study Based on Actual Cases.
三種大型語言模型在臨床決策支持中的表現評估：基於實際案例的比較研究。 J Med Syst 2025-02-13

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示，Med-Go 的中位數得分為37.5，優於其他模型，而 Gemini 得分最低，為33.0，差異顯著（p < 0.001）。所有模型在鑑別診斷上表現較弱，但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練，以提升效能，並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

Assessing the performance of large language models (GPT-3.5 and GPT-4) and accurate clinical information for pediatric nephrology.
評估大型語言模型（GPT-3.5 和 GPT-4）在小兒腎臟科準確臨床資訊的表現。 Pediatr Nephrol 2025-03-05

這項研究評估了兩個AI語言模型，GPT-3.5和GPT-4，在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分，結果顯示兩者表現相似，GPT-4稍微高一些，但差異不顯著。分析顯示，模型的內部一致性較低，專家經驗與評價無明顯相關。研究指出，這些AI模型雖能提供基本資訊，但未能解決小兒腎臟科的特定挑戰，強調專業訓練和人類監督的重要性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Generative AI vs. human expertise: a comparative analysis of case-based rational pharmacotherapy question generation.
生成式人工智慧與人類專業知識：基於案例的合理藥物治療問題生成的比較分析。 Eur J Clin Pharmacol 2025-04-09

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示，這些模型生成了60個問題，並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題，結果顯示AI問題的正確率與專家問題相當，且AI生成問題的準備效率顯著提升。然而，仍有19個問題被認為無法使用，顯示專家審查的重要性。結合AI效率與專家驗證的方式，可能是改善醫學教育的最佳策略。 PubMed DOI

GPT-4's performance in supporting physician decision-making in nephrology multiple-choice questions.
GPT-4 在協助腎臟科醫師多選題決策中的表現 Sci Rep 2025-05-02

研究發現，GPT-4能幫助醫師提升腎臟科答題分數，尤其對資淺醫師幫助最大。不過，在某些臨床領域，資深醫師參考GPT-4後反而表現變差。雖然GPT-4有助提升準確率，但在醫療決策時仍需謹慎使用。 PubMed DOI

Performance of Large Language Models (ChatGPT and Gemini Advanced) in Gastrointestinal Pathology and Clinical Review of Applications in Gastroenterology.
大型語言模型（ChatGPT 與 Gemini Advanced）在腸胃道病理學的表現及其於腸胃科應用的臨床回顧 Cureus 2025-05-05

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示，ChatGPT-4.0和Gemini Advanced部分表現較佳，但整體水準還是普通。三款AI都無法正確判斷癌症分期，且有不少引用文獻是假的。研究認為，AI雖然進步中，但臨床應用前還是需要專家把關。 PubMed DOI

Implementing Generative AI to Enhance Patient Education on Retinopathy of Prematurity.
運用生成式 AI 提升早產兒視網膜病變患者教育 J Pediatr Ophthalmol Strabismus 2025-06-26

這項研究比較ChatGPT-3.5、ChatGPT-4和Gemini在產生早產兒視網膜病變衛教資料的表現。三款AI都能產出正確、易懂的內容，但ChatGPT-4在將資料改寫成國中一年級程度時，品質和可靠性最好。整體來說，ChatGPT-4特別適合協助家長取得高品質、易讀的衛教資訊。 PubMed DOI

原始文章

站上相關主題文章列表