Use of generative large language models for patient education on common surgical conditions: a comparative analysis between ChatGPT and Google Gemini.
使用生成性大型語言模型進行常見外科病症的病患教育：ChatGPT 與 Google Gemini 的比較分析。 Updates Surg 2025-01-15

這項研究探討了可獲得的醫療資訊對患者的重要性，並評估了兩個AI工具，ChatGPT和Google Gemini，針對特定醫療狀況（如深靜脈血栓、壓瘡和痔瘡）的可理解性。結果顯示，ChatGPT的內容需要較高的教育水平才能理解，且其回應與現有線上資訊相似度較高。雖然兩者在易讀性和可靠性上有差異，但統計分析未能證明哪一個工具在資訊質量上優於另一個。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2025-01-28

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。分析了30個問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，風險因素則最不準確。可讀性平均得分為50.94，顯示文本相對困難。此外，70%-100%的回答都有健康建議的免責聲明。總體而言，雖然LLM聊天機器人有潛力，但準確性和可讀性差異可能影響病人理解。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Large Language Models' Responses to Spinal Cord Injury: A Comparative Study of Performance.
大型語言模型對脊髓損傷的反應：性能的比較研究。 J Med Syst 2025-03-25

這項研究評估了四個大型語言模型（LLMs）在回答脊髓損傷相關問題的表現，包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示，Gemini的資訊品質最佳，但可讀性較低，需大學程度理解。ChatGPT在準確性上表現最佳，達83.8%的「良好」評級，超過其他模型。所有模型在全面性和自我修正能力上表現良好，特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

Preliminary assessment of large language models' performance in answering questions on developmental dysplasia of the hip.
大型語言模型在回答發育性髖關節發育不良（developmental dysplasia of the hip）相關問題之表現的初步評估 J Child Orthop 2025-04-18

這項研究比較了ChatGPT-4o、Gemini 和 Claude 3.5 Sonnet 三款大型語言模型，用中文和英文回答小兒髖關節發育不良臨床問題的準確性。結果發現，三款模型在中英文的回答都很準確，彼此之間沒有明顯差異，顯示這些AI能可靠提供相關醫療資訊。 PubMed DOI

Assessment of artificial intelligence performance in answering questions on onabotulinum toxin and sacral neuromodulation.
人工智慧在回答有關 onabotulinum toxin 與 sacral neuromodulation 問題之表現評估 Investig Clin Urol 2025-05-02

這項研究比較ChatGPT、Gemini和Copilot三種AI回答OAB治療問題的表現。結果顯示，ChatGPT在正確性、完整性、清楚度和實用性都拿下最高分，平均3.98/4，特別適合臨床應用。Gemini和Copilot表現較差且不穩定。整體來說，ChatGPT目前最可靠，但所有AI還需進一步改進和臨床驗證。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Large language models' capabilities in responding to tuberculosis medical questions: testing ChatGPT, Gemini, and Copilot.
大型語言模型在回應結核病醫學問題的能力：測試 ChatGPT、Gemini 與 Copilot Sci Rep 2025-05-23

這項研究比較了ChatGPT、Gemini和Copilot在回答結核病問題的表現。ChatGPT整體表現最佳，資訊最相關；Gemini在預防控制方面較強；Copilot在疾病管理上較弱。三者在診斷表現差不多。共同缺點是缺乏來源和不確定性標註。總結來說，三款AI都能回答結核病問題，但資訊透明度和參考來源還有待加強，這對醫療應用很重要。 PubMed DOI

Evaluating Large Language Models for Preoperative Patient Education in Superior Capsular Reconstruction: Comparative Study of Claude, GPT, and Gemini.
在上方肩關節囊重建術（Superior Capsular Reconstruction）術前病患衛教中評估大型語言模型：Claude、GPT 與 Gemini 之比較研究 JMIR Perioper Med 2025-06-12

這項研究比較三款大型語言模型產生的SCR手術衛教資料，發現 Gemini-1.5-Pro 在教育品質和病患滿意度上表現最佳。不過，所有模型都沒附參考文獻，也沒提及其他治療選擇或不手術的風險，顯示臨床使用前還是需要專家把關。 PubMed DOI

原始文章

站上相關主題文章列表