Comparative performance analysis of large language models: ChatGPT-3.5, ChatGPT-4 and Google Gemini in glucocorticoid-induced osteoporosis.
大語言模型的比較性能分析：ChatGPT-3.5、ChatGPT-4 和 Google Gemini 在糖皮質激素誘導的骨質疏鬆症中的表現。 J Orthop Surg Res 2024-09-17

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4 和 Google Gemini，針對糖皮質激素誘導的骨質疏鬆症（GIOP）及其預防和治療的美國風濕病學會指導方針的表現。研究發現，Google Gemini 的答案較為簡潔，但 ChatGPT-4 在準確性和全面性上表現更佳，特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升，而 Google Gemini 則無明顯差異。總體來看，ChatGPT-4 是最佳選擇。 PubMed DOI

Use of generative large language models for patient education on common surgical conditions: a comparative analysis between ChatGPT and Google Gemini.
使用生成性大型語言模型進行常見外科病症的病患教育：ChatGPT 與 Google Gemini 的比較分析。 Updates Surg 2025-01-15

這項研究探討了可獲得的醫療資訊對患者的重要性，並評估了兩個AI工具，ChatGPT和Google Gemini，針對特定醫療狀況（如深靜脈血栓、壓瘡和痔瘡）的可理解性。結果顯示，ChatGPT的內容需要較高的教育水平才能理解，且其回應與現有線上資訊相似度較高。雖然兩者在易讀性和可靠性上有差異，但統計分析未能證明哪一個工具在資訊質量上優於另一個。 PubMed DOI

Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

Large Language Models' Responses to Spinal Cord Injury: A Comparative Study of Performance.
大型語言模型對脊髓損傷的反應：性能的比較研究。 J Med Syst 2025-03-25

這項研究評估了四個大型語言模型（LLMs）在回答脊髓損傷相關問題的表現，包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示，Gemini的資訊品質最佳，但可讀性較低，需大學程度理解。ChatGPT在準確性上表現最佳，達83.8%的「良好」評級，超過其他模型。所有模型在全面性和自我修正能力上表現良好，特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

Evaluating the Efficacy of Large Language Models in Generating Medical Documentation: A Comparative Study of ChatGPT-4, ChatGPT-4o, and Claude.
評估大型語言模型在生成醫療文檔中的效能：ChatGPT-4、ChatGPT-4o 和 Claude 的比較研究。 Aesthetic Plast Surg 2025-04-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、ChatGPT-4o 和 Claude—在生成手術報告和出院摘要的效果。研究重點在準確性、效率和質量，由整形外科醫生進行驗證。可讀性用不同指數評估，可靠性則用DISCERN分數衡量。結果顯示，Claude在速度和輸出質量上優於其他模型，成為醫療文檔中最有效率的LLM，可能改善醫患溝通和病人結果。研究強調選擇合適的LLMs對臨床應用的重要性。 PubMed DOI

Preliminary assessment of large language models' performance in answering questions on developmental dysplasia of the hip.
大型語言模型在回答發育性髖關節發育不良（developmental dysplasia of the hip）相關問題之表現的初步評估 J Child Orthop 2025-04-18

這項研究比較了ChatGPT-4o、Gemini 和 Claude 3.5 Sonnet 三款大型語言模型，用中文和英文回答小兒髖關節發育不良臨床問題的準確性。結果發現，三款模型在中英文的回答都很準確，彼此之間沒有明顯差異，顯示這些AI能可靠提供相關醫療資訊。 PubMed DOI

Summarizing clinical evidence utilizing large language models for cancer treatments: a blinded comparative analysis.
利用大型語言模型總結癌症治療的臨床證據：一項盲態比較分析 Front Digit Health 2025-05-14

四款大型語言模型用來產生多發性骨髓瘤和AL類澱粉沉積症治療的臨床摘要，Claude在正確性和完整性上表現最好，但沒有任何模型能完全正確。所有模型產出的內容都需要專家審查，目前還不適合單獨用於臨床摘要。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Enhancing responses from large language models with role-playing prompts: a comparative study on answering frequently asked questions about total knee arthroplasty.
以角色扮演提示增強大型語言模型的回應：關於全膝關節置換術常見問題回答的比較研究 BMC Med Inform Decis Mak 2025-05-23

這項研究比較 GPT-3.5、GPT-4、Google Gemini 和 Claude 3 Opus 四款主流大型語言模型，針對全膝關節置換手術常見病人問題的回答表現。結果發現，ChatGPT-4 在加入「資深骨科醫師」角色扮演提示後，正確性、完整性和可接受性都表現最佳。角色扮演提示能明顯提升 ChatGPT 系列的回答品質，但對 Gemini 和 Claude 幫助不大。整體來說，LLM 對骨科衛教有幫助，但偶爾還是會有錯誤資訊。 PubMed DOI

Synthetic Patient-Physician Conversations Simulated by Large Language Models: A Multi-Dimensional Evaluation.
由大型語言模型模擬的虛擬醫病對話：多面向評估 Sensors (Basel) 2025-07-30

這項研究比較四款主流大型語言模型在產生整形外科醫病對話的表現，結果顯示它們都能產生真實又實用的對話，平均分數都超過4.5分。雖然 Gemini Pro 2.5 和 Claude 3.7 Sonnet 表現稍好，但彼此間沒有明顯差異。這些模型適合用於醫學教育和研究，但還是要注意多元性和偏見的問題。 PubMed DOI

原始文章

站上相關主題文章列表