Comparison of Large Language Models in Answering Immuno-Oncology Questions: A Cross-Sectional Study.
大型語言模型在回答免疫腫瘤學問題中的比較：一項橫斷面研究。 medRxiv 2024-02-12

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤相關問題的表現。結果顯示，ChatGPT-4和ChatGPT-3.5在回答問題、提供資訊和易讀性方面都比Google Bard好。雖然語言模型在醫療保健領域有應用價值，但專家驗證仍然至關重要，以避免不準確或資訊不完整的情況。 PubMed DOI

Comparative performance analysis of large language models: ChatGPT-3.5, ChatGPT-4 and Google Gemini in glucocorticoid-induced osteoporosis.
大語言模型的比較性能分析：ChatGPT-3.5、ChatGPT-4 和 Google Gemini 在糖皮質激素誘導的骨質疏鬆症中的表現。 J Orthop Surg Res 2024-09-17

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4 和 Google Gemini，針對糖皮質激素誘導的骨質疏鬆症（GIOP）及其預防和治療的美國風濕病學會指導方針的表現。研究發現，Google Gemini 的答案較為簡潔，但 ChatGPT-4 在準確性和全面性上表現更佳，特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升，而 Google Gemini 則無明顯差異。總體來看，ChatGPT-4 是最佳選擇。 PubMed DOI

Comparative performance of artificial intelligence models in rheumatology board-level questions: evaluating Google Gemini and ChatGPT-4o.
人工智慧模型在風濕病學考試問題中的比較表現：評估 Google Gemini 和 ChatGPT-4o。 Clin Rheumatol 2024-09-28

這項研究評估了兩個人工智慧模型，ChatGPT-4o 和 Google Gemini，在風濕病學考試問題上的表現。分析了420個問題，結果顯示ChatGPT-4o的準確率為86.9%，遠高於Google Gemini的60.2%。重複詢問相同問題時，ChatGPT-4o的準確率維持在86.7%。研究指出，ChatGPT-4o在基礎與臨床科學、骨關節炎及類風濕性關節炎方面表現優異，顯示人工智慧在臨床環境中的潛力，未來應探索更多真實臨床情境。 PubMed DOI

Do Large Language Model Chatbots perform better than established patient information resources in answering patient questions? A comparative study on melanoma.
大型語言模型聊天機器人在回答患者問題方面是否優於既有的患者資訊資源？一項關於黑色素瘤的比較研究。 Br J Dermatol 2024-10-04

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，對黑色素瘤病人問題的回答效果，並與荷蘭的病人資訊資源（PIRs）比較。結果顯示，ChatGPT-3.5在準確性上表現最佳，而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定，某網站在個人化和可讀性上特別強。整體來看，LLMs在大多數領域超越PIRs，但準確性仍需加強，且LLM的可重複性隨時間下降。研究強調，LLMs需提升準確性和可重複性，才能有效取代或補充傳統PIRs。 PubMed DOI

Large language models' performances regarding common patient questions about osteoarthritis: A comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Perplexity.
大型語言模型在關於骨關節炎的常見病人問題上的表現：ChatGPT-3.5、ChatGPT-4.0 和 Perplexity 的比較分析。 J Sport Health Sci 2024-11-29

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎（OA）相關問題的準確性。研究將25個問題分為六個主題，並由三位骨科專家進行評分。結果顯示，ChatGPT-4.0的表現最佳，64%的回答被評為「優秀」，而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高，但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力，特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

Benchmarking the performance of large language models in uveitis: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, Google Gemini, and Anthropic Claude3.
大規模語言模型在葡萄膜炎中的性能基準：ChatGPT-3.5、ChatGPT-4.0、Google Gemini 和 Anthropic Claude3 的比較分析。 Eye (Lond) 2024-12-17

這項研究評估了四種大型語言模型（LLMs），包括ChatGPT（3.5和4.0版）、Google Gemini和Claude 3，針對葡萄膜炎的臨床問題進行回答。三位專家評估了27個問題的準確性、全面性和可讀性。結果顯示，Claude 3和ChatGPT 4的準確性明顯高於Gemini，Claude 3獲得最高的「優秀」評分（96.3%）。ChatGPT 4在全面性上也優於Gemini，而Gemini在可讀性方面表現最佳。總體來看，Claude 3和ChatGPT 4是提升患者對葡萄膜炎護理理解的有效工具。 PubMed DOI

Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

Evaluating large language models as a supplementary patient information resource on antimalarial use in systemic lupus erythematosus.
評估大型語言模型作為系統性紅斑狼瘡抗瘧藥使用的補充病患資訊資源。 Lupus 2025-02-27

這項研究評估了三種大型語言模型（LLMs）—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡（SLE）使用的準確性和完整性。研究設計了十三個問題，兩位風濕病學專家對模型回應進行評分。結果顯示，雖然準確性高，但完整性差異明顯：Copilot 38.5%，GPT-3.5 55.9%，GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面，GPT-4 完整性達100%。研究指出，GPT-4 有潛力改善病人對 SLE 治療的理解，但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

Large Language Models' Responses to Spinal Cord Injury: A Comparative Study of Performance.
大型語言模型對脊髓損傷的反應：性能的比較研究。 J Med Syst 2025-03-25

這項研究評估了四個大型語言模型（LLMs）在回答脊髓損傷相關問題的表現，包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示，Gemini的資訊品質最佳，但可讀性較低，需大學程度理解。ChatGPT在準確性上表現最佳，達83.8%的「良好」評級，超過其他模型。所有模型在全面性和自我修正能力上表現良好，特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

原始文章

站上相關主題文章列表