A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Large Language Models' Responses to Spinal Cord Injury: A Comparative Study of Performance.
大型語言模型對脊髓損傷的反應：性能的比較研究。 J Med Syst 2025-03-25

這項研究評估了四個大型語言模型（LLMs）在回答脊髓損傷相關問題的表現，包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示，Gemini的資訊品質最佳，但可讀性較低，需大學程度理解。ChatGPT在準確性上表現最佳，達83.8%的「良好」評級，超過其他模型。所有模型在全面性和自我修正能力上表現良好，特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

Preliminary assessment of large language models' performance in answering questions on developmental dysplasia of the hip.
大型語言模型在回答發育性髖關節發育不良（developmental dysplasia of the hip）相關問題之表現的初步評估 J Child Orthop 2025-04-18

這項研究比較了ChatGPT-4o、Gemini 和 Claude 3.5 Sonnet 三款大型語言模型，用中文和英文回答小兒髖關節發育不良臨床問題的準確性。結果發現，三款模型在中英文的回答都很準確，彼此之間沒有明顯差異，顯示這些AI能可靠提供相關醫療資訊。 PubMed DOI

Large Language Models: Pioneering New Educational Frontiers in Childhood Myopia.
大型語言模型：開創兒童近視教育新前沿 Ophthalmol Ther 2025-04-21

這項研究比較 ChatGPT-3.5、ChatGPT-4o 和 Google Gemini 在製作兒童近視衛教資料的表現。結果發現，三款 AI 都能產出正確、易懂的內容，但只有 ChatGPT-3.5 和 4o 能穩定達到國小六年級的閱讀程度。ChatGPT-4o 在內容品質和易讀性上表現最好，但三者都缺乏高度可執行的建議。整體來說，ChatGPT-4o 最有潛力用來優化兒童近視衛教資料。 PubMed DOI

Evaluating Accuracy and Readability of Responses to Midlife Health Questions: A Comparative Analysis of Six Large Language Model Chatbots.
六種大型語言模型聊天機器人對中年健康問題回答之準確性與可讀性評估：比較分析 J Midlife Health 2025-05-07

研究比較六款聊天機器人回答中年健康問題的表現，發現 Meta AI 答案最準確、最有條理，Perplexity 最容易閱讀。整體來說，這些聊天機器人對中年健康教育有幫助，但表現有差異，選擇合適的工具很重要。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Evaluating Large Language Models in Addressing Patient Questions on Endodontic Pain: A Comparative Analysis of accessible chatbots.
可及性聊天機器人在回應病患牙髓疼痛問題之表現評估：大型語言模型的比較分析 J Endod 2025-05-07

這項研究發現，ChatGPT 3.5回答牙髓病痛問題時，內容較完整可靠，但用詞偏難懂；Gemini則較易讀，但資訊不夠完整、可靠性較低。總結來說，AI雖能輔助衛教，仍需專業人員把關，確保資訊正確又好懂。 PubMed DOI

Parental education in pediatric dysphagia: A comparative analysis of three large language models.
兒童吞嚥困難的家長教育：三種大型語言模型的比較分析 J Pediatr Gastroenterol Nutr 2025-05-09

這項研究發現，ChatGPT-4 回答小兒吞嚥困難問題最準確可靠，Gemini 的答案則最容易閱讀。不過，三款 AI 在資訊品質上都有不一致的地方，顯示大型語言模型雖然有幫助，但還需要再加強，才能穩定提供正確又好懂的資訊。 PubMed DOI

Competencies of Large Language Models About Piriformis Syndrome: Quality, Accuracy, Completeness, and Readability Study.
大型語言模型對於梨狀肌症候群的能力：品質、準確性、完整性與可讀性之研究 HSS J 2025-05-23

這項研究比較了三款大型語言模型（ChatGPT-4、Copilot、Gemini）回答梨狀肌症候群相關問題的表現。結果發現，ChatGPT 和 Gemini 的答案比 Copilot 更完整、品質也較好，但三者在正確性上差不多。整體來說，這些AI有潛力協助健康諮詢，但還需要再加強，才能讓資訊更正確、完整又好懂。 PubMed DOI

Evaluating the readability, quality, and reliability of responses generated by ChatGPT, Gemini, and Perplexity on the most commonly asked questions about Ankylosing spondylitis.
ChatGPT、Gemini 與 Perplexity 回答最常見 Ankylosing spondylitis 問題之可讀性、品質與可靠性評估 PLoS One 2025-06-18

這項研究比較ChatGPT、Perplexity和Gemini三款AI聊天機器人，針對僵直性脊椎炎的回答。結果發現，三者的答案都超過國中六年級的閱讀難度，一般人較難看懂。Perplexity的資訊最可靠、品質也最好。不過，整體來說，這些AI在可讀性、正確性和品質上還有進步空間，未來仍需加強與監督。 PubMed DOI

原始文章

站上相關主題文章列表