Can Large Language Models Aid Caregivers of Pediatric Cancer Patients in Information Seeking? A Cross-Sectional Investigation.
大型語言模型能否協助兒童癌症患者的照顧者進行資訊搜尋？一項橫斷面研究。 Cancer Med 2025-01-08

這項研究評估了四種大型語言模型（LLM）工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題，五位小兒腫瘤學專家根據多項標準進行評估。結果顯示，ChatGPT整體表現最佳，特別在複雜性上，而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性，未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Preliminary assessment of large language models' performance in answering questions on developmental dysplasia of the hip.
大型語言模型在回答發育性髖關節發育不良（developmental dysplasia of the hip）相關問題之表現的初步評估 J Child Orthop 2025-04-18

這項研究比較了ChatGPT-4o、Gemini 和 Claude 3.5 Sonnet 三款大型語言模型，用中文和英文回答小兒髖關節發育不良臨床問題的準確性。結果發現，三款模型在中英文的回答都很準確，彼此之間沒有明顯差異，顯示這些AI能可靠提供相關醫療資訊。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

A clinician-based comparative study of large language models in answering medical questions: the case of asthma.
以臨床醫師為基礎之大型語言模型在醫學問題回答上的比較研究：以氣喘為例 Front Pediatr 2025-05-12

這項研究比較四種大型語言模型在回答兒童氣喘問題時的表現，結果 GPT-4.0 最優，YouChat 最差，GPT-3.5 和 GPT-4.0 都比其他兩款好，但兩者差異不大。雖然這些模型能提供準確醫療資訊，醫師還是要批判性判斷，不能全然相信。未來隨技術進步，這些模型有望成為可靠的醫療工具。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Comparative Evaluation of ChatGPT and ChatGLM Performance in Response to Common Queries on Pediatric Atopic Dermatitis.
ChatGPT 與 ChatGLM 回應常見兒童異位性皮膚炎問題之表現比較評估 Pediatr Dermatol 2025-05-28

這項研究比較了ChatGPT-4o和ChatGLM-4兩款AI，針對家長常問的兒童異位性皮膚炎問題，請皮膚科醫師評分。結果發現，兩者表現差不多，回答品質跟專家差不多，能有效提供兒童異位性皮膚炎的照護和治療建議。 PubMed DOI

Diagnostic efficacy of large language models in the pediatric emergency department: a pilot study.
大型語言模型於兒科急診部門的診斷效能：初步研究 Front Digit Health 2025-07-16

這項研究發現，ChatGPT-4o 在小兒急診診斷上表現比醫師還好，甚至連複雜案例也能大多答對。先進的聊天機器人有潛力協助醫師處理急診，但應該當作輔助工具，不能取代醫師，且需訂出明確的 AI 與醫師合作流程。 PubMed DOI

Synthetic Patient-Physician Conversations Simulated by Large Language Models: A Multi-Dimensional Evaluation.
由大型語言模型模擬的虛擬醫病對話：多面向評估 Sensors (Basel) 2025-07-30

這項研究比較四款主流大型語言模型在產生整形外科醫病對話的表現，結果顯示它們都能產生真實又實用的對話，平均分數都超過4.5分。雖然 Gemini Pro 2.5 和 Claude 3.7 Sonnet 表現稍好，但彼此間沒有明顯差異。這些模型適合用於醫學教育和研究，但還是要注意多元性和偏見的問題。 PubMed DOI

原始文章

站上相關主題文章列表