原始文章

這項研究比較三款AI語言模型在回答川崎病問題時的表現。結果顯示,Claude 3.5 Sonnet 答案最準確,特別適合專業醫師提問;Gemini 1.5 Pro 則在家長提問時最容易理解。不過,所有模型都有可能出現錯誤資訊。建議家長查詢時優先選用 Claude 3.5 Sonnet 並用適合家長的提問方式。未來還需持續改進AI模型,確保醫療資訊正確可靠。 PubMed DOI


站上相關主題文章列表

研究比較AI語言模型ChatGPT、Gemini和Copilot在提供慢性腎臟疾病(CKD)資訊給家長的表現。ChatGPT和Gemini在診斷和生活方式方面表現準確,Gemini整體表現較佳。雖然模型提供正確資訊,但仍需謹慎,以免可能導致錯誤資訊。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT 4.0 和 Gemini 1.0 Pro,在生成病人指導和教育材料的效果。研究發現,兩者提供的信息一致且可靠,但在藥物過期和處理指導上有所不足。ChatGPT 4.0 在可理解性和可行性上表現較佳,且其輸出可讀性較高。整體來看,這些模型能有效生成病人教育材料,但仍需醫療專業人員的監督與指導,以確保最佳實施。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)對父母詢問早產兒視網膜病(ROP)的回應。整理了60個常見問題,三位專家評估其回應的適當性和完整性。研究發現,ChatGPT-4的適當性得分最高(100%),但文本結構較複雜,需大學程度理解。相對而言,Gemini被認為最易讀,而Microsoft Copilot在可讀性指標上表現優異。總體來看,ChatGPT-4提供最準確的回應,但可能讓某些父母難以理解,Gemini和Microsoft Copilot則更易於理解。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在根據臨床案例診斷疾病的表現,包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段,第一階段僅使用案例描述,第二階段則加入答案選項。結果顯示,Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好,但Google Gemini的效能較低,需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

這項研究評估了四種大型語言模型(LLM)工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題,五位小兒腫瘤學專家根據多項標準進行評估。結果顯示,ChatGPT整體表現最佳,特別在複雜性上,而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性,未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究評估了兩個AI語言模型,GPT-3.5和GPT-4,在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分,結果顯示兩者表現相似,GPT-4稍微高一些,但差異不顯著。分析顯示,模型的內部一致性較低,專家經驗與評價無明顯相關。研究指出,這些AI模型雖能提供基本資訊,但未能解決小兒腎臟科的特定挑戰,強調專業訓練和人類監督的重要性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究比較兩款大型語言模型在回答口腔顏面裂相關問題時的表現。結果發現,Deepseek-R1在準確性、清晰度、相關性和可信度上表現較佳,但GPT o1-preview在展現同理心方面較突出。兩者各有優勢,未來醫療用AI應結合準確性與同理心,才能提供更完善的病患諮詢服務。 PubMed DOI

這項研究比較了ChatGPT-4o、Gemini 和 Claude 3.5 Sonnet 三款大型語言模型,用中文和英文回答小兒髖關節發育不良臨床問題的準確性。結果發現,三款模型在中英文的回答都很準確,彼此之間沒有明顯差異,顯示這些AI能可靠提供相關醫療資訊。 PubMed DOI