原始文章

這項研究首次評估了ChatGPT和Gemini聊天機器人在提供病毒性肝炎資訊的準確性與可靠性。研究共分析176個問題,結果顯示兩者的平均分數相近(3.55對3.57),且正確回答比例也相似(71.0%對78.4%)。在CDC問題上,兩者的正確率都很高,但在國際指導方針問題上則表現不佳。整體而言,雖然在CDC和社交媒體問題上表現良好,但在指導方針的準確性上仍有待加強。 PubMed DOI


站上相關主題文章列表

這項研究評估了AI聊天機器人ChatGPT-4和Google Gemini在鼻竇炎患者教育的有效性。研究人員提出109個問題,涵蓋一般知識、診斷、治療、手術和併發症,並由專業耳鼻喉科醫生評估回答。結果顯示,ChatGPT-4在診斷方面表現優異,獲得滿分,而Google Gemini在治療類別中則有較多不準確的回答。整體來看,ChatGPT-4在準確性和全面性上明顯優於Google Gemini。 PubMed DOI

這項研究評估了幾款自然語言處理聊天機器人(如ChatGPT、Gemini和Bing)對冠狀動脈疾病(CAD)問題的回答準確性。每個機器人回答了五十個問題,並由兩位心臟科醫生評分。結果顯示,ChatGPT的正確回答達86%,而Gemini和Bing分別為68%和60%。在重現性方面,ChatGPT得分88%,Gemini為84%,Bing則是70%。總體來看,ChatGPT在提供CAD資訊的準確性和可靠性上表現最佳,顯示其在患者教育上的潛力。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量,並透過病人教育材料評估工具(PEMAT)檢視可理解性和可行性。結果顯示,回應質量高(中位分數4),可理解性良好(中位72.7%),但可行性較差(中位20%)。可讀性較難,Claude 3.0提供最可靠的回應,而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究比較了兩個聊天機器人,ChatGPT-4 和 Google Gemini,對於良性肛門疾病問題的回答。研究者提出30個問題,專家評估後發現兩者的回應都相當適當且全面,但 Google Gemini 在適當性、全面性及參考資料方面表現更佳,且評估一致性較高。語言複雜度方面,ChatGPT 的回答較難理解,適合的閱讀水平高於 Google Gemini。總體來看,Google Gemini 更適合提供良性肛門疾病的資訊。 PubMed DOI

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT-3.5和Gemini,提供肝病病人資訊的有效性,並與兩位腸胃科醫生的回應進行比較。重點在於準確性、完整性及對20個常見問題的回答質量。結果顯示,LLM生成的回應與專家回應之間沒有顯著差異,兩組的平均分數都很高,顯示LLMs能提供可靠的肝病資訊。整體而言,研究結果顯示免費的LLMs有潛力成為病人資訊的重要資源。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、Gemini 和 Meta AI—在微生物學課程高階問題的表現。研究從大學考試中彙編了60個問題,並由三位教職員評估AI的回應。結果顯示,ChatGPT在大多數能力上優於其他模型,特別是在MI 2、3、5、6、7和8方面;Gemini在MI 1和4方面表現較好,而Meta AI的得分最低。質性評估指出,ChatGPT的回應更詳細,Gemini有時缺少關鍵點,Meta AI則較為簡潔。總體來看,ChatGPT和Gemini在醫學微生物學的複雜問題上表現優於Meta AI。這是首次在微生物學教育中比較這三個LLMs。 PubMed DOI

這項研究比較了三種ChatGPT版本在回答幽門螺旋桿菌相關問題的表現。結果顯示,ChatGPT-4o答得最準確但穩定性較差,3.5版則最穩定但偶有錯誤。整體來說,AI聊天機器人能有效協助病患衛教,也能幫醫師提供可靠醫療資訊。 PubMed DOI

這項研究比較四款免費AI聊天機器人回答肝癌相關問題的表現,發現它們雖然能提供大致正確且無偏見的資訊,但在資料來源、治療細節和說明清楚度上有差異。AI回答可作為參考,但仍需專業醫師把關,不能取代醫療建議。 PubMed DOI