原始文章

這項研究比較四款免費AI聊天機器人回答肝癌相關問題的表現,發現它們雖然能提供大致正確且無偏見的資訊,但在資料來源、治療細節和說明清楚度上有差異。AI回答可作為參考,但仍需專業醫師把關,不能取代醫療建議。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項研究首次評估了ChatGPT和Gemini聊天機器人在提供病毒性肝炎資訊的準確性與可靠性。研究共分析176個問題,結果顯示兩者的平均分數相近(3.55對3.57),且正確回答比例也相似(71.0%對78.4%)。在CDC問題上,兩者的正確率都很高,但在國際指導方針問題上則表現不佳。整體而言,雖然在CDC和社交媒體問題上表現良好,但在指導方針的準確性上仍有待加強。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量,並透過病人教育材料評估工具(PEMAT)檢視可理解性和可行性。結果顯示,回應質量高(中位分數4),可理解性良好(中位72.7%),但可行性較差(中位20%)。可讀性較難,Claude 3.0提供最可靠的回應,而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

這項研究評估了多款AI聊天機器人在提供前列腺癌(PrCA)決策資訊的效果,包括ChatGPT-3.5、ChatGPT-4.0、Microsoft Copilot等。研究重點在於回應的準確性、完整性、可讀性和可信度,特別針對低識字率族群及高風險的非裔美國男性。結果顯示,雖然資訊準確,但完整性和可讀性各有差異。Microsoft Copilot Pro在標準篩檢問題上表現最佳,而Microsoft Copilot則在低識字率回應中表現突出。總體來說,AI聊天機器人可作為前列腺癌篩檢資訊的輔助資源,但仍需醫療專業指導。 PubMed DOI

這項研究評估了AI聊天機器人LilyBot(基於ChatGPT-4)對卵巢癌問題的回答準確性,並與婦科腫瘤學專家進行比較。研究人員從線上病患論壇收集問題,請十位專業人士回答,然後由八位獨立醫療專業人員評估這些回答。結果顯示,LilyBot在回答的正確性和完整性上均優於專業人士,尤其在免疫療法和基因療法方面表現突出。這顯示像LilyBot的AI聊天機器人能有效提供卵巢癌的可靠臨床資訊。 PubMed DOI

這項研究比較ChatGPT-3.5、Copilot、Gemini三款AI聊天機器人,用日文產生的貧血資訊,發現AI內容(尤其是Gemini)在易懂性、可行性和可讀性都比Google搜尋前幾名網頁好。顯示AI有潛力提供更優質、好懂的健康資訊,但未來還需加強圖像等視覺元素的整合。 PubMed DOI

這項研究發現,ChatGPT-4o在晚期胃癌治療建議的準確性和完整性上,表現都比Gemini Advanced更穩定。不過,兩者的建議都只能當作輔助工具,還是需要專業醫師監督,不能單獨用來做臨床決策。 PubMed DOI

這項研究比較GPT-4和中國腫瘤科醫師回答癌症病患問題的表現。結果顯示,GPT-4在病患衛教的答案較完整,正確性和安全性也不輸醫師,但在醫療決策上正確率較低,偶爾還會出現危險錯誤。醫師和病患對同理心的感受也不同。總結來說,GPT-4適合用於衛教,但在醫療決策上仍需醫師把關。 PubMed DOI

這項研究發現,採用檢索增強技術的AI聊天機器人(如ChatGPT-4o Deep Research等)在提供結節病資訊時,比一般AI更準確可靠。不過,他們的回答多半太艱深,病人不易看懂,而且給的實際建議也不夠明確。整體來說,AI雖然能提供高品質資訊,但在易讀性和實用性上還有進步空間。 PubMed DOI

這項研究比較了ChatGPT-4和Gemini 1.0 Ultra在回答腸胃道癌症臨床問題的表現,兩者正確率約76–78%,精確度57–65%,但都還不夠精準,還不能直接用在臨床上。兩個模型和不同癌症類型間沒明顯差異,顯示目前AI在腫瘤科臨床決策上還有進步空間,未來還需要更多研究。 PubMed DOI