原始文章

這項研究比較了ChatGPT-4和Gemini 1.0 Ultra在回答腸胃道癌症臨床問題的表現,兩者正確率約76–78%,精確度57–65%,但都還不夠精準,還不能直接用在臨床上。兩個模型和不同癌症類型間沒明顯差異,顯示目前AI在腫瘤科臨床決策上還有進步空間,未來還需要更多研究。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT和Gemini在複雜腫瘤病例中的醫療決策有效性,並與多學科腫瘤委員會(MTB)專家進行比較。研究在墨西哥城的醫療中心進行,回顧了98個病例。結果顯示,AI系統在影像學檢查的協議程度較低,但在手術和放射治療方面則中等。ChatGPT在手術和化療決策上表現優於Gemini。研究指出,這兩個AI系統在腫瘤學上有潛力,但仍需進一步研究以提升其臨床應用。 PubMed DOI

這項研究評估了大型語言模型(LLMs)如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性,並與美國甲狀腺協會(ATA)及全國綜合癌症網絡(NCCN)的指導方針進行比較。322名放射科醫生參與評估,結果顯示Claude得分最高,其次是ChatGPT和Gemini。雖然不當回應比率相似,但ChatGPT在準確性上表現最佳。質性反饋指出,ChatGPT清晰且結構良好,Gemini則可及性高但內容淺薄,Claude組織性佳但偶爾偏離主題。總體而言,這些模型在輔助風險評估上有潛力,但仍需臨床監督以確保可靠性。 PubMed DOI

這項研究評估了OpenAI的ChatGPT和Microsoft的Copilot在根據全國綜合癌症網絡針對胰腺導管腺癌指導方針生成回應的準確性。研究發現,ChatGPT的準確性較Copilot優越,完全正確的回應分別為52%和33%。此外,ChatGPT的回應也較為準確,評分為3.33對3.02。兩者的回應普遍冗長,平均字數分別為270字和32字。研究結論指出,雖然這些模型在臨床決策支持上有潛力,但仍需改進以確保準確性和簡潔性。 PubMed DOI

這項研究比較了兩個人工智慧模型,ChatGPT-4o (Omni) 和 Gemini-pro,在婦科腫瘤學的臨床問題解決上。研究分析了700個問題,結果顯示Omni在準確性和遵循臨床指導方針上明顯優於Gemini-pro。基本開放式問題的平均得分分別為5.9和5.1,複雜問題則為5.6和4.2。Omni的回應更準確,且隨著時間表現持續改善,顯示其在臨床應用中的潛力。 PubMed DOI

這項研究發現,讓 ChatGPT 直接讀取 NCCN 指南 PDF 並搭配提示語(PDF+Prompt),能大幅提升其在建議晚期非小細胞肺癌治療時的準確度和符合指引性,且回覆更清楚易懂。單靠提示語沒有效果。這表示,若大型語言模型能直接存取臨床指引,對腫瘤治療決策會更有幫助,但還需更多研究來驗證其他癌症和臨床情境的適用性。 PubMed DOI

這項研究發現,ChatGPT-4o在晚期胃癌治療建議的準確性和完整性上,表現都比Gemini Advanced更穩定。不過,兩者的建議都只能當作輔助工具,還是需要專業醫師監督,不能單獨用來做臨床決策。 PubMed DOI

這項研究發現,ChatGPT-4和4O在放射腫瘤科的文字型臨床問題上表現不錯,能提供實用建議,但遇到複雜或技術性高的情境就不太可靠。特別是在判讀鼻咽癌MRI影像時,ChatGPT-4O完全無法正確分期。總結來說,ChatGPT適合輔助一般臨床決策,但影像判讀還不行,使用時要特別小心。 PubMed DOI

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示,ChatGPT-4.0和Gemini Advanced部分表現較佳,但整體水準還是普通。三款AI都無法正確判斷癌症分期,且有不少引用文獻是假的。研究認為,AI雖然進步中,但臨床應用前還是需要專家把關。 PubMed DOI

這項研究發現,目前市面上的AI模型雖然有潛力協助乳癌化療患者處理營養問題,但在所有症狀上都還無法穩定給出符合臨床指引的飲食建議。特別是ChatGPT 4.0表現較好,但整體來說,AI還需要再加強,才能真正成為可靠的輔助工具。 PubMed DOI

這項研究比較四款免費AI聊天機器人回答肝癌相關問題的表現,發現它們雖然能提供大致正確且無偏見的資訊,但在資料來源、治療細節和說明清楚度上有差異。AI回答可作為參考,但仍需專業醫師把關,不能取代醫療建議。 PubMed DOI