原始文章

研究團隊把GPT-4和專業腫瘤醫學工具結合,開發出能自主做臨床決策的AI代理。測試20個複雜癌症案例時,AI選對工具的機率有87.5%,臨床決策正確率91%,引用指引正確率75.5%。這套系統比單用GPT-4準確率高出許多,證明結合語言模型和專業工具能大幅提升癌症照護決策品質。 PubMed DOI


站上相關主題文章列表

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

精準腫瘤學在非小細胞肺癌(NSCLC)中依賴生物標記檢測,但面臨基因組訓練不足和報告不一致等挑戰。研究評估了不同版本的ChatGPT在生成下一代測序報告及治療建議的能力,並引入生成式AI表現分數(G-PS)來衡量準確性和幻覺的出現。結果顯示,GPT-4的表現優於GPT-3.5,準確性更高且幻覺較少。這項研究顯示生成式AI在精準腫瘤學中的潛力,未來應重視其準確性和幻覺問題。 PubMed DOI

這項可行性研究探討了人工智慧(AI)在婦科腫瘤學決策中的潛力,分析了五個虛構的婦科癌症案例。不同經驗的醫生與AI語言模型(如Chat-GPT 4.0、Google Gemini和Bing-Copilot)共同評估這些案例。研究發現,AI能有效提供治療建議,且與醫生的評估高度一致,特別是Chat-GPT在建議的清晰度上表現優異。然而,在複雜案例中,仍需人類的解釋。研究建議進一步探索AI在真實病人數據中的應用,並發展混合決策模型,以提升AI在臨床實踐中的整合性。 PubMed DOI

這項研究評估大型語言模型(LLMs)在根據病患醫療紀錄生成早期乳腺癌治療選項的準確性。使用2024年初的多學科團隊會議紀錄,測試了三個AI模型:Claude3-Opus、GPT4-Turbo和LLaMa3-70B。結果顯示,Claude3-Opus準確率86.6%,GPT4-Turbo為85.7%,LLaMa3-70B則為75.0%。兩者在輔助內分泌和靶向治療上表現良好,但在輔助放射治療上則有高估的情況。研究建議需進一步探討這些模型在臨床上的實際應用。 PubMed DOI

這項研究評估了多學科腫瘤委員會(MTBs)與GPT-4人工智慧在癌症病患管理中的決策一致性。研究於2021年2月至2023年6月在安卡拉大學醫院進行,涵蓋610名癌症病患。結果顯示,GPT-4的預測與MTB決策的相容性得分為3.59,顯示高度一致性,但有10.2%的案例得分低於可接受範圍,需進一步審查。專家發現GPT-4在12.9%到25.8%的案例中不適當,顯示其在複雜或罕見案例中的限制。整體而言,GPT-4在腫瘤決策中具輔助潛力。 PubMed DOI

這項研究發現,讓 ChatGPT 直接讀取 NCCN 指南 PDF 並搭配提示語(PDF+Prompt),能大幅提升其在建議晚期非小細胞肺癌治療時的準確度和符合指引性,且回覆更清楚易懂。單靠提示語沒有效果。這表示,若大型語言模型能直接存取臨床指引,對腫瘤治療決策會更有幫助,但還需更多研究來驗證其他癌症和臨床情境的適用性。 PubMed DOI

這項研究比較GPT-4和中國腫瘤科醫師回答癌症病患問題的表現。結果顯示,GPT-4在病患衛教的答案較完整,正確性和安全性也不輸醫師,但在醫療決策上正確率較低,偶爾還會出現危險錯誤。醫師和病患對同理心的感受也不同。總結來說,GPT-4適合用於衛教,但在醫療決策上仍需醫師把關。 PubMed DOI

這項研究發現,雖然ChatGPT-4o和腫瘤委員會在治療建議上各自有高度一致性,但兩者的建議常常不同。醫師普遍較認同腫瘤委員會的決策,且這差異有統計意義。顯示目前AI還無法取代專家處理複雜癌症個案的臨床判斷。 PubMed DOI

這項研究發現,GPT-4在乳癌和婦科癌症治療建議上表現尚可,乳癌案例與專家意見一致率最高達84%。雖然經過多次提示後表現有提升,但在正確性、完整性及手術、基因檢測建議上仍有限制。未來AI可輔助臨床決策,但專家把關還是很重要。 PubMed DOI

這項研究比較了ChatGPT-4和Gemini 1.0 Ultra在回答腸胃道癌症臨床問題的表現,兩者正確率約76–78%,精確度57–65%,但都還不夠精準,還不能直接用在臨床上。兩個模型和不同癌症類型間沒明顯差異,顯示目前AI在腫瘤科臨床決策上還有進步空間,未來還需要更多研究。 PubMed DOI