Large Language Models as Decision-Making Tools in Oncology: Comparing Artificial Intelligence Suggestions and Expert Recommendations.

大型語言模型作為腫瘤學中的決策工具：比較人工智慧建議與專家推薦。

<think> 嗯，我需要分析這篇研究，主要是探討大型語言模型在腫瘤學決策中的應用。首先，研究目的是評估這些模型生成治療建議的準確性。假設是LLMs能夠提供與專家相似的建議。研究設計是回顧性分析，使用匿名病例，這在倫理上是可行的，但可能缺乏前瞻性的實時應用數據。選擇了三個不同的模型，Claude3-Opus、GPT4-Turbo和LLaMa3-70B，這樣能比較不同模型的性能。數據結果顯示，前兩個模型的表現相近，Claude3-Opus和GPT4-Turbo分別有86.6%和85.7%的適當建議率，而LLaMa3-70B稍低，75%。在特定治療類別中，這些模型在內分泌治療和針對性治療上表現很好，但在放療和化療方面可能過度建議，基因檢測方面表現不一。這可能反映出模型在某些治療決策上的偏差，可能是訓練數據中的趨勢影響。研究結果支持假設，模型在大部分治療上有不錯的表現，但也存在局限性。研究的局限性包括回顧性設計、病例數量可能不足、缺乏長期結果數據，以及可能的偏見來自訓練數據。未來研究應該考慮前瞻性設計和模型微調，以提高準確性。在臨床應用上，這些模型可以幫助多學科團隊會議自動化決策，但仍需專家監督，特別是在化療和基因檢測方面。未來研究應探討模型在不同臨床環境中的適用性，以及如何整合更多臨床變數。其他可能的解釋是，模型在某些治療上的過度建議可能源於訓練數據中的趨勢，而非最佳實踐。此外，不同模型的架構差異可能影響表現，值得深入探討。 </think> ### 研究目的與假設：該研究旨在探討大型語言模型（LLMs）在腫瘤學決策中的準確性，特別是在為早期乳腺癌患者提供治療建議方面。研究假設LLMs能夠生成與專家決策相似的治療建議。 ### 方法與設計：研究採用回顧性設計，使用匿名病例，避免了倫理問題，但缺乏實時應用的動態數據。選擇三個不同的LLMs進行比較，優點是能綜合評估不同模型的性能，但缺乏模型微調可能限制準確性。 ### 數據解釋與結果：結果顯示Claude3-Opus和GPT4-Turbo在建議準確性上表現相近，分別為86.6%和85.7%，而LLaMa3-70B稍低。模型在內分泌治療和針對性治療上表現良好，但在放療和化療上可能過度建議，基因檢測方面表現不一，支持假設但也顯示局限。 ### 局限性與偏見：研究局限於回顧性設計，病例數量有限，缺乏長期結果數據，且可能受訓練數據偏見影響。未考慮到的變數包括病人個體差異和最新治療指南的更新。 ### 臨床及未來研究意涵：研究表明LLMs在多學科團隊會議中具有潛力，但需專家監督。未來研究應考慮前瞻性設計、模型微調，並探討不同臨床環境中的適用性。 ### 其他觀點：模型在某些治療上的過度建議可能反映訓練數據中的趨勢，而非最佳實踐。不同模型架構的差異可能影響表現，值得深入探討。