這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示,兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊,24% 不準確;Copilot 則有 37% 缺少資訊,28% 不準確。兩者表現差異不顯著。此外,臨床醫師的回應明顯較短,平均 34 字,而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出,雖然 LLM 可協助臨床決策,但仍需優化以確保準確性。
PubMed
DOI