這項研究評估了三個大型語言模型(LLMs)—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現,特別針對中國的情境。分析了60個腫瘤科醫生提出的問題,結果顯示:
- ChatGPT 提供了最多的全面回答,佔66.7%。
- 三個模型在乳腺癌治療問題上的準確率都很低,平均僅44.4%。
- ERNIE Bot 的回答較短。
- 可讀性評分無顯著差異。
總體來看,這些模型可作為乳腺癌資訊工具,但在專業治療問題上不可靠,應在醫療專業人員指導下使用。
PubMed
DOI