這項研究探討大型語言模型(LLMs),如ChatGPT、Gemini和Copilot,在乳房影像學問題上的表現。研究中,五位乳房放射科醫生提出九個乳房攝影篩檢問題,並由兩位專家評估LLMs的回答。結果顯示,兩種語言的回答平均分數相似,約在3.6到4分之間。一般問題的回答較準確,但針對特定問題,尤其是密集乳房的定義,回答常常不完整。此外,意大利語的來源引用不夠專業,顯示LLMs在提供醫療資訊上的限制。總體而言,LLMs雖能促進醫療溝通,但在專業領域的準確性仍需加強,強調AI與醫療專業人員合作的重要性。
PubMed
DOI