這項研究評估了大型語言模型(LLMs)在複雜婦科癌症案例中的表現,主要針對三個模型:ChatGPT-4、Gemini Advanced和Copilot。研究使用了十五個臨床案例,六位專家根據多項指標評估模型的回應。結果顯示,Gemini Advanced的準確率最高,達81.87%,而ChatGPT-4和Copilot分別為61.60%和70.67%。雖然ChatGPT-4在遵循治療指導方針上稍好,但Gemini Advanced在答案的深度和焦點上更具優勢。研究指出,這些模型在婦科腫瘤學的臨床應用中有潛力,但仍需進一步精煉和評估。
PubMed
DOI