這項研究探討大型語言模型(LLMs),如ChatGPT和Microsoft Bing Chat,在皮膚科、性病學和麻風問題上的回答效果。研究比較了這些AI模型與12位研究所學生的準確性,並評估了人工幻覺的情況。
研究於2023年8月進行,包含60個問題。結果顯示,Bing Chat的表現最佳,平均正確率為78.2%,ChatGPT為59.8%,人類受訪者則為43%。Bing Chat在簡單和中等難度問題上表現更佳,而ChatGPT在較難問題上較強。研究指出,儘管LLMs表現優於人類,但在某些領域準確性仍不足,需制定規範以防止濫用。
PubMed
DOI