The Two Word Test as a semantic benchmark for large language models.
兩字測試作為大型語言模型的語義基準。
Sci Rep 2024-09-16
兩字測試(TWT)是一個新開源基準,專門評估大型語言模型(LLMs)的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷,並提供0到4的評分或二元判斷(有意義 vs. 無意義)。實驗顯示,像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類,經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性,提醒我們對其理解能力的主張應保持謹慎。
PubMedDOI♡
站上相關主題文章列表
Large Language Models and the Reverse Turing Test.
大型語言模型與反向圖靈測試。
Neural Comput 2023-05-15
Systematic testing of three Language Models reveals low language accuracy, absence of response stability, and a yes-response bias.
三種語言模型的系統測試顯示語言準確性低、回應穩定性缺乏,以及肯定回應偏誤。
Proc Natl Acad Sci U S A 2023-12-24
Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性:一個簡化人類專家評估的框架。
J Biomed Inform 2024-09-14