Local similarity and global variability characterize the semantic space of human languages.
本地相似性和全球變異性特徵化人類語言的語義空間。
Proc Natl Acad Sci U S A 2023-12-24
Exploring Large Language Models for Acronym, Symbol Sense Disambiguation, and Semantic Similarity and Relatedness Assessment.
探索大型語言模型用於縮寫詞、符號意義消歧和語義相似性及相關性評估。
AMIA Jt Summits Transl Sci Proc 2024-06-03
Integrating Large Language Model, EEG, and Eye-Tracking for Word-Level Neural State Classification in Reading Comprehension.
整合大型語言模型、腦電圖 (EEG) 和眼動追蹤於閱讀理解中的字級神經狀態分類。
IEEE Trans Neural Syst Rehabil Eng 2024-08-14
The Two Word Test as a semantic benchmark for large language models.
兩字測試作為大型語言模型的語義基準。
Sci Rep 2024-09-16
兩字測試(TWT)是一個新開源基準,專門評估大型語言模型(LLMs)的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷,並提供0到4的評分或二元判斷(有意義 vs. 無意義)。實驗顯示,像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類,經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性,提醒我們對其理解能力的主張應保持謹慎。
PubMedDOI