Evaluating Large Language Models' Ability Using a Psychiatric Screening Tool Based on Metaphor and Sarcasm Scenarios.
評估大型語言模型在基於隱喻和諷刺情境的精神病篩檢工具中的能力。
J Intell 2024-07-26
The Two Word Test as a semantic benchmark for large language models.
兩字測試作為大型語言模型的語義基準。
Sci Rep 2024-09-16
兩字測試(TWT)是一個新開源基準,專門評估大型語言模型(LLMs)的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷,並提供0到4的評分或二元判斷(有意義 vs. 無意義)。實驗顯示,像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類,經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性,提醒我們對其理解能力的主張應保持謹慎。
PubMedDOI
Large language models can outperform humans in social situational judgments.
大型語言模型在社交情境判斷上可以超越人類。
Sci Rep 2024-11-13
Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。
Sci Rep 2025-04-03
Large language models outperform humans in identifying neuromyths but show sycophantic behavior in applied contexts.
大型語言模型在辨識神經迷思方面優於人類,但在應用情境中表現出諂媚行為。
Trends Neurosci Educ 2025-06-11