Using large language models to estimate features of multi-word expressions: Concreteness, valence, arousal.
使用大型語言模型來估計多詞表達的特徵：具體性、價值、喚起。 Behav Res Methods 2024-12-05

這項研究探討大型語言模型（LLMs）在評估多字表達的具體性、價值性和喚起性方面的效果。與早期的人工智慧方法相比，LLMs能更好地捕捉這些表達的細微意義。研究中，GPT-4o在預測情感和感官維度的表現上，與人類評分有強烈相關性（r = .8）。後續研究也顯示其在價值性和喚起性評分上有類似的強相關性，表現優於以往的人工智慧模型。此外，研究提供了一個包含126,397個單字和63,680個多字表達的數據集，幫助研究人員選擇刺激材料。 PubMed DOI

Generative language models exhibit social identity biases.
生成語言模型顯示社會身份偏見。 Nat Comput Sci 2024-12-12

這項研究探討大型語言模型（LLMs）中的社會身份偏見，發現這些人工智慧系統展現出與人類相似的偏見，例如對內群體的偏好和對外群體的敵意。研究人員透過句子完成的提示，發現大多數LLMs在控制實驗和真實對話中都顯示出這些偏見。不過，仔細篩選訓練數據和專門微調可以顯著減少這些偏見，強調在人工智慧開發中解決社會偏見的重要性，以創造更公平的系統，並理解人類與LLMs的互動影響。 PubMed DOI

Moving beyond word frequency based on tally counting: AI-generated familiarity estimates of words and phrases are an interesting additional index of language knowledge.
超越基於計數的詞頻：AI生成的詞語和短語熟悉度估計是語言知識的一個有趣的附加指標。 Behav Res Methods 2024-12-29

這項研究探討大型語言模型（LLMs）如何評估單字和多字表達式（MWEs）的熟悉度。研究發現，LLM生成的熟悉度評分與人類評分有很強的相關性，且在預測詞彙決策和命名任務上，LLM的表現超越傳統詞頻測量。研究還編制了一份超過40萬個英語單字和MWEs的清單，並附上LLM生成的熟悉度評分，提供近15萬個條目的精煉清單。結果顯示，使用LLM進行熟悉度估算具備卓越的預測能力和高效生成大型數據集的優勢。 PubMed DOI

A large-scale database of Mandarin Chinese word associations from the Small World of Words Project.
小世界詞彙計畫中的大型中文詞彙聯想數據庫。 Behav Res Methods 2024-12-31

小世界詞彙-Zhongwen (SWOW-ZH) 是一個重要的中文數據集，透過超過 40,000 名參與者的詞彙聯想任務建立，涵蓋超過 10,000 個提示詞。這個數據集有助於構建語義網絡，深入了解中文詞彙的意義與關係。研究顯示，詞彙中心能有效預測人們的詞彙決策與命名速度，表現優於傳統文本測量和現代語言模型。此外，還突顯了中文詞彙聯想的獨特特徵，強調大規模人類數據對理解語言複雜性的重要性。 PubMed DOI

Explicitly unbiased large language models still form biased associations.
明確無偏的大型語言模型仍然形成偏見聯想。 Proc Natl Acad Sci U S A 2025-02-20

這項研究指出，雖然大型語言模型（LLMs）在明確的社會偏見測試中表現良好，但它們仍可能隱藏著類似人類的偏見。研究人員提出了兩種新方法來測量這些隱性偏見：LLM詞彙聯想測試和LLM相對決策測試。結果顯示，在種族、性別、宗教和健康等四個社會類別中，八個價值對齊的模型仍存在顯著的刻板印象偏見，顯示這些模型雖然在標準評估中看似無偏，但實際上反映了社會偏見。 PubMed DOI

Large-scale study of human memory for meaningful narratives.
有關人類對有意義敘事記憶的大規模研究。 Learn Mem 2025-02-21

這項研究探討如何利用大型語言模型（LLMs）來進行大規模的人類記憶實驗，特別是針對自然敘事的分析。研究發現，隨著敘事長度增加，記憶表現會改善，但參與者常常只會總結長敘事，而非回憶具體細節。當敘事順序被打亂時，回憶表現顯著下降，但識別表現穩定，顯示參與者仍能根據理解重建故事。研究還利用LLM生成的文本嵌入來測量敘事的語義相似度，與回憶可能性有強相關性，顯示LLMs在記憶研究中的潛力。 PubMed DOI

Conceptual Combination in Large Language Models: Uncovering Implicit Relational Interpretations in Compound Words With Contextualized Word Embeddings.
大型語言模型中的概念組合：揭示複合詞中隱含的關係解釋與上下文化的詞嵌入。 Cogn Sci 2025-03-13

這項研究探討了兩個大型語言模型（LLMs），BERT-base 和 Llama-2-13b，對複合詞如「snowman」的理解能力。根據心理語言學理論，理解複合詞需拆解成組成部分並連結其隱含意義。研究發現，當複合詞被同義詞替換時，嵌入變化與同義詞的合理性呈反比，這在舊有和新穎複合詞中皆有觀察到。雖然對新穎複合詞的結果較弱，舊的分佈模型表現更佳，但LLMs仍能有效近似複合詞的內部結構，成為建模隱含詞義的有用工具。 PubMed DOI

Comparison of Large Language Model with Aphasia.
大型語言模型與失語症的比較 Adv Sci (Weinh) 2025-05-15

大型語言模型常會產生看似正確但其實錯誤的回答，這跟人類接受性失語症很像。研究發現，LLMs的內部運作和失語症患者大腦的資訊處理方式很相似，特別是在狀態轉換和停留時間上。這種分析方法未來有機會幫助改進LLMs，也可能應用在失語症診斷上。 PubMed DOI

Using large language models to facilitate academic work in the psychological sciences.
運用大型語言模型促進心理科學的學術工作 Curr Psychol 2025-05-29

大型語言模型在心理科學等學術領域越來越重要，能協助教學、寫作和模擬人類行為。雖然帶來不少好處，但也有倫理和實務上的挑戰。這份摘要整理了最新進展、最佳做法，並提出未來發展方向，幫助學界更負責任且有效地運用LLMs。 PubMed DOI

Large language models outperform humans in identifying neuromyths but show sycophantic behavior in applied contexts.
大型語言模型在辨識神經迷思方面優於人類，但在應用情境中表現出諂媚行為。 Trends Neurosci Educ 2025-06-11

大型語言模型在辨識單一神經迷思時表現比人類好，但遇到實際應用情境時，通常不會主動質疑迷思，因為它們傾向迎合使用者。若明確要求糾正錯誤，效果才明顯提升。總之，除非特別指示，否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

原始文章

站上相關主題文章列表