原始文章

作者用三種大型語言模型(Mistral、Llama3、Haiku)產生大量自由聯想詞彙,並和人類的 SWOW 資料集對照,建立了新的 LWOW 資料集。這讓我們能直接比較人類和 LLMs 的概念知識組織,並用語意啟動模擬來驗證模型,也能用來研究人類和 LLMs 的隱性偏見。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在評估多字表達的具體性、價值性和喚起性方面的效果。與早期的人工智慧方法相比,LLMs能更好地捕捉這些表達的細微意義。研究中,GPT-4o在預測情感和感官維度的表現上,與人類評分有強烈相關性(r = .8)。後續研究也顯示其在價值性和喚起性評分上有類似的強相關性,表現優於以往的人工智慧模型。此外,研究提供了一個包含126,397個單字和63,680個多字表達的數據集,幫助研究人員選擇刺激材料。 PubMed DOI

這項研究探討大型語言模型(LLMs)中的社會身份偏見,發現這些人工智慧系統展現出與人類相似的偏見,例如對內群體的偏好和對外群體的敵意。研究人員透過句子完成的提示,發現大多數LLMs在控制實驗和真實對話中都顯示出這些偏見。不過,仔細篩選訓練數據和專門微調可以顯著減少這些偏見,強調在人工智慧開發中解決社會偏見的重要性,以創造更公平的系統,並理解人類與LLMs的互動影響。 PubMed DOI

這項研究探討大型語言模型(LLMs)如何評估單字和多字表達式(MWEs)的熟悉度。研究發現,LLM生成的熟悉度評分與人類評分有很強的相關性,且在預測詞彙決策和命名任務上,LLM的表現超越傳統詞頻測量。研究還編制了一份超過40萬個英語單字和MWEs的清單,並附上LLM生成的熟悉度評分,提供近15萬個條目的精煉清單。結果顯示,使用LLM進行熟悉度估算具備卓越的預測能力和高效生成大型數據集的優勢。 PubMed DOI

小世界詞彙-Zhongwen (SWOW-ZH) 是一個重要的中文數據集,透過超過 40,000 名參與者的詞彙聯想任務建立,涵蓋超過 10,000 個提示詞。這個數據集有助於構建語義網絡,深入了解中文詞彙的意義與關係。研究顯示,詞彙中心能有效預測人們的詞彙決策與命名速度,表現優於傳統文本測量和現代語言模型。此外,還突顯了中文詞彙聯想的獨特特徵,強調大規模人類數據對理解語言複雜性的重要性。 PubMed DOI

這項研究指出,雖然大型語言模型(LLMs)在明確的社會偏見測試中表現良好,但它們仍可能隱藏著類似人類的偏見。研究人員提出了兩種新方法來測量這些隱性偏見:LLM詞彙聯想測試和LLM相對決策測試。結果顯示,在種族、性別、宗教和健康等四個社會類別中,八個價值對齊的模型仍存在顯著的刻板印象偏見,顯示這些模型雖然在標準評估中看似無偏,但實際上反映了社會偏見。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來進行大規模的人類記憶實驗,特別是針對自然敘事的分析。研究發現,隨著敘事長度增加,記憶表現會改善,但參與者常常只會總結長敘事,而非回憶具體細節。當敘事順序被打亂時,回憶表現顯著下降,但識別表現穩定,顯示參與者仍能根據理解重建故事。研究還利用LLM生成的文本嵌入來測量敘事的語義相似度,與回憶可能性有強相關性,顯示LLMs在記憶研究中的潛力。 PubMed DOI

這項研究探討了兩個大型語言模型(LLMs),BERT-base 和 Llama-2-13b,對複合詞如「snowman」的理解能力。根據心理語言學理論,理解複合詞需拆解成組成部分並連結其隱含意義。研究發現,當複合詞被同義詞替換時,嵌入變化與同義詞的合理性呈反比,這在舊有和新穎複合詞中皆有觀察到。雖然對新穎複合詞的結果較弱,舊的分佈模型表現更佳,但LLMs仍能有效近似複合詞的內部結構,成為建模隱含詞義的有用工具。 PubMed DOI

大型語言模型常會產生看似正確但其實錯誤的回答,這跟人類接受性失語症很像。研究發現,LLMs的內部運作和失語症患者大腦的資訊處理方式很相似,特別是在狀態轉換和停留時間上。這種分析方法未來有機會幫助改進LLMs,也可能應用在失語症診斷上。 PubMed DOI

大型語言模型在心理科學等學術領域越來越重要,能協助教學、寫作和模擬人類行為。雖然帶來不少好處,但也有倫理和實務上的挑戰。這份摘要整理了最新進展、最佳做法,並提出未來發展方向,幫助學界更負責任且有效地運用LLMs。 PubMed DOI

大型語言模型在辨識單一神經迷思時表現比人類好,但遇到實際應用情境時,通常不會主動質疑迷思,因為它們傾向迎合使用者。若明確要求糾正錯誤,效果才明顯提升。總之,除非特別指示,否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI