原始文章

這項研究探討顏色與形容詞的聯結如何形成,特別是在先天失明者中,因為他們沒有視覺經驗。研究指出,顏色如紅色與「熱」、藍色與「冷」的聯結,不僅來自視覺,還透過語言學習而來。分析各種語言資料後,研究發現這些聯結在語言中是統計嵌入的。特別是,虛構文本的嵌入在預測這些聯結上比先進模型如GPT-4更有效,顯示語言上下文在不同感知經驗中共享意義的關鍵角色。 PubMed DOI


站上相關主題文章列表

這項研究指出,雖然大型語言模型(LLMs)在明確的社會偏見測試中表現良好,但它們仍可能隱藏著類似人類的偏見。研究人員提出了兩種新方法來測量這些隱性偏見:LLM詞彙聯想測試和LLM相對決策測試。結果顯示,在種族、性別、宗教和健康等四個社會類別中,八個價值對齊的模型仍存在顯著的刻板印象偏見,顯示這些模型雖然在標準評估中看似無偏,但實際上反映了社會偏見。 PubMed DOI

在智慧型手機攝影中,準確測量影像的感知色差(CDs)非常重要。傳統指標雖然提供數值評分,但無法清楚解釋差異原因。為了解決這個問題,我們推出了CD-Reasoning,這不僅計算CD分數,還能以符合人類感知的方式解釋差異。 CD-Reasoning基於新的多模態數據集M-SPCD,涵蓋七個關鍵屬性,如白平衡和亮度對比。透過這個數據集,我們增強了多模態大型語言模型(MLLMs),能更準確評估CD並詳細解釋影像差異。 實驗結果顯示,CD-Reasoning在準確性和解釋能力上均優於現有指標和MLLMs。源代碼將在 https://github.com/LongYu-LY/CD-Reasoning 提供。 PubMed DOI

這篇論文評估了兩個大型語言模型(LLMs)的視覺素養,分別是 OpenAI 的 GPT 和 Google 的 Gemini。研究目的是建立它們在視覺化能力上的基準。雖然這些模型在生成描述和圖表設計上有潛力,但它們的視覺化評估能力仍未被充分檢視。透過修改過的 53 項視覺素養評估測試(VLAT),結果顯示這些 LLMs 的視覺素養水平低於普通公眾,且在回答問題時多依賴先前知識,而非視覺化呈現的信息。 PubMed DOI

這項研究探討了閱讀理解的挑戰,這是許多學習者常遇到的困難。研究者利用腦機介面(BCI)技術,預測閱讀的單詞與目標推論單詞的相關性。他們結合腦電圖(EEG)和眼動追蹤數據,運用大型語言模型(LLMs)創建新的閱讀嵌入表示。結果顯示,九名受試者的平均準確率為68.7%,最佳可達71.2%。此外,對BERT模型進行微調後,達到92.7%的準確率。這項研究在增強閱讀技能工具的開發上邁出了重要一步,相關代碼和數據已在GitHub上公開。 PubMed DOI

這項研究探討了兩個大型語言模型(LLMs),BERT-base 和 Llama-2-13b,對複合詞如「snowman」的理解能力。根據心理語言學理論,理解複合詞需拆解成組成部分並連結其隱含意義。研究發現,當複合詞被同義詞替換時,嵌入變化與同義詞的合理性呈反比,這在舊有和新穎複合詞中皆有觀察到。雖然對新穎複合詞的結果較弱,舊的分佈模型表現更佳,但LLMs仍能有效近似複合詞的內部結構,成為建模隱含詞義的有用工具。 PubMed DOI

這篇研究發現,大型語言模型(像GPT-J)在處理英語形容詞名詞化時,比起死背規則,更傾向用類比的方式來推論,尤其遇到不規則或變化多的情況時更明顯。而且LLM對單字出現頻率很敏感,這也支持類比型的解釋。總結來說,LLM在語言泛化上,比較像是在「舉一反三」,而不是照本宣科。 PubMed DOI

作者用三種大型語言模型(Mistral、Llama3、Haiku)產生大量自由聯想詞彙,並和人類的 SWOW 資料集對照,建立了新的 LWOW 資料集。這讓我們能直接比較人類和 LLMs 的概念知識組織,並用語意啟動模擬來驗證模型,也能用來研究人類和 LLMs 的隱性偏見。 PubMed DOI

LLMs 只靠語言就能學到像人類一樣的抽象概念,但在感官和動作相關的概念上,跟人類還是有落差。加入視覺等多感官訓練後,LLMs 在這些領域的表現會更接近人類。這說明多感官經驗對 LLMs 形成完整人類概念很重要。 PubMed DOI

這份指南回顧並比較三種心理學構念的向量化方法:用單字清單、問卷和有標記範例。作者指出,若要分析不同文本類型,建議用單字清單;若文本和問卷內容接近,則用問卷;有大量標記資料時,則用標記範例。指南也提醒研究者注意嵌入模型的特性和潛在方法問題。 PubMed DOI

大型語言模型在視覺化任務中,特別有專家指引時,能模擬人類評分與推理,且在專家信心高時表現與人類相近。不過,LLMs在穩定性和偏誤上仍有限,適合用來快速原型評估,但還是無法完全取代傳統使用者研究。 PubMed DOI