原始文章

這項研究探討預訓練的大型語言模型(LLMs)在理解和表達方式隱含意義的能力,特別是與格賽方式準則相關的語用推論。研究發現,雖然某些LLMs在區分中性關係和必然性方面表現超過隨機,但在更細微的區分上則表現不佳。此外,LLMs的上下文嵌入與靜態嵌入相比,幾乎沒有明顯優勢。總體來說,研究強調目前的預訓練方法未能顯著提升LLMs在理解方式隱含意義的能力,呼籲改進數據集設計和基準指標。 PubMed DOI


站上相關主題文章列表

文章討論了大型語言模型(LLMs)在人類語言理解上的潛力,強調應該注重實證研究,而非僅著眼於語言任務表現。文章反駁了一些反對LLMs作為人類語言模型的觀點,並指出最新的實證研究挑戰了這些看法。結論認為現在還為時過早地否定LLMs對於人類語言理解的洞察力。 PubMed DOI

大型語言模型(LLMs)在推理任務上表現優秀,挑戰傳統模型。雖然有限制,但透過提供範例和擴展網絡等方法,可以增強性能,類似人類思考。分析LLM的錯誤可洞察人類偏見。LLMs帶來希望,從聯想主義角度研究智能和推理,透過認知心理學工具更深入了解人類思維。 PubMed DOI

訓練語言模型(LLMs)能夠學習語言資料庫中單詞共現模式,對於需要世界知識的任務表現不錯。研究發現LLMs能夠區分代理者-患者互動的合理和不合理描述,但在辨別可能和不太可能事件方面表現不一致。LLMs在評估時考慮合理性和表面特徵,對於跨句法變體有較強泛化能力,但在語義變體上較弱,且容易出現與人類判斷相似的錯誤。 PubMed DOI

大型語言模型(LLMs)在理解語言方面有進展,但在語言能力和認知方面看法不同。研究評估LLMs的形式語言能力和功能語言能力,人類神經科學顯示這兩種能力依賴不同神經機制。LLMs在形式能力表現優異,但在功能任務上表現不穩,可能需要額外調整或外部模組。為了達到人類般的語言使用,模型可能需掌握兩種能力,並提供專門機制。 PubMed DOI

研究比較人類和大型語言模型(LLM)在心智理論任務上的表現,發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類,但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類,但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法,需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

這項研究指出,阿斯伯格症兒童在理解諷刺等細微溝通上面臨挑戰,儘管他們的語言能力不錯。研究者透過特定測試來區分阿斯伯格症與其他狀況,如注意力不足過動症(ADHD),主要針對隱喻和諷刺的理解。最近對大型語言模型的評估顯示,這些模型在隱喻理解上有所進步,但在諷刺方面卻沒有相同的進展,可能需要不同的方法,與大腦情感處理有關。因此,為大型語言模型設計針對性訓練策略,提升其理解諷刺的能力,對於模擬人類認知過程非常重要。 PubMed DOI

這篇論文探討大型語言模型(LLMs)與人類語意理解的關係,特別是在具身認知的背景下。具身認知的支持者認為,LLMs 只依賴文本訓練,缺乏感官經驗的連結,這對人類理解很重要。不過,論文指出人類的認知結合了具身經驗和語言學習,語言在塑造我們對世界的理解中扮演關鍵角色。因此,LLMs 可以反映語言作為語意信息來源的豐富性,並強調語言如何在缺乏直接感官經驗的情況下增強認知能力,這也有助於理解具身認知與人工智慧的互動。 PubMed DOI

這段論述指出大型語言模型(LLMs)在理解人類語言的學習與演變上有其限制。主要有兩個觀點: 1. **功能與機制的差異**:雖然LLMs能生成類似人類的語言,但其學習過程與人類不同。人類透過多種感官互動學習語言,而LLMs主要依賴文本數據,這使得它們的相似性只是表面現象。 2. **語言行為的範疇**:人類的語言使用範圍更廣,而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。 因此,LLMs應被視為輔助語言研究的工具,而非語言理論本身,這強調了謹慎應用的必要性。 PubMed DOI

一項研究評估了十一個大型語言模型(LLMs),使用40個專門的錯誤信念任務,這些任務對於評估人類的心智理論(ToM)非常重要。結果顯示,較舊的模型無法解決任何任務,而GPT-3-davinci-003和ChatGPT-3.5-turbo僅解決了20%。相比之下,ChatGPT-4的成功率達到75%,與6歲兒童的表現相當。這顯示出心智理論的能力可能是LLMs語言能力增強的副產品,預示著更先進的人工智慧的崛起,帶來正負面影響。 PubMed DOI

這項研究評估了七種大型語言模型(LLMs)在新基準上的理解能力,要求它們回答基於短文本的問題,並與400名人類的回答進行比較。結果顯示,這些模型的表現僅達到隨機準確率,且回答變異性大。相比之下,人類在數量和質量上都明顯優於這些模型,LLMs的錯誤也顯示出非人類特徵。這表明,雖然AI模型在某些應用中有效,但它們的語言理解仍無法與人類相提並論,可能因為無法有效處理語法和語義信息。 PubMed DOI