原始文章

兩字測試(TWT)是一個新開源基準,專門評估大型語言模型(LLMs)的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷,並提供0到4的評分或二元判斷(有意義 vs. 無意義)。實驗顯示,像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類,經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性,提醒我們對其理解能力的主張應保持謹慎。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)是強大的預訓練模型,可微調應用在各種自然語言任務,減少單獨為每個任務建模的需求。像GPT-3和LaMDA這樣的模型經過少量啟動後可與人對話,但是否真正理解語言或展現智能存在爭議。從與LLMs的訪談中得出的結論變化顯示,對其智能的看法可能取決於訪問者的智商。這可能引發反向圖靈測試。隨著LLMs的進步,它們可能改變人機互動。將LLMs與感知運動裝置整合引發了對其實際能力的問題。提出了受大腦系統啟發的改進方案,以實現人工智能通用自主性。LLMs也可能提供有關大腦功能的見解。 PubMed DOI

最新的大型語言模型(LLMs)如GPT-3.5和GPT-4能夠產生類似人類的文字,對社會科學家相當有幫助,可用來建立詞彙相似度的標準。研究中使用GPT-4開發了一個典型性評估標準,並與其他模型相比較,以評估其與人類判斷的相關性。GPT-4在測量文學書籍和美國國會成員推文的典型性方面表現優異,超越了先前的最先進標準,且無需特定數據訓練,顯示了零-shot學習的重大進步。 PubMed DOI

研究測試大型語言模型如GPT-3和ChatGPT對各種語言現象的判斷能力。結果顯示,這些模型在辨識正確語法的句子上表現有差異,但對不符合語法的句子準確度較低,且回答偏向「是」。研究指出,這些模型在辨識語法規則方面不如人類,顯示它們目前可能不適合用於人類語言理論。 PubMed DOI

研究使用GPT-4建立英文心理語言學數據集,發現其語義判斷與人類相關,有時甚至超越人類水準。研究指出GPT-4生成的範疇與人類有系統性差異,對統計模型影響有限。研究討論了使用GPT-4的影響和限制,提及數據質量和有效性問題。數據集包含30,000個GPT-4判斷,可供進一步研究。 PubMed DOI

研究介紹新標準,評估大型語言模型在英語和阿拉伯語表現,解決阿拉伯語評估問題。提出新評估方法,用普通能力測試數據集比較兩語言,結果顯示ChatGPT英語優於阿拉伯語,探討語言變化影響。fastText阿拉伯語詞彙類比優於ChatGPT。GPT-4阿拉伯語進步,接近英語表現。 PubMed DOI

大型語言模型(LLMs)在理解語言方面有進展,但在語言能力和認知方面看法不同。研究評估LLMs的形式語言能力和功能語言能力,人類神經科學顯示這兩種能力依賴不同神經機制。LLMs在形式能力表現優異,但在功能任務上表現不穩,可能需要額外調整或外部模組。為了達到人類般的語言使用,模型可能需掌握兩種能力,並提供專門機制。 PubMed DOI

研究比較人類和大型語言模型(LLM)在心智理論任務上的表現,發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類,但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類,但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法,需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

這段論述指出大型語言模型(LLMs)在理解人類語言的學習與演變上有其限制。主要有兩個觀點: 1. **功能與機制的差異**:雖然LLMs能生成類似人類的語言,但其學習過程與人類不同。人類透過多種感官互動學習語言,而LLMs主要依賴文本數據,這使得它們的相似性只是表面現象。 2. **語言行為的範疇**:人類的語言使用範圍更廣,而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。 因此,LLMs應被視為輔助語言研究的工具,而非語言理論本身,這強調了謹慎應用的必要性。 PubMed DOI

這項研究探討大型語言模型,特別是GPT-4,如何從語言中恢復感知資訊,這在哲學和認知科學中非常重要。研究分析了六個心理物理數據集,發現GPT-4的判斷與人類數據相符,能捕捉到感知表徵,如色輪和音高螺旋。值得注意的是,GPT-4在視覺任務上的表現並未顯著提升,因為它同時接受視覺和語言訓練。此外,研究還檢視了多語言的顏色命名任務,顯示GPT-4能反映英語和俄語之間的變異,突顯語言與感知的複雜關係。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI