Large Language Models and the Reverse Turing Test.
大型語言模型與反向圖靈測試。 Neural Comput 2023-05-15

大型語言模型（LLMs）是強大的預訓練模型，可微調應用在各種自然語言任務，減少單獨為每個任務建模的需求。像GPT-3和LaMDA這樣的模型經過少量啟動後可與人對話，但是否真正理解語言或展現智能存在爭議。從與LLMs的訪談中得出的結論變化顯示，對其智能的看法可能取決於訪問者的智商。這可能引發反向圖靈測試。隨著LLMs的進步，它們可能改變人機互動。將LLMs與感知運動裝置整合引發了對其實際能力的問題。提出了受大腦系統啟發的改進方案，以實現人工智能通用自主性。LLMs也可能提供有關大腦功能的見解。 PubMed DOI

Uncovering the semantics of concepts using GPT-4.
使用 GPT-4 揭示概念的語義。 Proc Natl Acad Sci U S A 2023-12-11

最新的大型語言模型（LLMs）如GPT-3.5和GPT-4能夠產生類似人類的文字，對社會科學家相當有幫助，可用來建立詞彙相似度的標準。研究中使用GPT-4開發了一個典型性評估標準，並與其他模型相比較，以評估其與人類判斷的相關性。GPT-4在測量文學書籍和美國國會成員推文的典型性方面表現優異，超越了先前的最先進標準，且無需特定數據訓練，顯示了零-shot學習的重大進步。 PubMed DOI

Systematic testing of three Language Models reveals low language accuracy, absence of response stability, and a yes-response bias.
三種語言模型的系統測試顯示語言準確性低、回應穩定性缺乏，以及肯定回應偏誤。 Proc Natl Acad Sci U S A 2023-12-24

研究測試大型語言模型如GPT-3和ChatGPT對各種語言現象的判斷能力。結果顯示，這些模型在辨識正確語法的句子上表現有差異，但對不符合語法的句子準確度較低，且回答偏向「是」。研究指出，這些模型在辨識語法規則方面不如人類，顯示它們目前可能不適合用於人類語言理論。 PubMed DOI

Can large language models help augment English psycholinguistic datasets?
大型語言模型是否有助於擴充英語心理語言學數據集？ Behav Res Methods 2024-01-23

研究使用GPT-4建立英文心理語言學數據集，發現其語義判斷與人類相關，有時甚至超越人類水準。研究指出GPT-4生成的範疇與人類有系統性差異，對統計模型影響有限。研究討論了使用GPT-4的影響和限制，提及數據質量和有效性問題。數據集包含30,000個GPT-4判斷，可供進一步研究。 PubMed DOI

A bilingual benchmark for evaluating large language models.
評估大型語言模型的雙語基準。 PeerJ Comput Sci 2024-03-05

研究介紹新標準，評估大型語言模型在英語和阿拉伯語表現，解決阿拉伯語評估問題。提出新評估方法，用普通能力測試數據集比較兩語言，結果顯示ChatGPT英語優於阿拉伯語，探討語言變化影響。fastText阿拉伯語詞彙類比優於ChatGPT。GPT-4阿拉伯語進步，接近英語表現。 PubMed DOI

Dissociating language and thought in large language models.
大型語言模型中語言和思維的分離。 Trends Cogn Sci 2024-03-20

大型語言模型（LLMs）在理解語言方面有進展，但在語言能力和認知方面看法不同。研究評估LLMs的形式語言能力和功能語言能力，人類神經科學顯示這兩種能力依賴不同神經機制。LLMs在形式能力表現優異，但在功能任務上表現不穩，可能需要額外調整或外部模組。為了達到人類般的語言使用，模型可能需掌握兩種能力，並提供專門機制。 PubMed DOI

Testing theory of mind in large language models and humans.
在大型語言模型和人類中測試心智理論。 Nat Hum Behav 2024-05-20

研究比較人類和大型語言模型（LLM）在心智理論任務上的表現，發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類，但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類，但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法，需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

The Limitations of Large Language Models for Understanding Human Language and Cognition.
大型語言模型在理解人類語言和認知方面的局限性。 Open Mind (Camb) 2024-09-04

這段論述指出大型語言模型（LLMs）在理解人類語言的學習與演變上有其限制。主要有兩個觀點： 1. **功能與機制的差異**：雖然LLMs能生成類似人類的語言，但其學習過程與人類不同。人類透過多種感官互動學習語言，而LLMs主要依賴文本數據，這使得它們的相似性只是表面現象。 2. **語言行為的範疇**：人類的語言使用範圍更廣，而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。因此，LLMs應被視為輔助語言研究的工具，而非語言理論本身，這強調了謹慎應用的必要性。 PubMed DOI

Large language models predict human sensory judgments across six modalities.
大型語言模型預測人類在六種感官模式下的判斷。 Sci Rep 2024-09-13

這項研究探討大型語言模型，特別是GPT-4，如何從語言中恢復感知資訊，這在哲學和認知科學中非常重要。研究分析了六個心理物理數據集，發現GPT-4的判斷與人類數據相符，能捕捉到感知表徵，如色輪和音高螺旋。值得注意的是，GPT-4在視覺任務上的表現並未顯著提升，因為它同時接受視覺和語言訓練。此外，研究還檢視了多語言的顏色命名任務，顯示GPT-4能反映英語和俄語之間的變異，突顯語言與感知的複雜關係。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

原始文章

站上相關主題文章列表