原始文章

「反轉詛咒」突顯了自回歸解碼器模型(如GPT)的限制,這些模型在推斷關係時常常遇到困難,例如從「A是B」推斷「B是A」。這引發了對它們在知識圖譜構建等任務中的有效性擔憂。相對而言,雙向模型如BERT則不會面臨這個問題。我們的研究進一步探討了演繹推理,發現雖然這兩種模型在處理兩個集合時表現良好,但在三個集合的運算上卻有困難。因此,選擇BERT或GPT應根據具體任務需求,利用各自的優勢。 PubMed DOI


站上相關主題文章列表

研究用認知心理學方法評估GPT-3,發現在某些任務表現不錯,但在因果推理和有向探索方面較弱。這些結果有助於我們更了解大型語言模型,也提出使用認知心理學工具深入研究高階人工智慧代理的建議。 PubMed DOI

AI技術近年來有很大進步,特別是像GPT這樣的模型,對機器學習領域有很大影響。一項研究發現ChatGPT在口語問題上表現很好,甚至和人類參與者一樣好。ChatGPT的結構和自我注意力機制可能是成功的原因。雖然AI在心理研究中顯示潛力,但還需要更多研究來充分了解它在口語問題上的能力和限制。 PubMed DOI

這項研究比較了人類推理與一個大型語言模型(GPT-3)在類比任務上的表現,發現GPT-3在抽象模式歸納方面表現出色,有時甚至超越了人類。研究結果顯示,像GPT-3這樣的模型已經發展出解決類比問題的能力,而無需直接訓練。 PubMed DOI

這項研究探討了在機器人的長期任務規劃中使用 GPT-2,一種大型語言模型。通過將任務分解為子目標並將模型的輸入基於場景圖,該模型可以將人類指令轉換為機器人可執行的計劃。研究顯示,GPT-2 可以有效處理長期規劃任務,表明未來在機器人技術中使用神經符號規劃的潛力。 PubMed DOI

研究探討了大型語言模型(LLMs),特別是像BERT這樣的模型,在患者安全和藥物警戒(PSPV)中的因果推論應用。研究比較了不同類型的BERT-like模型在增強PSPV應用中的因果推論表現。結果顯示,具有特定領域預訓練的LLMs在PSPV的因果推論方面表現較佳,無論是否進行安全知識特定的微調。研究強調了模型選擇和領域特定訓練對於提升PSPV中因果推論表現的重要性。 PubMed DOI

研究人員測試人類推理和決策,發現大型語言模型展現出人類直覺思維和錯誤特徵。ChatGPT-3.5和4表現準確,避免常見陷阱。模型使用上下文進行推理,類似人們使用記事本思考,即使沒有支持仍保持準確。研究顯示,心理學方法可揭示大型語言模型能力新見解。 PubMed DOI

研究探討了在生物醫學任務中使用大型語言模型(LLMs)如GPT-3.5和GPT-4的效果。結果顯示,對BioBERT進行微調效果最好,LLMs如CoT在效能上與BoW模型相當,但需要更多時間開發。儘管LLMs受歡迎,對BioBERT微調是最有效的策略。 PubMed DOI

平行架構理論認為,語言理解中的句法和語義處理是分開的,但會有互動。心理語言學和神經語言學研究探討這些機制在人類理解中的作用,但尚不清楚最新神經語言模型如何互動。本研究探討了GPT-3模型在語言和行為任務中的表現,發現它能獨立處理語義任務,類似人類,但結果複雜,引發了對語言模型如何學習結構化概念的疑問。 PubMed DOI

了解基因、疾病和藥物對藥物開發很重要。研究指出,基於BERT的模型在識別蛋白質-蛋白質相互作用(PPIs)方面表現最佳,BioBERT召回率和F1分數最高,PubMedBERT精確度最高。即使沒有生物醫學背景,GPT-4也表現優秀。這些結果顯示GPT模型在檢測PPIs上有應用價值,值得進一步研究微調以應用於生物醫學任務。 PubMed DOI

這項研究探討大型語言模型(LLMs)與人類的推理能力,使用有限理性的認知心理學工具進行比較。實驗中,我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示,許多LLMs的推理錯誤與人類相似,且受到啟發式影響。然而,深入分析後發現,人類與LLMs的推理存在顯著差異,較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在,但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義,特別是在比較人類與機器行為的挑戰上。 PubMed DOI