原始文章

「反轉詛咒」突顯了自回歸解碼器模型(如GPT)的限制,這些模型在推斷關係時常常遇到困難,例如從「A是B」推斷「B是A」。這引發了對它們在知識圖譜構建等任務中的有效性擔憂。相對而言,雙向模型如BERT則不會面臨這個問題。我們的研究進一步探討了演繹推理,發現雖然這兩種模型在處理兩個集合時表現良好,但在三個集合的運算上卻有困難。因此,選擇BERT或GPT應根據具體任務需求,利用各自的優勢。 PubMed DOI


站上相關主題文章列表

推理對智慧系統很重要。大型語言模型在抽象推理上表現不錯,但也有缺陷。人類推理受現實世界影響,當問題支持邏輯時,推理更可靠。語言模型和人類展現相似推理模式。研究顯示兩者在準確性和信心上相似,但在某些任務上有差異,如Wason選擇。了解這些可提供對人類認知和語言模型的洞察。 PubMed DOI

這篇論文探討大型語言模型(LLMs)的理性推理能力,評估它們在認知心理學任務中的表現。研究發現,LLMs展現出與人類相似的非理性,但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時,這些錯誤不符合典型的人類偏見,顯示出獨特的非理性。此外,這些模型的回應顯示出顯著的不一致性,進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

這項研究系統性評估了GPT-3.5和GPT-4在心理科學領域的四個關鍵能力。首先,作為研究圖書館員,GPT-4在生成虛構參考文獻的準確性上明顯優於GPT-3.5。其次,GPT-4在識別研究倫理問題方面表現出色,成功糾正了大部分明顯和微妙的違規。第三,兩者都能重現文化偏見,顯示出數據生成的潛力。最後,兩者在預測新數據方面的能力有限。總體來看,雖然GPT模型有所進步,但在生成新見解和可靠參考文獻上仍有待加強。 PubMed DOI

這項研究探討大型語言模型(LLMs)與人類的推理能力,使用有限理性的認知心理學工具進行比較。實驗中,我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示,許多LLMs的推理錯誤與人類相似,且受到啟發式影響。然而,深入分析後發現,人類與LLMs的推理存在顯著差異,較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在,但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義,特別是在比較人類與機器行為的挑戰上。 PubMed DOI

檢測蛋白質-蛋白質相互作用(PPIs)對於理解遺傳機制和疾病發展非常重要。隨著生物醫學文獻的增加,自動化提取這些相互作用的需求也愈加迫切。本研究評估了多種基於變壓器的模型在PPIs識別中的效果,發現BioBERT在多個數據集上表現最佳,達到91.95%的召回率。值得注意的是,雖然GPT-4並未專門針對生物醫學文本訓練,但其表現也相當出色,顯示出在生物醫學文獻挖掘上的潛力。相關代碼和數據集可在GitHub上獲得。 PubMed DOI

大型語言模型(LLMs)的使用需了解其優勢與限制,特別是與訓練任務相關的部分。研究指出,影響LLM準確性的三個關鍵因素為任務的概率、目標輸出的概率及輸入的概率。對五個LLM(如GPT-3.5、GPT-4等)進行的測試顯示,這些概率確實影響其表現,但也出現意外的失敗模式,例如GPT-4在低概率任務上的表現不佳。因此,使用LLM處理低概率任務時需謹慎,並應將其視為獨立系統評估,而非類似人類的實體。 PubMed DOI

這項研究針對抽象與推理語料庫(ARC)提出新方法,旨在測試人工智慧的抽象推理能力。儘管已有許多努力,現有的神經網絡演算法在解決ARC任務上仍面臨挑戰,常需依賴複雜的手工規則。研究者調整了DreamCoder神經符號推理解決器,並引入感知抽象與推理語言(PeARL)來增強能力。他們還開發新方法讓大型語言模型(LLMs)能解決ARC任務,顯示出不同的解決方式。結果顯示,神經網絡方法仍不及手工解決方案,未來可透過理解人類策略來推進人工智慧發展。 PubMed DOI

這項研究探討BERT語言模型如何處理論證結構建構(ASC),基於先前的LSTM研究。研究使用2000句的數據集,分析BERT的12層標記嵌入,並運用多維縮放和t-SNE技術可視化嵌入,計算廣義區分值評估聚類情況。主要發現包括:CLS標記在第2至4層聚類最佳,OBJ標記在第10層達高峰,探測準確率從第2層起超過90%。此外,OBJ標記在區分ASC方面最有效。研究顯示BERT在語言結構處理的複雜性,並揭示其與LSTM的相似與差異。未來將探索神經影像數據以深入理解大腦中的ASC處理。 PubMed DOI

大型推理模型如OpenAI的GPT系列和DeepSeek的R1,顯示了人工智慧在自然語言處理上的重大進展。這些模型能理解和生成類似人類的文本,應用範圍廣泛,從聊天機器人到內容創作。它們的力量來自於龐大的參數和訓練數據,但常被誤解為具有人類理解能力,實際上只是基於模式生成回應。此外,它們在上下文理解和常識推理上仍有局限,且表現依賴於訓練數據的質量。總之,應理性看待這些模型的潛力與限制。 PubMed DOI

近期有研究質疑大型語言模型(LLMs)是否真的會類比推理,還是只是在模仿資料。雖然有些測試顯示LLMs表現不佳,但本研究發現,只要讓LLMs能寫和執行程式碼,即使在全新題型上也能舉一反三,證明它們真的有類比推理能力,不只是死背或模仿。 PubMed DOI