原始文章

大型語言模型(LLMs)的使用需了解其優勢與限制,特別是與訓練任務相關的部分。研究指出,影響LLM準確性的三個關鍵因素為任務的概率、目標輸出的概率及輸入的概率。對五個LLM(如GPT-3.5、GPT-4等)進行的測試顯示,這些概率確實影響其表現,但也出現意外的失敗模式,例如GPT-4在低概率任務上的表現不佳。因此,使用LLM處理低概率任務時需謹慎,並應將其視為獨立系統評估,而非類似人類的實體。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)是強大的預訓練模型,可微調應用在各種自然語言任務,減少單獨為每個任務建模的需求。像GPT-3和LaMDA這樣的模型經過少量啟動後可與人對話,但是否真正理解語言或展現智能存在爭議。從與LLMs的訪談中得出的結論變化顯示,對其智能的看法可能取決於訪問者的智商。這可能引發反向圖靈測試。隨著LLMs的進步,它們可能改變人機互動。將LLMs與感知運動裝置整合引發了對其實際能力的問題。提出了受大腦系統啟發的改進方案,以實現人工智能通用自主性。LLMs也可能提供有關大腦功能的見解。 PubMed DOI

文章討論了大型語言模型(LLMs)在人類語言理解上的潛力,強調應該注重實證研究,而非僅著眼於語言任務表現。文章反駁了一些反對LLMs作為人類語言模型的觀點,並指出最新的實證研究挑戰了這些看法。結論認為現在還為時過早地否定LLMs對於人類語言理解的洞察力。 PubMed DOI

大型語言模型(LLMs)在推理任務上表現優秀,挑戰傳統模型。雖然有限制,但透過提供範例和擴展網絡等方法,可以增強性能,類似人類思考。分析LLM的錯誤可洞察人類偏見。LLMs帶來希望,從聯想主義角度研究智能和推理,透過認知心理學工具更深入了解人類思維。 PubMed DOI

討論了大型語言模型(LLMs)可能帶來的風險,提到目前的LLMs能力有限,但未來可能存在潛在風險。建議監控警訊,準備應對,但在信號出現前不需採取激進措施。 PubMed DOI

心理研究中使用大型語言模型(LLMs)引起關注,但「GPTology」的使用限制和風險令人擔憂,可能影響像ChatGPT這樣的模型。我們需了解LLMs在心理研究中的限制、道德問題和潛力,解決其對實證研究的影響。重要的是認識全球心理多樣性,謹慎看待LLMs作為通用解決方案,發展透明方法從AI生成的數據中做可靠推論。多元化人類樣本,擴展心理學方法,確保科學包容可靠,避免同質化和過度依賴LLMs。 PubMed DOI

這篇論文探討大型語言模型(LLMs)的理性推理能力,評估它們在認知心理學任務中的表現。研究發現,LLMs展現出與人類相似的非理性,但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時,這些錯誤不符合典型的人類偏見,顯示出獨特的非理性。此外,這些模型的回應顯示出顯著的不一致性,進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

這篇論文探討大型語言模型(LLMs)如GPT-3.5、GPT-4和LLaMa-2在博弈理論中的策略行為,並分析遊戲結構與背景對決策的影響。研究發現: - **GPT-3.5** 對背景敏感,但抽象策略思考較弱。 - **GPT-4** 專注於遊戲內部機制,對背景敏感度低,區分遊戲類型較粗略。 - **LLaMa-2** 在理解遊戲結構與考量背景上取得平衡,處理複雜策略情境時更具優勢。 總體來看,LLaMa-2在整合遊戲結構與背景方面表現最佳,而GPT-4則偏向一般化的結構策略。 PubMed DOI

這段論述指出大型語言模型(LLMs)在理解人類語言的學習與演變上有其限制。主要有兩個觀點: 1. **功能與機制的差異**:雖然LLMs能生成類似人類的語言,但其學習過程與人類不同。人類透過多種感官互動學習語言,而LLMs主要依賴文本數據,這使得它們的相似性只是表面現象。 2. **語言行為的範疇**:人類的語言使用範圍更廣,而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。 因此,LLMs應被視為輔助語言研究的工具,而非語言理論本身,這強調了謹慎應用的必要性。 PubMed DOI

目前增強大型語言模型的策略主要是透過擴大模型規模、數據量和計算能力,並進行後處理和微調。然而,這樣的調整可能會影響模型的可靠性。我們的研究發現,雖然模型在簡單任務上表現不錯,但在低難度領域的準確性卻不穩定,特別是人類監督能夠發現的錯誤。早期模型常避免回答,而新模型則可能給出看似合理但實際錯誤的回應。這顯示出對通用人工智慧的重新設計是必要的,尤其是在需要可預測錯誤的應用中。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI