原始文章

這項研究探討大型語言模型(LLMs)如何理解自我一致性,重點在於它們在回應中保持邏輯和上下文一致的能力。作者提出了一個名為 S²AF 的框架,透過自我提問和回答的機制,讓 LLMs 能夠自主生成、提問、回答並評估輸出。研究顯示,LLMs 在理解自我一致性方面的能力各有不同,並能透過自身輸出提升表現,這稱為「自我增強前饋」。實驗結果支持這些結論,顯示模型在不同推理情境中對知識關係的理解差異。 PubMed DOI


站上相關主題文章列表

人類可以透過自我批評來糾正他們的錯誤,但目前沒有證據表明大型語言模型(LLMs)具有這種能力。 PubMed DOI

研究使用大型生成式語言模型模擬質性研究中的面試問題回答,發現LLM生成的內容與人類看法有相似之處,但結構和語氣有差異。結論指出目前LLMs缺乏算法忠實度,無法廣泛應用於真實人群,但未來或有改善。強調建立評估基於LLM的質性研究有效性規範的重要性,尤其是代表多樣人類經驗。 PubMed DOI

這篇論文探討大型語言模型(LLMs)的理性推理能力,評估它們在認知心理學任務中的表現。研究發現,LLMs展現出與人類相似的非理性,但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時,這些錯誤不符合典型的人類偏見,顯示出獨特的非理性。此外,這些模型的回應顯示出顯著的不一致性,進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

這篇論文探討大型語言模型(LLMs)與人類語意理解的關係,特別是在具身認知的背景下。具身認知的支持者認為,LLMs 只依賴文本訓練,缺乏感官經驗的連結,這對人類理解很重要。不過,論文指出人類的認知結合了具身經驗和語言學習,語言在塑造我們對世界的理解中扮演關鍵角色。因此,LLMs 可以反映語言作為語意信息來源的豐富性,並強調語言如何在缺乏直接感官經驗的情況下增強認知能力,這也有助於理解具身認知與人工智慧的互動。 PubMed DOI

最近,自然語言處理(NLP)領域的進展主要受到變壓器模型的影響,這些模型透過注意力機制分析標記間的關係,生成回應。然而,關於這些模型是否能促進人工通用智慧(AGI)及解決對齊問題仍有爭論。研究人員認為AGI需具備可解釋的價值觀、效用函數及動態情境理解。為此,提出一種神經符號模型,結合進化理論與神經科學,探索AI的意識與同理心,並可能為對齊問題提供解決方案。 PubMed DOI

這篇文章介紹了心理體系(Psychomatics),探討大型語言模型(LLMs)與人類在資訊處理上的差異。雖然LLMs在學習和語言使用上展現出類似的認知技能,但其基本過程卻截然不同。心理體系透過比較LLMs與生物系統,分析它們在獲取、記憶和利用資訊上的差異。LLMs能夠有效操控語言模式,但缺乏人類的情感和經驗,限制了對複雜關係的理解。最終,這個框架旨在深入了解語言、認知和智慧,並指導更具人性化的人工智慧系統發展。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI

目前增強大型語言模型的策略主要是透過擴大模型規模、數據量和計算能力,並進行後處理和微調。然而,這樣的調整可能會影響模型的可靠性。我們的研究發現,雖然模型在簡單任務上表現不錯,但在低難度領域的準確性卻不穩定,特別是人類監督能夠發現的錯誤。早期模型常避免回答,而新模型則可能給出看似合理但實際錯誤的回應。這顯示出對通用人工智慧的重新設計是必要的,尤其是在需要可預測錯誤的應用中。 PubMed DOI

現代大型語言模型(LLMs)引起了廣泛關注,展現出驚人的能力,但有時也會出錯,顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型,但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動,並指出可能妨礙合作的偏見,提出解決方案,並概述促進相互理解及提升團隊表現的研究目標,以改善推理與決策過程。 PubMed DOI

近年來,改善人類與人工智慧(AI)互動的關注度逐漸上升,社會智慧成為促進自然溝通的關鍵。為了評估AI對人類互動的理解,像Social-IQ這樣的數據集被創建,但這些數據集多採用基本的問答格式,缺乏答案的理由,且通常只從預設選項中生成答案,限制了可解釋性和可靠性。為了解決這些問題,我們進行了一項基於視頻的問答評估,強調人類互動,並加入相關註解,發現人類與AI的反應模式存在顯著差異,顯示現有基準的缺陷。我們的發現將有助於開發更精緻的數據集,促進人類與AI之間更自然的溝通。 PubMed DOI