原始文章

這項研究探討大型語言模型(LLMs)如何理解自我一致性,重點在於它們在回應中保持邏輯和上下文一致的能力。作者提出了一個名為 S²AF 的框架,透過自我提問和回答的機制,讓 LLMs 能夠自主生成、提問、回答並評估輸出。研究顯示,LLMs 在理解自我一致性方面的能力各有不同,並能透過自身輸出提升表現,這稱為「自我增強前饋」。實驗結果支持這些結論,顯示模型在不同推理情境中對知識關係的理解差異。 PubMed DOI


站上相關主題文章列表

目前增強大型語言模型的策略主要是透過擴大模型規模、數據量和計算能力,並進行後處理和微調。然而,這樣的調整可能會影響模型的可靠性。我們的研究發現,雖然模型在簡單任務上表現不錯,但在低難度領域的準確性卻不穩定,特別是人類監督能夠發現的錯誤。早期模型常避免回答,而新模型則可能給出看似合理但實際錯誤的回應。這顯示出對通用人工智慧的重新設計是必要的,尤其是在需要可預測錯誤的應用中。 PubMed DOI

現代大型語言模型(LLMs)引起了廣泛關注,展現出驚人的能力,但有時也會出錯,顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型,但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動,並指出可能妨礙合作的偏見,提出解決方案,並概述促進相互理解及提升團隊表現的研究目標,以改善推理與決策過程。 PubMed DOI

近年來,改善人類與人工智慧(AI)互動的關注度逐漸上升,社會智慧成為促進自然溝通的關鍵。為了評估AI對人類互動的理解,像Social-IQ這樣的數據集被創建,但這些數據集多採用基本的問答格式,缺乏答案的理由,且通常只從預設選項中生成答案,限制了可解釋性和可靠性。為了解決這些問題,我們進行了一項基於視頻的問答評估,強調人類互動,並加入相關註解,發現人類與AI的反應模式存在顯著差異,顯示現有基準的缺陷。我們的發現將有助於開發更精緻的數據集,促進人類與AI之間更自然的溝通。 PubMed DOI

大型語言模型有潛力改變科學數據的分析與溝通,但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統,透過整合外部數據檢索和分析工具,旨在提供可靠的輸出,讓專家與非專家都能輕鬆使用。研究顯示,LITURAt在查詢一致性和準確性上表現優異,能改善科學數據分析的可及性。儘管有些限制,LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

大型語言模型(LLMs)在醫學知識的教育、訓練和治療上有顯著進展,但早期研究顯示其不穩定性和潛在的有害輸出。為了解決這些問題,我們提出了一個經過驗證的數據集來訓練LLMs,並設計了一個演員-評論者的提示協議。在這個框架中,治療師生成初步回應,然後由監督者進行精煉。盲驗證研究顯示,LLM的評分常高於適當的治療師回應,顯示其符合專家標準,為安全整合LLM技術於醫療應用提供了基礎。 PubMed DOI

這篇論文探討了評估多模態大型語言模型(LLMs)創造力的挑戰,因為創造力本身很主觀。作者建議使用Oogiri遊戲來評估LLM的創造力,因為這個遊戲需要幽默感和聯想思維,且有結構化的輸入輸出格式和高品質的人類標註回應。他們還介紹了LoTbench,一個互動式評估框架,旨在解決標準評估中的信息洩漏和可解釋性問題。研究顯示,LLM的創造力雖然不及人類,但差距不大,且LoTbench與人類認知理論的相關性強,突顯了認知在創造力早期階段的重要性。 PubMed DOI

這項研究發現,GPT-3.5 和 GPT-4 生成的自傳故事,在敘事連貫性上跟人類寫的差不多,顯示這些 AI 模型有很高的知識整合能力,類似人類的自我認同。 PubMed DOI

這篇論文提出「Arch-Eval」框架,專門評估大型語言模型在建築領域的知識表現。研究用875題標準題庫測試14種模型,發現各模型表現差異大。雖然用Chain-of-Thought推理法正確率只小幅提升(不到3%),但回答速度卻慢了26倍。未來還需加強LLM在建築領域的推理能力和多模態互動。 PubMed DOI

近期有研究質疑大型語言模型(LLMs)是否真的會類比推理,還是只是在模仿資料。雖然有些測試顯示LLMs表現不佳,但本研究發現,只要讓LLMs能寫和執行程式碼,即使在全新題型上也能舉一反三,證明它們真的有類比推理能力,不只是死背或模仿。 PubMed DOI

這篇論文提出新方法,測試大型語言模型(LLMs)能否監控和調整自己的神經激活狀態,也就是「後設認知」能力。結果發現,LLMs能學會回報並影響部分內部活動,但只侷限在較低維度的範圍。這對理解AI運作和提升AI安全性有重要意義。 PubMed