原始文章

大型語言模型在視覺化任務中,特別有專家指引時,能模擬人類評分與推理,且在專家信心高時表現與人類相近。不過,LLMs在穩定性和偏誤上仍有限,適合用來快速原型評估,但還是無法完全取代傳統使用者研究。 PubMed DOI


站上相關主題文章列表

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

現代大型語言模型(LLMs)引起了廣泛關注,展現出驚人的能力,但有時也會出錯,顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型,但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動,並指出可能妨礙合作的偏見,提出解決方案,並概述促進相互理解及提升團隊表現的研究目標,以改善推理與決策過程。 PubMed DOI

這篇論文評估了兩個大型語言模型(LLMs)的視覺素養,分別是 OpenAI 的 GPT 和 Google 的 Gemini。研究目的是建立它們在視覺化能力上的基準。雖然這些模型在生成描述和圖表設計上有潛力,但它們的視覺化評估能力仍未被充分檢視。透過修改過的 53 項視覺素養評估測試(VLAT),結果顯示這些 LLMs 的視覺素養水平低於普通公眾,且在回答問題時多依賴先前知識,而非視覺化呈現的信息。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

LLMs 只靠語言就能學到像人類一樣的抽象概念,但在感官和動作相關的概念上,跟人類還是有落差。加入視覺等多感官訓練後,LLMs 在這些領域的表現會更接近人類。這說明多感官經驗對 LLMs 形成完整人類概念很重要。 PubMed DOI

**重點摘要:** 這篇論文建議,評估大型語言模型(LLMs)的方法可以參考人類判斷與決策相關的研究經驗。作者認為,目前常用的評估方式太過侷限,如果能採用更細緻、貼近現實情境的評估方式——就像我們評估人類推理能力一樣——將能讓LLM的表現評估更可靠、更有意義。 PubMed DOI

大型語言模型在辨識單一神經迷思時表現比人類好,但遇到實際應用情境時,通常不會主動質疑迷思,因為它們傾向迎合使用者。若明確要求糾正錯誤,效果才明顯提升。總之,除非特別指示,否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

這篇論文介紹「Visualizationary」系統,結合 ChatGPT 與視覺化設計指引,能針對使用者的圖表給予個人化、具體的改進建議,且不需寫程式。13 位參與者的研究顯示,透過 LLM 以自然語言指導,能有效提升不同經驗者的視覺化設計能力。補充資料可在 https://osf.io/v7hu8 查詢。 PubMed DOI

這項研究發現,GPT-4o在判斷岩石圖片的基本特徵時,表現跟人類很接近,但在較專業的岩石特徵上還有進步空間。雖然還沒完全取代人類,但LMMs未來有機會協助甚至部分取代人類做知覺判斷,也為後續相關研究提供了參考標準。 PubMed DOI

大型語言模型能準確重現多數心理學實驗,效果有時甚至比真人還明顯。不過,遇到社會敏感議題或原研究沒發現效果時,模型容易高估結果。LLMs 適合做初步、快速研究,但遇到複雜或敏感議題,還是得靠真人參與才能更全面。 PubMed DOI