Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

LLMs and generative agent-based models for complex systems research.
複雜系統研究中的大型語言模型與生成式代理基模型。 Phys Life Rev 2024-11-01

這篇論文探討大型語言模型（LLMs）對自然科學和社會科學的影響，特別是透過生成代理模型（GABMs）模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域，顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作，但仍面臨提示敏感性和幻覺等挑戰，影響行為一致性。未來研究應聚焦於完善模型、標準化方法，並探討LLMs與人類互動可能帶來的新合作行為，重塑決策過程。 PubMed DOI

Fostering effective hybrid human-LLM reasoning and decision making.
促進有效的混合人類-LLM 推理與決策。 Front Artif Intell 2025-01-23

現代大型語言模型（LLMs）引起了廣泛關注，展現出驚人的能力，但有時也會出錯，顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型，但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動，並指出可能妨礙合作的偏見，提出解決方案，並概述促進相互理解及提升團隊表現的研究目標，以改善推理與決策過程。 PubMed DOI

Computational analysis of 100 K choice dilemmas: Decision attributes, trade-off structures, and model-based prediction.
10萬個選擇困境的計算分析：決策屬性、權衡結構與基於模型的預測 Proc Natl Acad Sci U S A 2025-04-21

作者們用超過10萬筆社群和問卷的真實選擇困境，透過大型語言模型萃取決策重點。結果發現，這種結合決策模型的方法，比只用原始文字或人口資料更能準確預測人類選擇，證明LLMs能有效協助分析複雜決策因素。 PubMed DOI

Playing repeated games with large language models.
與大型語言模型反覆進行博弈遊戲 Nat Hum Behav 2025-05-09

研究發現，像 GPT-4 這類大型語言模型在自利型博弈（如囚徒困境）表現不錯，但在需要協調的博弈（如Battle of the Sexes）就比較弱。若給它們更多對手資訊，並引導用「社會性思考」推理，能提升與人類的協調能力。這有助了解 AI 的社會行為，也推動 AI 行為博弈論的發展。 PubMed DOI

Large-scale moral machine experiment on large language models.
大型語言模型的大規模道德機器實驗 PLoS One 2025-05-21

這項研究比較了52種大型語言模型在自駕車道德決策上的表現，發現參數超過100億、尤其是專有模型，判斷較接近人類。不過，模型新舊不一定影響道德判斷，且有些模型會過度偏向特定倫理原則。實際應用時，還是要在判斷品質、運算資源和文化差異間取得平衡。 PubMed DOI

Relative Value Encoding in Large Language Models: A Multi-Task, Multi-Model Investigation.
大型語言模型中的相對價值編碼：多任務、多模型的探討 Open Mind (Camb) 2025-06-06

這篇研究發現，大型語言模型在增強學習任務中，會像人類一樣出現相對價值編碼的偏誤，特別是在提示語強調比較時更明顯。這會影響它們把學到的知識應用到新情境的能力。這種偏誤不只出現在微調過的模型，連原始模型也有，提醒我們在用LLMs做決策時要特別注意。 PubMed DOI

Take caution in using LLMs as human surrogates.
在將 LLMs 作為人類代理時需謹慎。 Proc Natl Acad Sci U S A 2025-06-13

雖然大型語言模型有時能模仿人類回應，但在像 11-20 money request game 這類需要複雜推理的任務上，表現常常和人類差很多，還會受到提示語和安全機制影響，出錯方式也很難預測。所以，社會科學研究如果想用 LLMs 取代人類，真的要特別小心。 PubMed DOI

Do Language Model Agents Align with Humans in Rating Visualizations? An Empirical Study.
語言模型代理在評分視覺化圖表時是否與人類一致？一項實證研究 IEEE Comput Graph Appl 2025-07-09

大型語言模型在視覺化任務中，特別有專家指引時，能模擬人類評分與推理，且在專家信心高時表現與人類相近。不過，LLMs在穩定性和偏誤上仍有限，適合用來快速原型評估，但還是無法完全取代傳統使用者研究。 PubMed DOI

A large-scale replication of scenario-based experiments in psychology and management using large language models.
使用大型語言模型進行心理學與管理學情境式實驗的大規模重複研究 Nat Comput Sci 2025-07-09

大型語言模型能準確重現多數心理學實驗，效果有時甚至比真人還明顯。不過，遇到社會敏感議題或原研究沒發現效果時，模型容易高估結果。LLMs 適合做初步、快速研究，但遇到複雜或敏感議題，還是得靠真人參與才能更全面。 PubMed DOI

原始文章

站上相關主題文章列表