Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

LLMs and generative agent-based models for complex systems research.
複雜系統研究中的大型語言模型與生成式代理基模型。 Phys Life Rev 2024-11-01

這篇論文探討大型語言模型（LLMs）對自然科學和社會科學的影響，特別是透過生成代理模型（GABMs）模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域，顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作，但仍面臨提示敏感性和幻覺等挑戰，影響行為一致性。未來研究應聚焦於完善模型、標準化方法，並探討LLMs與人類互動可能帶來的新合作行為，重塑決策過程。 PubMed DOI

Evaluating the ability of large language models to emulate personality.
評估大型語言模型模擬個性的能力。 Sci Rep 2025-01-02

最近，GPT-4在大型語言模型（LLMs）方面的進展，可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性，進行了兩項模擬研究。第一項模擬顯示，GPT-4生成的個性反應比人類反應更具一致性，且與人類自我報告的分數高度相關，顯示其能有效模仿真實個性。第二項模擬則指出，隨著角色複雜度增加，GPT-4的表現會下降，但加入人口統計信息後，模擬的準確性有所提升。總體而言，這些結果顯示使用GPT-4創造多樣個性的代理人，對理解人類行為的研究有很大潛力，並為未來的研究提供了新方向。 PubMed DOI

Large-scale study of human memory for meaningful narratives.
有關人類對有意義敘事記憶的大規模研究。 Learn Mem 2025-02-21

這項研究探討如何利用大型語言模型（LLMs）來進行大規模的人類記憶實驗，特別是針對自然敘事的分析。研究發現，隨著敘事長度增加，記憶表現會改善，但參與者常常只會總結長敘事，而非回憶具體細節。當敘事順序被打亂時，回憶表現顯著下降，但識別表現穩定，顯示參與者仍能根據理解重建故事。研究還利用LLM生成的文本嵌入來測量敘事的語義相似度，與回憶可能性有強相關性，顯示LLMs在記憶研究中的潛力。 PubMed DOI

Industrial applications of large language models.
大型語言模型的產業應用 Sci Rep 2025-04-21

大型語言模型（LLMs）能理解和產生自然語言，正改變醫療、教育、金融等產業，提升效率和準確度。不過，LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制，並探討未來趨勢。 PubMed DOI

Testing the limits of large language models in debating humans.
大型語言模型在人類辯論中的極限測試 Sci Rep 2025-04-22

**重點摘要：** 大型語言模型（LLMs）可以參與以辯論為基礎的社會學實驗，通常比人類更能專注在主題上，進而提升團隊的生產力。不過，人類覺得LLM代理人比較不具說服力，也比較沒有自信，而且這些代理人在辯論時的行為和人類有明顯差異，因此很容易被辨識出是非人類參與者。 PubMed DOI

Robustness of large language models in moral judgements.
大型語言模型在道德判斷上的穩健性 R Soc Open Sci 2025-04-24

過去有研究說能測量大型語言模型的道德偏好，但其實這些結果很容易被問題或選項的呈現方式影響，像是把「Case 1」改成「(A)」就可能讓模型答案大不同。所以，這類研究的結論不太可靠。作者建議，未來要用更嚴謹的方法來研究LLM的道德判斷。 PubMed DOI

Using large language models to facilitate academic work in the psychological sciences.
運用大型語言模型促進心理科學的學術工作 Curr Psychol 2025-05-29

大型語言模型在心理科學等學術領域越來越重要，能協助教學、寫作和模擬人類行為。雖然帶來不少好處，但也有倫理和實務上的挑戰。這份摘要整理了最新進展、最佳做法，並提出未來發展方向，幫助學界更負責任且有效地運用LLMs。 PubMed DOI

Large language models outperform humans in identifying neuromyths but show sycophantic behavior in applied contexts.
大型語言模型在辨識神經迷思方面優於人類，但在應用情境中表現出諂媚行為。 Trends Neurosci Educ 2025-06-11

大型語言模型在辨識單一神經迷思時表現比人類好，但遇到實際應用情境時，通常不會主動質疑迷思，因為它們傾向迎合使用者。若明確要求糾正錯誤，效果才明顯提升。總之，除非特別指示，否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

Take caution in using LLMs as human surrogates.
在將 LLMs 作為人類代理時需謹慎。 Proc Natl Acad Sci U S A 2025-06-13

雖然大型語言模型有時能模仿人類回應，但在像 11-20 money request game 這類需要複雜推理的任務上，表現常常和人類差很多，還會受到提示語和安全機制影響，出錯方式也很難預測。所以，社會科學研究如果想用 LLMs 取代人類，真的要特別小心。 PubMed DOI

原始文章

站上相關主題文章列表