How large language models can reshape collective intelligence.
大型語言模型如何重塑集體智慧。 Nat Hum Behav 2024-09-20

集體智慧在群體、組織和社會中非常重要，因為它能促進協調與分散的認知，超越個人能力，甚至專家的能力。資訊科技透過線上預測市場、結構化討論論壇和眾包平台來增強這種智慧。大型語言模型的出現改變了資訊的聚合和傳遞方式，帶來了新的機會與挑戰。我們需要探討這些模型的潛在好處、風險及相關政策，並深入研究它們如何影響我們解決複雜問題的能力。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Large language models can outperform humans in social situational judgments.
大型語言模型在社交情境判斷上可以超越人類。 Sci Rep 2024-11-13

大型語言模型（LLMs）因在知識性任務上表現優於人類而受到關注，但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中，五個聊天機器人與276名人類參與者進行比較，結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類，且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力，但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

Large language models (LLMs) as agents for augmented democracy.
大型語言模型 (LLMs) 作為增強民主的代理人。 Philos Trans A Math Phys Eng Sci 2024-11-13

這篇文章探討如何利用大型語言模型（LLMs）來分析和預測公民的政策偏好，特別是針對巴西2022年總統候選人的政府計畫。研究採用訓練-測試交叉驗證，結果顯示LLMs在預測個人政治選擇上表現優於傳統的投票假設，且在估算整體偏好時也更準確。這項研究顯示LLMs能捕捉複雜的政治細微差異，為未來的數據增強研究提供了新方向，並與參與式治理和數位創新主題相關聯。 PubMed DOI

Large language models surpass human experts in predicting neuroscience results.
大型語言模型在預測神經科學結果方面超越人類專家。 Nat Hum Behav 2024-11-28

這份摘要強調大型語言模型（LLMs）在預測實驗結果方面的潛力，特別是在神經科學領域。研究介紹了BrainBench，一個評估LLMs預測能力的基準測試。結果顯示，LLMs在預測上可超越人類專家，而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時，預測也相對可靠，顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學，還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

Fostering effective hybrid human-LLM reasoning and decision making.
促進有效的混合人類-LLM 推理與決策。 Front Artif Intell 2025-01-23

現代大型語言模型（LLMs）引起了廣泛關注，展現出驚人的能力，但有時也會出錯，顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型，但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動，並指出可能妨礙合作的偏見，提出解決方案，並概述促進相互理解及提升團隊表現的研究目標，以改善推理與決策過程。 PubMed DOI

High-performance automated abstract screening with large language model ensembles.
高效能自動化摘要篩選與大型語言模型集成。 J Am Med Inform Assoc 2025-03-22

這項研究探討大型語言模型（LLMs）在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs，並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示，LLMs在小型數據集上表現優於人類研究者，但在大型數據集上，由於類別不平衡，精確度下降。研究還發現，LLM與人類的結合能減少工作量並保持高敏感性，顯示自動化篩選可減輕研究者負擔。總體而言，LLMs有潛力提升系統性回顧的效率與質量，但仍需進一步驗證。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

Testing the limits of large language models in debating humans.
大型語言模型在人類辯論中的極限測試 Sci Rep 2025-04-22

**重點摘要：** 大型語言模型（LLMs）可以參與以辯論為基礎的社會學實驗，通常比人類更能專注在主題上，進而提升團隊的生產力。不過，人類覺得LLM代理人比較不具說服力，也比較沒有自信，而且這些代理人在辯論時的行為和人類有明顯差異，因此很容易被辨識出是非人類參與者。 PubMed DOI

Large language models outperform humans in identifying neuromyths but show sycophantic behavior in applied contexts.
大型語言模型在辨識神經迷思方面優於人類，但在應用情境中表現出諂媚行為。 Trends Neurosci Educ 2025-06-11

大型語言模型在辨識單一神經迷思時表現比人類好，但遇到實際應用情境時，通常不會主動質疑迷思，因為它們傾向迎合使用者。若明確要求糾正錯誤，效果才明顯提升。總之，除非特別指示，否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

原始文章

站上相關主題文章列表