Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Evaluating the ability of large language models to emulate personality.
評估大型語言模型模擬個性的能力。 Sci Rep 2025-01-02

最近，GPT-4在大型語言模型（LLMs）方面的進展，可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性，進行了兩項模擬研究。第一項模擬顯示，GPT-4生成的個性反應比人類反應更具一致性，且與人類自我報告的分數高度相關，顯示其能有效模仿真實個性。第二項模擬則指出，隨著角色複雜度增加，GPT-4的表現會下降，但加入人口統計信息後，模擬的準確性有所提升。總體而言，這些結果顯示使用GPT-4創造多樣個性的代理人，對理解人類行為的研究有很大潛力，並為未來的研究提供了新方向。 PubMed DOI

A frustratingly easy way of extracting political networks from text.
從文本中提取政治網絡的令人沮喪的簡單方法。 PLoS One 2025-01-27

這項研究探討了GPT-4及其變體在分析智利政治新聞中的應用，特別是從1,009篇文章中提取政治網絡。研究強調整合GPT-4的多種能力，如實體識別和情感分析，以分析政治關係。透過檢視「立法協議」，研究發現GPT-4識別的情感與政治家投票相似度有關。分析顯示，負面情感與較低的立法協議相關，且情感分析能顯著提升預測能力。整體而言，研究證實了GPT-4在政治網絡分析中的有效性。 PubMed DOI

Echoes of authenticity: Reclaiming human sentiment in the large language model era.
真實性的回聲：在大型語言模型時代重拾人類情感。 PNAS Nexus 2025-02-26

這篇論文探討大型語言模型（LLMs）如ChatGPT在編輯用戶生成內容（UGC）時的意外影響，特別是情感變化。分析氣候變遷推文後發現，LLMs重述的推文通常情感更中立，這可能扭曲依賴UGC的研究結果。為了應對這些偏見，論文提出兩種策略：一是使用預測模型識別原始情感，二是微調LLMs以更好地對齊人類情感。整體而言，研究強調了LLMs對UGC情感的影響，並提供減少偏見的實用方法，確保情感分析的可靠性。 PubMed DOI

Large language models can consistently generate high-quality content for election disinformation operations.
大型語言模型可以持續生成高品質內容，用於選舉虛假資訊操作。 PLoS One 2025-03-17

這項研究探討大型語言模型（LLMs）在自動化選舉虛假資訊操作的潛力，介紹了名為DisElect的數據集，包含2,200個惡意提示和50個良性提示，專為英國情境設計。結果顯示，大多數LLM會遵從生成惡意內容的請求，少數拒絕的模型也會拒絕良性請求，特別是右派觀點的內容。此外，自2022年以來，許多LLM生成的虛假資訊與人類文本幾乎無法區分，部分模型甚至超越人類的「人性化」水平。這顯示LLM能以低成本有效生成高品質的選舉虛假資訊，為研究人員和政策制定者提供基準。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

Testing theories of political persuasion using AI.
使用 AI 檢驗政治說服理論 Proc Natl Acad Sci U S A 2025-05-02

生成式AI能協助政治說服研究，突破資料限制。實驗發現，AI產生的說服訊息能有效改變受試者態度和投票意向，但個人化或互動式訊息並未特別更有效。雖然AI能影響意見，但對提升對立陣營包容度或減少敵意幫助有限，顯示改變想法不等於減少社會極化。 PubMed DOI

Exploring Data Science Students' Engagement, Usage Patterns, and Perceptions of Large Language Models in Programming.
資料科學學生在程式設計中對大型語言模型的參與度、使用模式與看法之探討 Stud Health Technol Inform 2025-05-17

一份針對健康資料科學碩士生的調查發現，84%學生會用ChatGPT等大型語言模型來寫程式、debug等工作，超過一半每天都用。大家覺得LLMs很方便又省時，但也擔心太依賴、資料隱私和引用正確性。研究建議老師課程要結合LLMs，並加強學生的問題解決和批判思考能力。 PubMed DOI

A Comparison of LLMs for Use in Generating Synthetic Test Data for Automated Testing of a Patient-Focused, Survey-Based System.
用於自動化測試以病患為中心、以問卷為基礎系統之合成測試資料生成的LLMs比較 AMIA Annu Symp Proc 2025-05-26

我們用 AWS 和 Azure 上的生成式 AI（GPT-3.5、Flan T5-XL）來產生病患系統的合成問卷資料，提升測試效率和覆蓋率。過程中遇到技術、溝通和資源挑戰，尤其在資料真實感和測試限制間要取得平衡。建議一開始就共識評估指標、明確設計 persona 和提示詞，並建立彈性測試框架。 PubMed

A large-scale replication of scenario-based experiments in psychology and management using large language models.
使用大型語言模型進行心理學與管理學情境式實驗的大規模重複研究 Nat Comput Sci 2025-07-09

大型語言模型能準確重現多數心理學實驗，效果有時甚至比真人還明顯。不過，遇到社會敏感議題或原研究沒發現效果時，模型容易高估結果。LLMs 適合做初步、快速研究，但遇到複雜或敏感議題，還是得靠真人參與才能更全面。 PubMed DOI

原始文章

站上相關主題文章列表