Evaluating the persuasive influence of political microtargeting with large language models.
評估政治微定位與大型語言模型的說服影響。 Proc Natl Acad Sci U S A 2024-06-07

最新的語言模型進步了，可以用來做政治微目標定位，但對個人影響還不確定。一項研究發現，使用GPT-4生成的訊息有說服力，但微目標定位並沒有顯著增加說服力。這表示語言模型的優勢可能在於一般訊息的說服力，而非個人化訊息。研究人員已提供GPTarget2024數據集給未來研究使用。 PubMed DOI

GPT is an effective tool for multilingual psychological text analysis.
GPT 是一個有效的多語言心理文本分析工具。 Proc Natl Acad Sci U S A 2024-08-12

這項研究探討了支撐ChatGPT的GPT模型在多語言心理文本分析中的有效性。研究分析了15個數據集，包含47,925條推文和新聞標題，評估GPT在12種語言中檢測情感、情緒等心理構念的能力。結果顯示，GPT的表現超越傳統方法，且隨著版本更新準確性提升，特別是在不常用語言中，具成本效益。研究建議GPT能民主化自動文本分析，促進跨語言研究，並提供範例代碼和教學。 PubMed DOI

GPT-4 as an X data annotator: Unraveling its performance on a stance classification task.
GPT-4 作為 X 數據標註者：揭示其在立場分類任務上的表現。 PLoS One 2024-08-15

這項研究探討了使用 GPT-4 標註社交媒體文本，特別是立場檢測，因為這類文本通常非正式且多樣。研究人員建立了一個推文數據集，並由專家標註以確保品質。他們測試了三種提示技術：零樣本、少樣本和帶思考鏈的零樣本，以評估 GPT-4 的表現。研究結果顯示，GPT-4 在少樣本和帶思考鏈的零樣本方法上表現不錯，但未能超越經過人工標註微調的模型。特別是，帶思考鏈的零樣本方法在標註方面表現優於標準零樣本，且效果接近少樣本方法。 PubMed DOI

ChatGPT as Research Scientist: Probing GPT's capabilities as a Research Librarian, Research Ethicist, Data Generator, and Data Predictor.
ChatGPT 作為研究科學家：探討 GPT 作為研究圖書館員、研究倫理學家、數據生成器和數據預測者的能力。 Proc Natl Acad Sci U S A 2024-08-20

這項研究系統性評估了GPT-3.5和GPT-4在心理科學領域的四個關鍵能力。首先，作為研究圖書館員，GPT-4在生成虛構參考文獻的準確性上明顯優於GPT-3.5。其次，GPT-4在識別研究倫理問題方面表現出色，成功糾正了大部分明顯和微妙的違規。第三，兩者都能重現文化偏見，顯示出數據生成的潛力。最後，兩者在預測新數據方面的能力有限。總體來看，雖然GPT模型有所進步，但在生成新見解和可靠參考文獻上仍有待加強。 PubMed DOI

Machine-assisted social psychology hypothesis generation.
機器輔助社會心理學假說生成。 Am Psychol 2024-09-16

這項研究探討大型自然語言模型如GPT-3和GPT-4如何幫助社會心理學研究者生成新假設。由於該領域發現眾多，整合想法變得困難，可能會錯過重要聯繫。研究採用兩種方法：首先對GPT-3進行微調，使用數千篇社會心理學摘要，專家評分後發現其生成的假設在清晰度和創新性上與人類相似；其次不微調使用GPT-4，結果顯示其生成的假設在多個維度上評分更高。總體來看，這些模型能有效支持假設生成。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Large language models and humans converge in judging public figures' personalities.
大型語言模型與人類在評估公眾人物的個性上達成一致。 PNAS Nexus 2024-10-03

研究顯示，ChatGPT-4在使用十項人格量表（TIPI）評估公共人物的人格特質上表現優異，相關係數高達0.76到0.87，顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力，以及缺乏偏見的反饋。這些發現顯示，ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值，並引發對AI在社會評估中可靠性的思考，顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI

Political biases and inconsistencies in bilingual GPT models-the cases of the U.S. and China.
雙語 GPT 模型中的政治偏見與不一致性：美國與中國的案例。 Sci Rep 2024-10-24

這項研究分析了大型語言模型（LLMs），特別是GPT模型，在政治偏見和不一致性方面的表現，針對美國和中國的政治議題進行比較。結果顯示，這些模型對中國的政治知識和態度不一致性較高，中文模型對中國的負面評價較少，而英語模型則批評較多。這種差異主要源於審查制度和地緣政治緊張，而非模型本身的問題。此外，兩種模型都顯示出對各自國家的「內群體偏見」，這些發現強調了在極化的全球環境中，資訊傳播的重要性。 PubMed DOI

Signals of propaganda-Detecting and estimating political influences in information spread in social networks.
宣傳的信號 - 偵測和評估社交網絡中信息傳播的政治影響。 PLoS One 2025-01-30

這段文字探討了在社交網絡上檢測政治宣傳的挑戰，特別是利用機器人和多帳號影響公眾意見的情況。作者強調，隨著大型語言模型和資訊過載的增加，識別這類宣傳變得更加困難。他們提出一種方法，透過分析不同數據集中的標籤和用戶提及的重複性來檢測操控行為。研究利用了16個數據集，結果顯示能有效區分政治與非政治討論，無論推文來源或語言如何。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

原始文章

站上相關主題文章列表