原始文章

這項研究探討了GPT-4及其變體在分析智利政治新聞中的應用,特別是從1,009篇文章中提取政治網絡。研究強調整合GPT-4的多種能力,如實體識別和情感分析,以分析政治關係。透過檢視「立法協議」,研究發現GPT-4識別的情感與政治家投票相似度有關。分析顯示,負面情感與較低的立法協議相關,且情感分析能顯著提升預測能力。整體而言,研究證實了GPT-4在政治網絡分析中的有效性。 PubMed DOI


站上相關主題文章列表

最新的語言模型進步了,可以用來做政治微目標定位,但對個人影響還不確定。一項研究發現,使用GPT-4生成的訊息有說服力,但微目標定位並沒有顯著增加說服力。這表示語言模型的優勢可能在於一般訊息的說服力,而非個人化訊息。研究人員已提供GPTarget2024數據集給未來研究使用。 PubMed DOI

這項研究探討了支撐ChatGPT的GPT模型在多語言心理文本分析中的有效性。研究分析了15個數據集,包含47,925條推文和新聞標題,評估GPT在12種語言中檢測情感、情緒等心理構念的能力。結果顯示,GPT的表現超越傳統方法,且隨著版本更新準確性提升,特別是在不常用語言中,具成本效益。研究建議GPT能民主化自動文本分析,促進跨語言研究,並提供範例代碼和教學。 PubMed DOI

這項研究探討了使用 GPT-4 標註社交媒體文本,特別是立場檢測,因為這類文本通常非正式且多樣。研究人員建立了一個推文數據集,並由專家標註以確保品質。他們測試了三種提示技術:零樣本、少樣本和帶思考鏈的零樣本,以評估 GPT-4 的表現。 研究結果顯示,GPT-4 在少樣本和帶思考鏈的零樣本方法上表現不錯,但未能超越經過人工標註微調的模型。特別是,帶思考鏈的零樣本方法在標註方面表現優於標準零樣本,且效果接近少樣本方法。 PubMed DOI

這項研究系統性評估了GPT-3.5和GPT-4在心理科學領域的四個關鍵能力。首先,作為研究圖書館員,GPT-4在生成虛構參考文獻的準確性上明顯優於GPT-3.5。其次,GPT-4在識別研究倫理問題方面表現出色,成功糾正了大部分明顯和微妙的違規。第三,兩者都能重現文化偏見,顯示出數據生成的潛力。最後,兩者在預測新數據方面的能力有限。總體來看,雖然GPT模型有所進步,但在生成新見解和可靠參考文獻上仍有待加強。 PubMed DOI

這項研究探討大型自然語言模型如GPT-3和GPT-4如何幫助社會心理學研究者生成新假設。由於該領域發現眾多,整合想法變得困難,可能會錯過重要聯繫。研究採用兩種方法:首先對GPT-3進行微調,使用數千篇社會心理學摘要,專家評分後發現其生成的假設在清晰度和創新性上與人類相似;其次不微調使用GPT-4,結果顯示其生成的假設在多個維度上評分更高。總體來看,這些模型能有效支持假設生成。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

研究顯示,ChatGPT-4在使用十項人格量表(TIPI)評估公共人物的人格特質上表現優異,相關係數高達0.76到0.87,顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力,以及缺乏偏見的反饋。這些發現顯示,ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值,並引發對AI在社會評估中可靠性的思考,顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是GPT模型,在政治偏見和不一致性方面的表現,針對美國和中國的政治議題進行比較。結果顯示,這些模型對中國的政治知識和態度不一致性較高,中文模型對中國的負面評價較少,而英語模型則批評較多。這種差異主要源於審查制度和地緣政治緊張,而非模型本身的問題。此外,兩種模型都顯示出對各自國家的「內群體偏見」,這些發現強調了在極化的全球環境中,資訊傳播的重要性。 PubMed DOI

這段文字探討了在社交網絡上檢測政治宣傳的挑戰,特別是利用機器人和多帳號影響公眾意見的情況。作者強調,隨著大型語言模型和資訊過載的增加,識別這類宣傳變得更加困難。他們提出一種方法,透過分析不同數據集中的標籤和用戶提及的重複性來檢測操控行為。研究利用了16個數據集,結果顯示能有效區分政治與非政治討論,無論推文來源或語言如何。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI