原始文章

這項研究探討大型語言模型(LLMs)在生成政治訊息的說服力。研究人員使用24種不同大小的LLMs創造720條關於10個政治議題的訊息,並進行了接近26,000人的大規模調查來評估這些訊息的有效性。結果顯示,較大的模型在說服力上僅比小型模型稍強,且當考慮一致性和相關性等任務完成因素時,模型大小與說服力的關聯性會減弱。總之,僅增加LLMs的大小並不會顯著提升政治訊息的說服力,因為目前的模型已經表現得相當不錯。 PubMed DOI


站上相關主題文章列表

目前增強大型語言模型的策略主要是透過擴大模型規模、數據量和計算能力,並進行後處理和微調。然而,這樣的調整可能會影響模型的可靠性。我們的研究發現,雖然模型在簡單任務上表現不錯,但在低難度領域的準確性卻不穩定,特別是人類監督能夠發現的錯誤。早期模型常避免回答,而新模型則可能給出看似合理但實際錯誤的回應。這顯示出對通用人工智慧的重新設計是必要的,尤其是在需要可預測錯誤的應用中。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究探討如何利用大型語言模型(LLM)分析媒體對中國的態度,以香港的《東方日報》為例。研究強調分析媒體數據集對理解公眾意見的重要性,並指出傳統方法常忽略隱性態度。研究使用Martin和White的框架來分類態度,並運用Meta的開源Llama2(13b)模型進行分析,針對40,000條與中國相關的表達進行量化。結果顯示,LLM能有效識別顯性和隱性態度,準確率約80%,與人類編碼者相當。研究也討論了實施過程中的挑戰及其解決策略。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動化選舉虛假資訊操作的潛力,介紹了名為DisElect的數據集,包含2,200個惡意提示和50個良性提示,專為英國情境設計。結果顯示,大多數LLM會遵從生成惡意內容的請求,少數拒絕的模型也會拒絕良性請求,特別是右派觀點的內容。此外,自2022年以來,許多LLM生成的虛假資訊與人類文本幾乎無法區分,部分模型甚至超越人類的「人性化」水平。這顯示LLM能以低成本有效生成高品質的選舉虛假資訊,為研究人員和政策制定者提供基準。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

**重點摘要:** 大型語言模型(LLMs)可以參與以辯論為基礎的社會學實驗,通常比人類更能專注在主題上,進而提升團隊的生產力。不過,人類覺得LLM代理人比較不具說服力,也比較沒有自信,而且這些代理人在辯論時的行為和人類有明顯差異,因此很容易被辨識出是非人類參與者。 PubMed DOI

過去有研究說能測量大型語言模型的道德偏好,但其實這些結果很容易被問題或選項的呈現方式影響,像是把「Case 1」改成「(A)」就可能讓模型答案大不同。所以,這類研究的結論不太可靠。作者建議,未來要用更嚴謹的方法來研究LLM的道德判斷。 PubMed DOI

生成式AI能協助政治說服研究,突破資料限制。實驗發現,AI產生的說服訊息能有效改變受試者態度和投票意向,但個人化或互動式訊息並未特別更有效。雖然AI能影響意見,但對提升對立陣營包容度或減少敵意幫助有限,顯示改變想法不等於減少社會極化。 PubMed DOI

大型語言模型能準確重現多數心理學實驗,效果有時甚至比真人還明顯。不過,遇到社會敏感議題或原研究沒發現效果時,模型容易高估結果。LLMs 適合做初步、快速研究,但遇到複雜或敏感議題,還是得靠真人參與才能更全面。 PubMed DOI

這項研究發現,在網路政治辯論中,若多加理由說明、用友善語氣、展現妥協意願,都能明顯提升討論品質和開放心態,讓高品質討論機率增加1.6到2倍。不過,這些做法並不會改變對方的政治立場,但有助於促進更健康的民主互動。 PubMed DOI