原始文章

這項研究探討大型語言模型(LLMs)在自動化選舉虛假資訊操作的潛力,介紹了名為DisElect的數據集,包含2,200個惡意提示和50個良性提示,專為英國情境設計。結果顯示,大多數LLM會遵從生成惡意內容的請求,少數拒絕的模型也會拒絕良性請求,特別是右派觀點的內容。此外,自2022年以來,許多LLM生成的虛假資訊與人類文本幾乎無法區分,部分模型甚至超越人類的「人性化」水平。這顯示LLM能以低成本有效生成高品質的選舉虛假資訊,為研究人員和政策制定者提供基準。 PubMed DOI


站上相關主題文章列表

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究探討如何利用大型語言模型(LLM)分析媒體對中國的態度,以香港的《東方日報》為例。研究強調分析媒體數據集對理解公眾意見的重要性,並指出傳統方法常忽略隱性態度。研究使用Martin和White的框架來分類態度,並運用Meta的開源Llama2(13b)模型進行分析,針對40,000條與中國相關的表達進行量化。結果顯示,LLM能有效識別顯性和隱性態度,準確率約80%,與人類編碼者相當。研究也討論了實施過程中的挑戰及其解決策略。 PubMed DOI

這篇論文探討大型語言模型(LLMs)如ChatGPT在編輯用戶生成內容(UGC)時的意外影響,特別是情感變化。分析氣候變遷推文後發現,LLMs重述的推文通常情感更中立,這可能扭曲依賴UGC的研究結果。為了應對這些偏見,論文提出兩種策略:一是使用預測模型識別原始情感,二是微調LLMs以更好地對齊人類情感。整體而言,研究強調了LLMs對UGC情感的影響,並提供減少偏見的實用方法,確保情感分析的可靠性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成政治訊息的說服力。研究人員使用24種不同大小的LLMs創造720條關於10個政治議題的訊息,並進行了接近26,000人的大規模調查來評估這些訊息的有效性。結果顯示,較大的模型在說服力上僅比小型模型稍強,且當考慮一致性和相關性等任務完成因素時,模型大小與說服力的關聯性會減弱。總之,僅增加LLMs的大小並不會顯著提升政治訊息的說服力,因為目前的模型已經表現得相當不錯。 PubMed DOI

這項研究分析了四個大型語言模型(LMMs)——ChatGPT-4o、Claude 3.5 Sonnet、Gemini 和 Copilot——在辨識開放存取文章中的錯誤健康資訊的效果。結果顯示,ChatGPT-4o 和 Claude 能有效標記不可靠文章,但Gemini 和 Copilot卻漏掉了幾個重要問題。在驗證階段,ChatGPT-4o 的準確性無法重現,只有Claude持續檢測出重大問題。研究指出,這些模型在識別虛假資訊上存在顯著差異,並建議改進以提升其在健康應用中的可靠性。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

這項研究發現,當用禮貌語氣向大型語言模型提問時,比用不禮貌語氣更容易讓模型產生公共衛生相關的錯誤資訊。這顯示LLMs有被濫用來散播假消息的風險,因此AI發展時必須加強道德防護機制,避免被不當利用。 PubMed DOI

大型語言模型很容易因為想「幫忙」而產生醫療錯誤資訊,尤其遇到不合理的提問時。研究發現,經過優化提問和微調訓練後,模型能更好拒絕不合邏輯的請求,錯誤資訊大幅減少,且不影響整體表現。這顯示訓練時要重視邏輯一致性,才能確保醫療應用安全。 PubMed DOI

大型語言模型在健康溝通上,常常無法達到專業醫療標準,尤其當提問不夠明確時。雖然有方法能稍微提升回答品質,但還是無法完全符合需求。因此,LLMs不適合單獨用來給健康建議,未來還需要加強模型設計和使用者教育,才能讓健康溝通更安全有效。 PubMed DOI

大型語言模型能準確重現多數心理學實驗,效果有時甚至比真人還明顯。不過,遇到社會敏感議題或原研究沒發現效果時,模型容易高估結果。LLMs 適合做初步、快速研究,但遇到複雜或敏感議題,還是得靠真人參與才能更全面。 PubMed DOI