原始文章

這項研究分析了2013至2023年間,美國十個政治多元城市的地方新聞媒體對警察的報導,特別是在針對黑人公民的警察暴力事件後。儘管公眾認為媒體對警察的批評變得更尖銳,研究卻發現批評程度其實相對穩定。雖然佛洛伊德被謀殺後,負面報導短暫增加,但並未造成持久變化。保守派和自由派城市的報導差異不大,顯示媒體未顯著迎合政治傾向。共和黨人認為新聞對警察支持較高,但兩派都認為批評程度未變。 PubMed DOI


站上相關主題文章列表

研究發現GPT-3.5在模擬人類行為上有限制,容易出現「正確答案」效應。即使改變資料或答案,結果仍一致。有研究顯示GPT-3.5傾向右派價值觀。這顯示在社會科學中使用大型語言模型存在挑戰,也引發對未來由AI主導可能帶來的思想單一性的擔憂。 PubMed DOI

LLMs透過AIGC改變生活,但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見,歧視女性、黑人。ChatGPT偏見最少,且能拒絕有偏見提示。 PubMed DOI

您的分析指出大型語言模型(LLMs)中存在的政治偏見問題。透過對24個對話型LLM進行測試,發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳,但這也讓結果的可靠性受到質疑。此外,研究顯示LLMs可以透過有監督的微調受到特定政治取向影響,這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策,因此在開發和使用LLMs時,必須仔細考量其政治影響。 PubMed DOI

這項研究探討了 COVID-19 疫情期間攻擊性語言的增加,並利用機器學習技術來解決這個問題。研究建立了一個檢測和轉化中文仇恨言論的框架,並編制了包含 30 個疫情相關術語的數據集。開發的兩層檢測模型準確率分別為 94.42% 和 81.48%。結合生成式 AI 和 LDA 主題模型,提升了改寫效率,並有效減少敵意,保持核心意義。這種方法提供建設性的改寫建議,促進積極公共討論,幫助遏制仇恨言論。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是GPT模型,在政治偏見和不一致性方面的表現,針對美國和中國的政治議題進行比較。結果顯示,這些模型對中國的政治知識和態度不一致性較高,中文模型對中國的負面評價較少,而英語模型則批評較多。這種差異主要源於審查制度和地緣政治緊張,而非模型本身的問題。此外,兩種模型都顯示出對各自國家的「內群體偏見」,這些發現強調了在極化的全球環境中,資訊傳播的重要性。 PubMed DOI

這項研究探討如何利用大型語言模型(LLM)分析媒體對中國的態度,以香港的《東方日報》為例。研究強調分析媒體數據集對理解公眾意見的重要性,並指出傳統方法常忽略隱性態度。研究使用Martin和White的框架來分類態度,並運用Meta的開源Llama2(13b)模型進行分析,針對40,000條與中國相關的表達進行量化。結果顯示,LLM能有效識別顯性和隱性態度,準確率約80%,與人類編碼者相當。研究也討論了實施過程中的挑戰及其解決策略。 PubMed DOI

這項研究調查了美國紐約、洛杉磯和芝加哥居民在 COVID-19 疫情過渡期間的情感變化。研究分析了超過 119,000 條 Twitter 帖子,發現情感水平與確診數有顯著相關,紐約市的相關性最高(0.89),芝加哥中等(0.65),洛杉磯較低(0.39)。隨著疫情減退,與 COVID-19 相關的詞彙逐漸被其他詞彙取代,顯示對限制措施的關注度下降。整體來看,疫情接近尾聲時,對限制措施的負面情感減少,突顯了疫情對城市居民的社會心理影響。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成政治訊息的說服力。研究人員使用24種不同大小的LLMs創造720條關於10個政治議題的訊息,並進行了接近26,000人的大規模調查來評估這些訊息的有效性。結果顯示,較大的模型在說服力上僅比小型模型稍強,且當考慮一致性和相關性等任務完成因素時,模型大小與說服力的關聯性會減弱。總之,僅增加LLMs的大小並不會顯著提升政治訊息的說服力,因為目前的模型已經表現得相當不錯。 PubMed DOI

這項研究探討了中國的人工智慧工具偏見,特別是百度搜尋引擎及兩個大型語言模型(LLMs)Ernie和Qwen。研究分析了240個社交群體的數據,發現LLMs的觀點比百度更廣泛,但百度和Qwen產生負面內容的頻率高於Ernie。結果顯示語言模型中存在中等程度的刻板印象,可能會助長有害的看法。研究強調在推動全球人工智慧發展時,公平性和包容性的重要性。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI