The political preferences of LLMs.
LLMs 的政治偏好。 PLoS One 2024-07-31

您的分析指出大型語言模型（LLMs）中存在的政治偏見問題。透過對24個對話型LLM進行測試，發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳，但這也讓結果的可靠性受到質疑。此外，研究顯示LLMs可以透過有監督的微調受到特定政治取向影響，這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策，因此在開發和使用LLMs時，必須仔細考量其政治影響。 PubMed DOI

GBERT: A hybrid deep learning model based on GPT-BERT for fake news detection.
GBERT：基於 GPT-BERT 的混合深度學習模型用於假新聞檢測。 Heliyon 2024-09-02

數位時代讓全球溝通變得更方便，但也帶來假新聞的問題，這些虛假資訊扭曲真相，影響社會和諧及公共輿論。因此，假新聞的檢測成為重要研究領域。本文介紹了一個新框架——生成雙向編碼器表示法（GBERT），結合了GPT和BERT的優勢，專門用於假新聞分類。經過微調後，該框架在兩個數據集上表現出色，準確率達95.30%，顯示出其在對抗錯誤資訊方面的潛力。 PubMed DOI

Political biases and inconsistencies in bilingual GPT models-the cases of the U.S. and China.
雙語 GPT 模型中的政治偏見與不一致性：美國與中國的案例。 Sci Rep 2024-10-24

這項研究分析了大型語言模型（LLMs），特別是GPT模型，在政治偏見和不一致性方面的表現，針對美國和中國的政治議題進行比較。結果顯示，這些模型對中國的政治知識和態度不一致性較高，中文模型對中國的負面評價較少，而英語模型則批評較多。這種差異主要源於審查制度和地緣政治緊張，而非模型本身的問題。此外，兩種模型都顯示出對各自國家的「內群體偏見」，這些發現強調了在極化的全球環境中，資訊傳播的重要性。 PubMed DOI

LLM-Enhanced multimodal detection of fake news.
LLM增強的多模態假新聞檢測。 PLoS One 2024-10-24

假新聞檢測在資訊時代愈加重要，但現有方法多依賴小型語言模型，對專業新聞表現不佳。為了解決這個問題，我們提出FND-LLM框架，結合小型與大型語言模型，強化多模態假新聞檢測。框架包含文本特徵、視覺語義、視覺篡改、共同注意網絡、跨模態特徵及大型語言模型分支。實驗結果顯示，FND-LLM在Weibo、Gossipcop和Politifact數據集上的準確率分別提升0.7%、6.8%和1.3%。 PubMed DOI

Public Health Discussions on Social Media: Evaluating Automated Sentiment Analysis Methods.
社交媒體上公共衛生討論：評估自動情感分析方法。 JMIR Form Res 2025-01-08

這項研究比較了多種情感分析方法，包括手動編碼、自然語言處理工具（VADER、TEXT2DATA、LIWC-22）和ChatGPT 4.0，針對有關鴉片類藥物危機的YouTube評論進行分析。研究發現，LIWC-22在估算負面情感方面表現優異，而VADER在分類負面評論上最佳。自然語言處理工具與手動編碼的一致性一般，ChatGPT 4.0表現較差。建議使用VADER和LIWC-22來分析不平衡數據集，特別是負面情緒的情況下。 PubMed DOI

A frustratingly easy way of extracting political networks from text.
從文本中提取政治網絡的令人沮喪的簡單方法。 PLoS One 2025-01-27

這項研究探討了GPT-4及其變體在分析智利政治新聞中的應用，特別是從1,009篇文章中提取政治網絡。研究強調整合GPT-4的多種能力，如實體識別和情感分析，以分析政治關係。透過檢視「立法協議」，研究發現GPT-4識別的情感與政治家投票相似度有關。分析顯示，負面情感與較低的立法協議相關，且情感分析能顯著提升預測能力。整體而言，研究證實了GPT-4在政治網絡分析中的有效性。 PubMed DOI

Signals of propaganda-Detecting and estimating political influences in information spread in social networks.
宣傳的信號 - 偵測和評估社交網絡中信息傳播的政治影響。 PLoS One 2025-01-30

這段文字探討了在社交網絡上檢測政治宣傳的挑戰，特別是利用機器人和多帳號影響公眾意見的情況。作者強調，隨著大型語言模型和資訊過載的增加，識別這類宣傳變得更加困難。他們提出一種方法，透過分析不同數據集中的標籤和用戶提及的重複性來檢測操控行為。研究利用了16個數據集，結果顯示能有效區分政治與非政治討論，無論推文來源或語言如何。 PubMed DOI

Evaluating and addressing demographic disparities in medical large language models: a systematic review.
評估與解決醫學大型語言模型中的人口統計差異：系統性回顧。 Int J Equity Health 2025-02-26

這項研究回顧了大型語言模型（LLMs）在醫療領域中所引發的人口統計偏見，並強調了相關的擔憂。從2018年到2024年，分析了24項研究，發現91.7%的研究識別出偏見，性別偏見最為普遍（93.7%），種族或民族偏見也高達90.9%。雖然偏見檢測有所改善，但有效的減緩策略仍在開發中。隨著LLMs在醫療決策中的重要性上升，解決這些偏見對建立公平的人工智慧系統至關重要。未來研究應考慮更廣泛的人口因素及非西方文化背景。 PubMed DOI

Large language models can consistently generate high-quality content for election disinformation operations.
大型語言模型可以持續生成高品質內容，用於選舉虛假資訊操作。 PLoS One 2025-03-17

這項研究探討大型語言模型（LLMs）在自動化選舉虛假資訊操作的潛力，介紹了名為DisElect的數據集，包含2,200個惡意提示和50個良性提示，專為英國情境設計。結果顯示，大多數LLM會遵從生成惡意內容的請求，少數拒絕的模型也會拒絕良性請求，特別是右派觀點的內容。此外，自2022年以來，許多LLM生成的虛假資訊與人類文本幾乎無法區分，部分模型甚至超越人類的「人性化」水平。這顯示LLM能以低成本有效生成高品質的選舉虛假資訊，為研究人員和政策制定者提供基準。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

原始文章

站上相關主題文章列表