Diminished diversity-of-thought in a standard large language model.
標準大型語言模型中思想多樣性的減少。 Behav Res Methods 2024-01-09

研究發現GPT-3.5在模擬人類行為上有限制，容易出現「正確答案」效應。即使改變資料或答案，結果仍一致。有研究顯示GPT-3.5傾向右派價值觀。這顯示在社會科學中使用大型語言模型存在挑戰，也引發對未來由AI主導可能帶來的思想單一性的擔憂。 PubMed DOI

Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見：對大型語言模型生成的新聞進行檢驗。 Sci Rep 2024-03-07

LLMs透過AIGC改變生活，但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見，歧視女性、黑人。ChatGPT偏見最少，且能拒絕有偏見提示。 PubMed DOI

The political preferences of LLMs.
LLMs 的政治偏好。 PLoS One 2024-07-31

您的分析指出大型語言模型（LLMs）中存在的政治偏見問題。透過對24個對話型LLM進行測試，發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳，但這也讓結果的可靠性受到質疑。此外，研究顯示LLMs可以透過有監督的微調受到特定政治取向影響，這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策，因此在開發和使用LLMs時，必須仔細考量其政治影響。 PubMed DOI

From hate to harmony: Leveraging large language models for safer speech in times of COVID-19 crisis.
從仇恨到和諧：在 COVID-19 危機期間利用大型語言模型促進更安全的言論。 Heliyon 2024-09-02

這項研究探討了 COVID-19 疫情期間攻擊性語言的增加，並利用機器學習技術來解決這個問題。研究建立了一個檢測和轉化中文仇恨言論的框架，並編制了包含 30 個疫情相關術語的數據集。開發的兩層檢測模型準確率分別為 94.42% 和 81.48%。結合生成式 AI 和 LDA 主題模型，提升了改寫效率，並有效減少敵意，保持核心意義。這種方法提供建設性的改寫建議，促進積極公共討論，幫助遏制仇恨言論。 PubMed DOI

Political biases and inconsistencies in bilingual GPT models-the cases of the U.S. and China.
雙語 GPT 模型中的政治偏見與不一致性：美國與中國的案例。 Sci Rep 2024-10-24

這項研究分析了大型語言模型（LLMs），特別是GPT模型，在政治偏見和不一致性方面的表現，針對美國和中國的政治議題進行比較。結果顯示，這些模型對中國的政治知識和態度不一致性較高，中文模型對中國的負面評價較少，而英語模型則批評較多。這種差異主要源於審查制度和地緣政治緊張，而非模型本身的問題。此外，兩種模型都顯示出對各自國家的「內群體偏見」，這些發現強調了在極化的全球環境中，資訊傳播的重要性。 PubMed DOI

Deploying large language models for discourse studies: An exploration of automated analysis of media attitudes.
部署大型語言模型於話語研究：媒體態度自動分析的探索。 PLoS One 2025-01-09

這項研究探討如何利用大型語言模型（LLM）分析媒體對中國的態度，以香港的《東方日報》為例。研究強調分析媒體數據集對理解公眾意見的重要性，並指出傳統方法常忽略隱性態度。研究使用Martin和White的框架來分類態度，並運用Meta的開源Llama2（13b）模型進行分析，針對40,000條與中國相關的表達進行量化。結果顯示，LLM能有效識別顯性和隱性態度，準確率約80%，與人類編碼者相當。研究也討論了實施過程中的挑戰及其解決策略。 PubMed DOI

Understanding Citizens' Response to Social Activities on Twitter in US Metropolises During the COVID-19 Recovery Phase Using a Fine-Tuned Large Language Model: Application of AI.
理解美國大都市在 COVID-19 復甦階段對社交活動的公民反應：使用微調的大型語言模型的 AI 應用。 J Med Internet Res 2025-02-11

這項研究調查了美國紐約、洛杉磯和芝加哥居民在 COVID-19 疫情過渡期間的情感變化。研究分析了超過 119,000 條 Twitter 帖子，發現情感水平與確診數有顯著相關，紐約市的相關性最高（0.89），芝加哥中等（0.65），洛杉磯較低（0.39）。隨著疫情減退，與 COVID-19 相關的詞彙逐漸被其他詞彙取代，顯示對限制措施的關注度下降。整體來看，疫情接近尾聲時，對限制措施的負面情感減少，突顯了疫情對城市居民的社會心理影響。 PubMed DOI

Scaling language model size yields diminishing returns for single-message political persuasion.
擴大語言模型的規模對單一訊息的政治說服效果產生遞減效益。 Proc Natl Acad Sci U S A 2025-03-07

這項研究探討大型語言模型（LLMs）在生成政治訊息的說服力。研究人員使用24種不同大小的LLMs創造720條關於10個政治議題的訊息，並進行了接近26,000人的大規模調查來評估這些訊息的有效性。結果顯示，較大的模型在說服力上僅比小型模型稍強，且當考慮一致性和相關性等任務完成因素時，模型大小與說服力的關聯性會減弱。總之，僅增加LLMs的大小並不會顯著提升政治訊息的說服力，因為目前的模型已經表現得相當不錯。 PubMed DOI

Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: an investigation of Baidu, Ernie and Qwen.
比較中文AI技術中的多樣性、負面性和刻板印象：對百度、Ernie和Qwen的調查。 PeerJ Comput Sci 2025-03-26

這項研究探討了中國的人工智慧工具偏見，特別是百度搜尋引擎及兩個大型語言模型（LLMs）Ernie和Qwen。研究分析了240個社交群體的數據，發現LLMs的觀點比百度更廣泛，但百度和Qwen產生負面內容的頻率高於Ernie。結果顯示語言模型中存在中等程度的刻板印象，可能會助長有害的看法。研究強調在推動全球人工智慧發展時，公平性和包容性的重要性。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

原始文章

站上相關主題文章列表