Cultural bias and cultural alignment of large language models.
大型語言模型的文化偏見與文化對齊。 PNAS Nexus 2024-09-18

這項研究探討生成式人工智慧模型中的文化偏見，特別是五個版本的OpenAI語言模型如何影響使用者表達並強化主導文化價值觀。研究發現，這些模型多反映英語系和新教歐洲國家的文化。為解決這問題，研究人員測試了一種叫做文化提示的方法，結果顯示這方法能改善後期模型（如GPT-4）在71-81%的評估地區的文化一致性。研究建議持續使用文化提示和評估，以減少生成式人工智慧中的文化偏見。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

AI language model rivals expert ethicist in perceived moral expertise.
AI 語言模型在道德專業知識的感知上與專家倫理學家相抗衡。 Sci Rep 2025-02-03

最近研究顯示，大型語言模型（LLMs），像是GPT-4o，越來越被視為可信的道德專家。在一項比較GPT-4o與《紐約時報》專欄The Ethicist建議的研究中，參與者認為AI的道德建議在可信度和深思熟慮程度上略勝於人類專家。此外，LLMs在提供道德理由方面也表現優於美國代表性樣本和知名倫理學家。這顯示人們可能會將LLMs視為人類道德指導的有用補充，因此在LLMs中編程倫理指導方針變得相當重要。 PubMed DOI

AI-based medical ethics education: examining the potential of large language models as a tool for virtue cultivation.
基於人工智慧的醫學倫理教育：探討大型語言模型作為美德培養工具的潛力。 BMC Med Educ 2025-02-05

這項研究探討大型語言模型（LLMs）在醫學倫理教育中的角色，特別是如何促進未來醫療人員的美德。研究指出，LLMs能有效模擬人類溝通，成為醫學教育的寶貴工具。透過混合方法論，將LLMs視為倫理討論的範例和顧問，並強調將人工智慧倫理納入醫學課程的重要性。研究認為，LLMs可作為「第二最佳」解決方案，增強學習體驗，並促進道德知識的獲取。最終，研究認為像ChatGPT這樣的工具能顯著改善醫學倫理教育環境。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

Detecting implicit biases of large language models with Bayesian hypothesis testing.
使用貝葉斯假設檢驗檢測大型語言模型的隱性偏見。 Sci Rep 2025-04-11

這篇論文探討大型語言模型（LLMs）中的社會偏見問題，提出一個新框架，將偏見檢測視為假設檢驗。虛無假設表示沒有隱性偏見，並使用二元選擇問題來評估開源和專有LLMs的偏見。研究涵蓋ChatGPT、DeepSeek-V3和Llama-3.1-70B等模型，使用的數據集包括BBQ和CrowS-Pairs。結果顯示，貝葉斯因子能更有效地量化偏見，並且LLMs在英法數據集中的偏見行為通常一致，微小變異可能源於文化差異。 PubMed DOI

Industrial applications of large language models.
大型語言模型的產業應用 Sci Rep 2025-04-21

大型語言模型（LLMs）能理解和產生自然語言，正改變醫療、教育、金融等產業，提升效率和準確度。不過，LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制，並探討未來趨勢。 PubMed DOI

Robustness of large language models in moral judgements.
大型語言模型在道德判斷上的穩健性 R Soc Open Sci 2025-04-24

過去有研究說能測量大型語言模型的道德偏好，但其實這些結果很容易被問題或選項的呈現方式影響，像是把「Case 1」改成「(A)」就可能讓模型答案大不同。所以，這類研究的結論不太可靠。作者建議，未來要用更嚴謹的方法來研究LLM的道德判斷。 PubMed DOI

Comparing AI and human decision-making mechanisms in daily collaborative experiments.
AI 與人類在日常協作實驗中決策機制之比較 iScience 2025-06-16

**重點摘要：** 這項研究比較了人類、大型語言模型（LLMs）以及強化學習（RL）在一個為期多天的通勤決策遊戲中的表現，目的是評估AI取代人類決策的能力。LLMs展現出類似人類的學習能力，也能做出穩定的決策，但在團體合作、理解他人選擇，以及應用現實世界知識方面仍有困難。 PubMed DOI

A large-scale replication of scenario-based experiments in psychology and management using large language models.
使用大型語言模型進行心理學與管理學情境式實驗的大規模重複研究 Nat Comput Sci 2025-07-09

大型語言模型能準確重現多數心理學實驗，效果有時甚至比真人還明顯。不過，遇到社會敏感議題或原研究沒發現效果時，模型容易高估結果。LLMs 適合做初步、快速研究，但遇到複雜或敏感議題，還是得靠真人參與才能更全面。 PubMed DOI

原始文章

站上相關主題文章列表