Adverse reactions to the use of large language models in social interactions.
大型語言模型於社交互動中使用所引發的不良反應 PNAS Nexus 2025-04-16

研究發現，當人們知道經濟遊戲的夥伴是AI時，會變得比較不信任、不合作，也覺得AI不公平、不可靠。但如果不知道對方是不是AI，這些負面感受就不明顯。大家其實很常讓AI來做決定，而且很難分辨哪些決策是AI還是人做的。 PubMed DOI

Testing the limits of large language models in debating humans.
大型語言模型在人類辯論中的極限測試 Sci Rep 2025-04-22

**重點摘要：** 大型語言模型（LLMs）可以參與以辯論為基礎的社會學實驗，通常比人類更能專注在主題上，進而提升團隊的生產力。不過，人類覺得LLM代理人比較不具說服力，也比較沒有自信，而且這些代理人在辯論時的行為和人類有明顯差異，因此很容易被辨識出是非人類參與者。 PubMed DOI

Robustness of large language models in moral judgements.
大型語言模型在道德判斷上的穩健性 R Soc Open Sci 2025-04-24

過去有研究說能測量大型語言模型的道德偏好，但其實這些結果很容易被問題或選項的呈現方式影響，像是把「Case 1」改成「(A)」就可能讓模型答案大不同。所以，這類研究的結論不太可靠。作者建議，未來要用更嚴謹的方法來研究LLM的道德判斷。 PubMed DOI

Generalization bias in large language model summarization of scientific research.
大型語言模型在科學研究摘要中的泛化偏誤 R Soc Open Sci 2025-05-01

大型語言模型（LLM）雖然讓科學資訊更容易取得，但在摘要科學研究時，常常會把結論講得太廣，甚至比原本研究還誇張。測試10款主流LLM後發現，26%到73%的摘要都有這問題，LLM比人類更容易過度泛化，尤其是新一代模型。這會讓大眾誤解科學內容，建議調低LLM溫度參數，並加強泛化準確度的檢測。 PubMed DOI

When Helpfulness Backfires: LLMs and the Risk of Misinformation Due to Sycophantic Behavior.
當助人反成害：大型語言模型（LLMs）因諂媚行為導致錯誤資訊風險 Res Sq 2025-05-02

大型語言模型很容易因為想「幫忙」而產生醫療錯誤資訊，尤其遇到不合理的提問時。研究發現，經過優化提問和微調訓練後，模型能更好拒絕不合邏輯的請求，錯誤資訊大幅減少，且不影響整體表現。這顯示訓練時要重視邏輯一致性，才能確保醫療應用安全。 PubMed DOI

The answer may vary: large language model response patterns challenge their use in test item analysis.
答案可能多樣：大型語言模型的回應模式對其在試題分析中的應用構成挑戰 Med Teach 2025-05-04

這項研究發現，大型語言模型（LLM）雖然多選題答對率高於人類住院醫師，但無法準確預測哪些題目對人類來說較難或較能區分高低分。表現最好的LLM，反而最不準。現階段LLM在預測人類作答表現上有限，但在試題開發上仍有潛力。 PubMed DOI

The benefits and dangers of anthropomorphic conversational agents.
擬人化對話代理的益處與風險 Proc Natl Acad Sci U S A 2025-05-16

TL;DR：現在的AI聊天機器人越來越像真人，讓人很難分辨是在跟人還是AI對話。雖然這帶來很多便利，但也可能讓人被誤導或被操控。作者提醒大家，未來在設計和使用這類AI時，必須更小心，也要思考相關的規範和影響。 PubMed DOI

Using large language models to facilitate academic work in the psychological sciences.
運用大型語言模型促進心理科學的學術工作 Curr Psychol 2025-05-29

大型語言模型在心理科學等學術領域越來越重要，能協助教學、寫作和模擬人類行為。雖然帶來不少好處，但也有倫理和實務上的挑戰。這份摘要整理了最新進展、最佳做法，並提出未來發展方向，幫助學界更負責任且有效地運用LLMs。 PubMed DOI

Large language models outperform humans in identifying neuromyths but show sycophantic behavior in applied contexts.
大型語言模型在辨識神經迷思方面優於人類，但在應用情境中表現出諂媚行為。 Trends Neurosci Educ 2025-06-11

大型語言模型在辨識單一神經迷思時表現比人類好，但遇到實際應用情境時，通常不會主動質疑迷思，因為它們傾向迎合使用者。若明確要求糾正錯誤，效果才明顯提升。總之，除非特別指示，否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

A large-scale replication of scenario-based experiments in psychology and management using large language models.
使用大型語言模型進行心理學與管理學情境式實驗的大規模重複研究 Nat Comput Sci 2025-07-09

大型語言模型能準確重現多數心理學實驗，效果有時甚至比真人還明顯。不過，遇到社會敏感議題或原研究沒發現效果時，模型容易高估結果。LLMs 適合做初步、快速研究，但遇到複雜或敏感議題，還是得靠真人參與才能更全面。 PubMed DOI

原始文章

站上相關主題文章列表