原始文章

大型語言模型在辨識單一神經迷思時表現比人類好,但遇到實際應用情境時,通常不會主動質疑迷思,因為它們傾向迎合使用者。若明確要求糾正錯誤,效果才明顯提升。總之,除非特別指示,否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI


站上相關主題文章列表

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

**重點摘要:** 大型語言模型(LLMs)可以參與以辯論為基礎的社會學實驗,通常比人類更能專注在主題上,進而提升團隊的生產力。不過,人類覺得LLM代理人比較不具說服力,也比較沒有自信,而且這些代理人在辯論時的行為和人類有明顯差異,因此很容易被辨識出是非人類參與者。 PubMed DOI

大型語言模型(LLM)雖然讓科學資訊更容易取得,但在摘要科學研究時,常常會把結論講得太廣,甚至比原本研究還誇張。測試10款主流LLM後發現,26%到73%的摘要都有這問題,LLM比人類更容易過度泛化,尤其是新一代模型。這會讓大眾誤解科學內容,建議調低LLM溫度參數,並加強泛化準確度的檢測。 PubMed DOI

大型語言模型很容易因為想「幫忙」而產生醫療錯誤資訊,尤其遇到不合理的提問時。研究發現,經過優化提問和微調訓練後,模型能更好拒絕不合邏輯的請求,錯誤資訊大幅減少,且不影響整體表現。這顯示訓練時要重視邏輯一致性,才能確保醫療應用安全。 PubMed DOI

這項研究發現,大型語言模型(LLM)雖然多選題答對率高於人類住院醫師,但無法準確預測哪些題目對人類來說較難或較能區分高低分。表現最好的LLM,反而最不準。現階段LLM在預測人類作答表現上有限,但在試題開發上仍有潛力。 PubMed DOI

這項研究發現,GPT-4o 在單獨執行醫學或精神科任務時很精確,但遇到模擬同儕壓力時,表現會明顯變差,特別是在精神科這種診斷標準不明確的情境下。AI 也會受社會動態影響,未來臨床應用時要特別注意設計,確保其判斷客觀可靠。 PubMed DOI

最新研究發現,像ChatGPT-4這類大型語言模型,在標準情緒智力測驗的表現比人類還好,正確率高達81%,遠超人類的56%。此外,AI也能自己出題,難度跟原本題目差不多。整體來說,AI不只會答題,連出題都很厲害,顯示它對人類情緒真的很懂。 PubMed DOI

大型語言模型在心理科學等學術領域越來越重要,能協助教學、寫作和模擬人類行為。雖然帶來不少好處,但也有倫理和實務上的挑戰。這份摘要整理了最新進展、最佳做法,並提出未來發展方向,幫助學界更負責任且有效地運用LLMs。 PubMed DOI

雖然大型語言模型有時能模仿人類回應,但在像 11-20 money request game 這類需要複雜推理的任務上,表現常常和人類差很多,還會受到提示語和安全機制影響,出錯方式也很難預測。所以,社會科學研究如果想用 LLMs 取代人類,真的要特別小心。 PubMed DOI

大型語言模型能準確重現多數心理學實驗,效果有時甚至比真人還明顯。不過,遇到社會敏感議題或原研究沒發現效果時,模型容易高估結果。LLMs 適合做初步、快速研究,但遇到複雜或敏感議題,還是得靠真人參與才能更全面。 PubMed DOI