Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Large Language Models lack essential metacognition for reliable medical reasoning.
大型語言模型缺乏可靠醫學推理所需的基本後設認知。 Nat Commun 2025-01-14

大型語言模型（LLMs）在醫學考試中表現出色，但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試，評估模型的信心分數和元認知任務。研究顯示，雖然模型在回答問題上表現良好，但在識別知識空白方面存在重大缺陷，經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險，因此需要改進評估框架，以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

Large language models and psychiatry.
大型語言模型與精神醫學。 Int J Law Psychiatry 2025-02-28

生成式人工智慧和大型語言模型（LLMs），如GPT-4，對臨床醫學和認知心理學影響深遠。這些模型在理解和生成語言方面表現優異，能改善臨床決策和心理諮詢。雖然LLMs在類比推理和隱喻理解上表現良好，但在因果推理和複雜規劃上仍有挑戰。本文探討LLMs的認知能力及其在心理測試中的表現，並討論其在認知心理學和精神醫學的應用、限制及倫理考量，強調進一步研究的重要性，以釋放其潛力。 PubMed DOI

Industrial applications of large language models.
大型語言模型的產業應用 Sci Rep 2025-04-21

大型語言模型（LLMs）能理解和產生自然語言，正改變醫療、教育、金融等產業，提升效率和準確度。不過，LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制，並探討未來趨勢。 PubMed DOI

Comparison of Large Language Model with Aphasia.
大型語言模型與失語症的比較 Adv Sci (Weinh) 2025-05-15

大型語言模型常會產生看似正確但其實錯誤的回答，這跟人類接受性失語症很像。研究發現，LLMs的內部運作和失語症患者大腦的資訊處理方式很相似，特別是在狀態轉換和停留時間上。這種分析方法未來有機會幫助改進LLMs，也可能應用在失語症診斷上。 PubMed DOI

The influence of mental state attributions on trust in large language models.
大語言模型心理狀態歸因對信任的影響 Commun Psychol 2025-05-25

研究發現，大家覺得AI有意識或情感，並不會讓他們更信任AI或更願意接受AI建議。反而，認為AI有情感的人，還比較不會聽AI的建議。相較之下，大家覺得AI越聰明、越會推理，才會更信任AI、願意採納建議。信任AI主要還是看它有多厲害。 PubMed DOI

Using large language models to facilitate academic work in the psychological sciences.
運用大型語言模型促進心理科學的學術工作 Curr Psychol 2025-05-29

大型語言模型在心理科學等學術領域越來越重要，能協助教學、寫作和模擬人類行為。雖然帶來不少好處，但也有倫理和實務上的挑戰。這份摘要整理了最新進展、最佳做法，並提出未來發展方向，幫助學界更負責任且有效地運用LLMs。 PubMed DOI

Large language models outperform humans in identifying neuromyths but show sycophantic behavior in applied contexts.
大型語言模型在辨識神經迷思方面優於人類，但在應用情境中表現出諂媚行為。 Trends Neurosci Educ 2025-06-11

大型語言模型在辨識單一神經迷思時表現比人類好，但遇到實際應用情境時，通常不會主動質疑迷思，因為它們傾向迎合使用者。若明確要求糾正錯誤，效果才明顯提升。總之，除非特別指示，否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

How and for whom using generative AI affects creativity: A field experiment.
生成式 AI 如何影響創造力，以及對哪些人有影響：一項實地實驗 J Appl Psychol 2025-06-16

研究發現，使用大型語言模型（LLM）能提升員工的創造力，特別是對那些擅長自我調整思考的人效果更明顯。實驗顯示，主管和外部評審都認為有用LLM協助的員工創意表現更好，尤其是後設認知能力強的人。這說明LLM能幫助特定員工在工作上更有創意。 PubMed DOI

A large-scale replication of scenario-based experiments in psychology and management using large language models.
使用大型語言模型進行心理學與管理學情境式實驗的大規模重複研究 Nat Comput Sci 2025-07-09

大型語言模型能準確重現多數心理學實驗，效果有時甚至比真人還明顯。不過，遇到社會敏感議題或原研究沒發現效果時，模型容易高估結果。LLMs 適合做初步、快速研究，但遇到複雜或敏感議題，還是得靠真人參與才能更全面。 PubMed DOI

原始文章

站上相關主題文章列表