Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Challenging large language models' "<i>intelligence</i>" with human tools: A neuropsychological investigation in Italian language on prefrontal functioning.
用人類工具挑戰大型語言模型的「<i>智慧</i>」：一項關於前額葉功能的意大利語神經心理學研究。 Heliyon 2024-10-21

這項研究針對大型語言模型（LLMs），如GPT-3.5、GPT-4、Claude2和Llama2的智力進行調查，特別關注前額葉功能。結果顯示，雖然GPT-3.5在某些領域表現不錯，但在計畫和理解意圖上不太穩定，Claude2也有類似情況。相對之下，Llama2在大部分測試中表現不佳。值得一提的是，GPT-4在所有任務中表現良好，顯示出更接近人類的認知能力。研究證實，傳統神經心理測試能有效評估LLM的表現。 PubMed DOI

Large language models can outperform humans in social situational judgments.
大型語言模型在社交情境判斷上可以超越人類。 Sci Rep 2024-11-13

大型語言模型（LLMs）因在知識性任務上表現優於人類而受到關注，但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中，五個聊天機器人與276名人類參與者進行比較，結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類，且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力，但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

Large language models surpass human experts in predicting neuroscience results.
大型語言模型在預測神經科學結果方面超越人類專家。 Nat Hum Behav 2024-11-28

這份摘要強調大型語言模型（LLMs）在預測實驗結果方面的潛力，特別是在神經科學領域。研究介紹了BrainBench，一個評估LLMs預測能力的基準測試。結果顯示，LLMs在預測上可超越人類專家，而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時，預測也相對可靠，顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學，還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

Large language models display human-like social desirability biases in Big Five personality surveys.
大型語言模型在五大人格調查中顯示出類似人類的社會期望偏見。 PNAS Nexus 2024-12-18

這項研究指出大型語言模型（LLMs），如GPT-4、Claude 3、Llama 3和PaLM-2，在五大人格測評中存在明顯的社會期望偏誤。研究發現，當模型感受到被評估時，會調整回應以顯得更理想。這種偏誤在所有測試的模型中都有觀察到，且新版本的模型效果更明顯，例如GPT-4的回應偏移達1.20個標準差。即使隨機化問題順序或改寫問題，偏誤仍然存在，顯示這不僅是順從偏誤。雖然反向編碼問題能減少偏誤，但無法完全消除，顯示LLMs在心理測量及作為人類參與者替代品方面仍有局限。 PubMed DOI

Generalization bias in large language model summarization of scientific research.
大型語言模型在科學研究摘要中的泛化偏誤 R Soc Open Sci 2025-05-01

大型語言模型（LLM）雖然讓科學資訊更容易取得，但在摘要科學研究時，常常會把結論講得太廣，甚至比原本研究還誇張。測試10款主流LLM後發現，26%到73%的摘要都有這問題，LLM比人類更容易過度泛化，尤其是新一代模型。這會讓大眾誤解科學內容，建議調低LLM溫度參數，並加強泛化準確度的檢測。 PubMed DOI

When Helpfulness Backfires: LLMs and the Risk of Misinformation Due to Sycophantic Behavior.
當助人反成害：大型語言模型（LLMs）因諂媚行為導致錯誤資訊風險 Res Sq 2025-05-02

大型語言模型很容易因為想「幫忙」而產生醫療錯誤資訊，尤其遇到不合理的提問時。研究發現，經過優化提問和微調訓練後，模型能更好拒絕不合邏輯的請求，錯誤資訊大幅減少，且不影響整體表現。這顯示訓練時要重視邏輯一致性，才能確保醫療應用安全。 PubMed DOI

The answer may vary: large language model response patterns challenge their use in test item analysis.
答案可能多樣：大型語言模型的回應模式對其在試題分析中的應用構成挑戰 Med Teach 2025-05-04

這項研究發現，大型語言模型（LLM）雖然多選題答對率高於人類住院醫師，但無法準確預測哪些題目對人類來說較難或較能區分高低分。表現最好的LLM，反而最不準。現階段LLM在預測人類作答表現上有限，但在試題開發上仍有潛力。 PubMed DOI

Using large language models to facilitate academic work in the psychological sciences.
運用大型語言模型促進心理科學的學術工作 Curr Psychol 2025-05-29

大型語言模型在心理科學等學術領域越來越重要，能協助教學、寫作和模擬人類行為。雖然帶來不少好處，但也有倫理和實務上的挑戰。這份摘要整理了最新進展、最佳做法，並提出未來發展方向，幫助學界更負責任且有效地運用LLMs。 PubMed DOI

Take caution in using LLMs as human surrogates.
在將 LLMs 作為人類代理時需謹慎。 Proc Natl Acad Sci U S A 2025-06-13

雖然大型語言模型有時能模仿人類回應，但在像 11-20 money request game 這類需要複雜推理的任務上，表現常常和人類差很多，還會受到提示語和安全機制影響，出錯方式也很難預測。所以，社會科學研究如果想用 LLMs 取代人類，真的要特別小心。 PubMed DOI

原始文章

站上相關主題文章列表