AI Psychometrics: Assessing the Psychological Profiles of Large Language Models Through Psychometric Inventories.
AI心理測量學：透過心理測量庫評估大型語言模型的心理特徵。 Perspect Psychol Sci 2024-01-02

討論如何利用心理測驗庫評估大型語言模型的特質，假設模型會從性訓練文本中獲得心理特質。透過心理測驗庫，研究者可以探究比較模型的非認知特徵，揭示其個性、價值觀、信念和偏見。文章提出了評估模型特質的方法，包括零-shot分類。最後討論了AI心理測量學的挑戰和未來研究方向。 PubMed DOI

Diminished diversity-of-thought in a standard large language model.
標準大型語言模型中思想多樣性的減少。 Behav Res Methods 2024-01-09

研究發現GPT-3.5在模擬人類行為上有限制，容易出現「正確答案」效應。即使改變資料或答案，結果仍一致。有研究顯示GPT-3.5傾向右派價值觀。這顯示在社會科學中使用大型語言模型存在挑戰，也引發對未來由AI主導可能帶來的思想單一性的擔憂。 PubMed DOI

An evolutionary model of personality traits related to cooperative behavior using a large language model.
使用大型語言模型建立與合作行為相關的人格特質演化模型 Sci Rep 2024-03-23

研究使用大型語言模型模擬人類在博弈理論中的行為選擇，探討合作行為特質的演化。模型基於平均報酬和基因突變，演化出合作或自私行為族群。結果顯示，模型能模擬多樣人格表徵下的合作行為演化，並產生合作和自私特質。基因反映個性行為傾向，影響個體行為和演化。 PubMed DOI

Large language models know how the personality of public figures is perceived by the general public.
大型語言模型知道公眾人物的個性在大眾眼中是如何被感知的。 Sci Rep 2024-03-23

研究發現透過GPT-3中公眾人物名字的位置，可以預測人們對其個性的看法。透過600名評分者對226位公眾人物的五大人格特質的評分，使用線性回歸預測這些知覺。結果顯示高準確度，r值從.78到.88，控制變量後為.53到.70。研究指出，GPT-3詞嵌入能捕捉個體差異和親密特質的訊號。 PubMed DOI

Testing theory of mind in large language models and humans.
在大型語言模型和人類中測試心智理論。 Nat Hum Behav 2024-05-20

研究比較人類和大型語言模型（LLM）在心智理論任務上的表現，發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類，但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類，但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法，需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

Large language models can infer psychological dispositions of social media users.
大型語言模型可以推斷社交媒體使用者的心理傾向。 PNAS Nexus 2024-07-01

研究探討大型語言模型如ChatGPT是否能從社群媒體貼文推斷人格特質，結果顯示模型可準確推斷大五人格特質，尤其對女性和年輕人更準確。這種能力或許讓心理評估更普及，但也引發隱私和監管疑慮。 PubMed DOI

Stick to your role! Stability of personal values expressed in large language models.
大型語言模型中表達的個人價值觀的穩定性。 PLoS One 2024-08-26

這篇論文探討大型語言模型（LLMs）在不同上下文中的價值表達穩定性，並分析了認知能力、知識和模型大小等因素。研究涵蓋21個來自六個家族的LLM，重點在於人際和個體層級的穩定性。主要發現包括：某些模型（如Mixtral和GPT-3.5）在價值表達上較為穩定，而模擬特定個性時，模型的穩定性會下降。研究建議未來需進一步探討LLMs如何模擬多樣化的人格，並發展更全面的評估方法。論文為理解LLMs的價值穩定性提供了基礎，並附上研究代碼。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Navigating pathways to automated personality prediction: a comparative study of small and medium language models.
自動化人格預測的途徑探索：小型和中型語言模型的比較研究。 Front Big Data 2024-09-30

這項研究比較了 ALBERT 和 RoBERTa 兩種模型在預測五大人格特質的效果，使用的數據集來自 Reddit。ALBERT 較小，擁有 1180 萬個參數，而 RoBERTa 則有 1.25 億個參數。研究發現 ALBERT 在記憶體和熱量上較為環保，但計算時間較長。兩者在性能指標上相似，顯示訓練數據質量更為關鍵。研究建議應選擇較小且高效的模型，並強調高質量數據對預測的重要性。 PubMed DOI

Large language models and humans converge in judging public figures' personalities.
大型語言模型與人類在評估公眾人物的個性上達成一致。 PNAS Nexus 2024-10-03

研究顯示，ChatGPT-4在使用十項人格量表（TIPI）評估公共人物的人格特質上表現優異，相關係數高達0.76到0.87，顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力，以及缺乏偏見的反饋。這些發現顯示，ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值，並引發對AI在社會評估中可靠性的思考，顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI

原始文章

站上相關主題文章列表