原始文章

這項研究分析了七個大型語言模型(LLMs)在兩個不同時間點對人格評估的反應,重點在於它們的時間穩定性和評分者間的一致性。結果顯示,像Llama3和GPT-4o的模型一致性較高,而GPT-4和Gemini則較低。不同的人格測評工具和特質會影響協議程度。整體來看,這些模型傾向於展現社會上受歡迎的人格特徵,如較高的宜人性和責任感,以及較低的馬基雅維利主義。這些發現強調了理解LLMs在模擬穩定人格特質方面的可靠性的重要性,尤其在它們的社會影響力日益增強的背景下。 PubMed DOI


站上相關主題文章列表

討論如何利用心理測驗庫評估大型語言模型的特質,假設模型會從性訓練文本中獲得心理特質。透過心理測驗庫,研究者可以探究比較模型的非認知特徵,揭示其個性、價值觀、信念和偏見。文章提出了評估模型特質的方法,包括零-shot分類。最後討論了AI心理測量學的挑戰和未來研究方向。 PubMed DOI

研究發現GPT-3.5在模擬人類行為上有限制,容易出現「正確答案」效應。即使改變資料或答案,結果仍一致。有研究顯示GPT-3.5傾向右派價值觀。這顯示在社會科學中使用大型語言模型存在挑戰,也引發對未來由AI主導可能帶來的思想單一性的擔憂。 PubMed DOI

研究使用大型語言模型模擬人類在博弈理論中的行為選擇,探討合作行為特質的演化。模型基於平均報酬和基因突變,演化出合作或自私行為族群。結果顯示,模型能模擬多樣人格表徵下的合作行為演化,並產生合作和自私特質。基因反映個性行為傾向,影響個體行為和演化。 PubMed DOI

研究發現透過GPT-3中公眾人物名字的位置,可以預測人們對其個性的看法。透過600名評分者對226位公眾人物的五大人格特質的評分,使用線性回歸預測這些知覺。結果顯示高準確度,r值從.78到.88,控制變量後為.53到.70。研究指出,GPT-3詞嵌入能捕捉個體差異和親密特質的訊號。 PubMed DOI

研究比較人類和大型語言模型(LLM)在心智理論任務上的表現,發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類,但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類,但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法,需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

研究探討大型語言模型如ChatGPT是否能從社群媒體貼文推斷人格特質,結果顯示模型可準確推斷大五人格特質,尤其對女性和年輕人更準確。這種能力或許讓心理評估更普及,但也引發隱私和監管疑慮。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在不同上下文中的價值表達穩定性,並分析了認知能力、知識和模型大小等因素。研究涵蓋21個來自六個家族的LLM,重點在於人際和個體層級的穩定性。主要發現包括:某些模型(如Mixtral和GPT-3.5)在價值表達上較為穩定,而模擬特定個性時,模型的穩定性會下降。研究建議未來需進一步探討LLMs如何模擬多樣化的人格,並發展更全面的評估方法。論文為理解LLMs的價值穩定性提供了基礎,並附上研究代碼。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究比較了 ALBERT 和 RoBERTa 兩種模型在預測五大人格特質的效果,使用的數據集來自 Reddit。ALBERT 較小,擁有 1180 萬個參數,而 RoBERTa 則有 1.25 億個參數。研究發現 ALBERT 在記憶體和熱量上較為環保,但計算時間較長。兩者在性能指標上相似,顯示訓練數據質量更為關鍵。研究建議應選擇較小且高效的模型,並強調高質量數據對預測的重要性。 PubMed DOI

研究顯示,ChatGPT-4在使用十項人格量表(TIPI)評估公共人物的人格特質上表現優異,相關係數高達0.76到0.87,顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力,以及缺乏偏見的反饋。這些發現顯示,ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值,並引發對AI在社會評估中可靠性的思考,顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI