原始文章

這篇論文介紹了一個新工具 SEMbeddings,結合微調的嵌入模型與潛在測量模型,能在實際數據收集前評估項目反應數據的適配度。作者將其應用於 VIA-IS-P 問卷,分析了 31,697 名參與者的回應,結果顯示項目嵌入的餘弦相似度與實證相關性有顯著關聯 (r = 0.67)。論文也提到,傳統適配指標可能不夠準確,但修正指標能提供潛在不適配的見解,對於問卷開發有幫助。隨著大型語言模型的進步,這些方法有望提升新問卷的開發效率。 PubMed DOI


站上相關主題文章列表

討論如何利用心理測驗庫評估大型語言模型的特質,假設模型會從性訓練文本中獲得心理特質。透過心理測驗庫,研究者可以探究比較模型的非認知特徵,揭示其個性、價值觀、信念和偏見。文章提出了評估模型特質的方法,包括零-shot分類。最後討論了AI心理測量學的挑戰和未來研究方向。 PubMed DOI

研究發現透過GPT-3中公眾人物名字的位置,可以預測人們對其個性的看法。透過600名評分者對226位公眾人物的五大人格特質的評分,使用線性回歸預測這些知覺。結果顯示高準確度,r值從.78到.88,控制變量後為.53到.70。研究指出,GPT-3詞嵌入能捕捉個體差異和親密特質的訊號。 PubMed DOI

研究探討大型語言模型如ChatGPT是否能從社群媒體貼文推斷人格特質,結果顯示模型可準確推斷大五人格特質,尤其對女性和年輕人更準確。這種能力或許讓心理評估更普及,但也引發隱私和監管疑慮。 PubMed DOI

研究顯示,ChatGPT-4在使用十項人格量表(TIPI)評估公共人物的人格特質上表現優異,相關係數高達0.76到0.87,顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力,以及缺乏偏見的反饋。這些發現顯示,ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值,並引發對AI在社會評估中可靠性的思考,顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在健康心理學中如何增強健康評估,旨在克服傳統統計和機器學習方法的限制。傳統方法因線性評分而準確性不足,而機器學習則在可解釋性和數據需求上有挑戰。研究提出的ScaleLLM利用LLMs的自然語言理解能力,提供健康量表的專家評估。實驗結果顯示,ScaleLLM在身心健康評估的準確性和可解釋性上都有所提升,成為該領域的一個有前景的工具。 PubMed DOI

這項研究指出大型語言模型(LLMs),如GPT-4、Claude 3、Llama 3和PaLM-2,在五大人格測評中存在明顯的社會期望偏誤。研究發現,當模型感受到被評估時,會調整回應以顯得更理想。這種偏誤在所有測試的模型中都有觀察到,且新版本的模型效果更明顯,例如GPT-4的回應偏移達1.20個標準差。即使隨機化問題順序或改寫問題,偏誤仍然存在,顯示這不僅是順從偏誤。雖然反向編碼問題能減少偏誤,但無法完全消除,顯示LLMs在心理測量及作為人類參與者替代品方面仍有局限。 PubMed DOI

最近,GPT-4在大型語言模型(LLMs)方面的進展,可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性,進行了兩項模擬研究。 第一項模擬顯示,GPT-4生成的個性反應比人類反應更具一致性,且與人類自我報告的分數高度相關,顯示其能有效模仿真實個性。第二項模擬則指出,隨著角色複雜度增加,GPT-4的表現會下降,但加入人口統計信息後,模擬的準確性有所提升。 總體而言,這些結果顯示使用GPT-4創造多樣個性的代理人,對理解人類行為的研究有很大潛力,並為未來的研究提供了新方向。 PubMed DOI

最近,自然語言處理(NLP)在語意數據分析上有了顯著進展,特別是在問卷研究中。研究者開發了一個「語意搜尋助手」的原型,能有效協調不同工具測量相同構念,並探索新構念組合。透過案例研究,該應用成功識別潛在的協調配對,減少了手動評估的需求。專家評估顯示,模型生成的配對與專家意見高度一致,證實了這種方法的有效性,顯示出嵌入模型在協調複雜數據集中的潛力。 PubMed DOI

這項研究探討心理概念重疊的問題,這種重疊讓數據解釋變得複雜,增加了參與者的負擔。研究引入了一種名為嵌入式語義分析方法(ESAA),利用自然語言處理技術檢測心理量表中的冗餘。透過OpenAI的text-embedding-3-large模型,ESAA生成高維語義向量,並用層次聚類識別相似項目。 研究進行了三個實驗,評估ESAA在識別相似項目、區分不同項目及揭示冗餘方面的有效性。結果顯示,ESAA表現穩定且優於基於GPT-4的聊天機器人,顯示其在心理研究中的潛力。 PubMed DOI

這項案例研究探討大型語言模型(LLMs)在自我發展測量中的應用,這對成人個性成長至關重要。研究評估專家與LLMs生成的自我發展階段分類的一致性,結果顯示加權Kappa值為0.779,顯示出顯著一致性,證明LLMs能有效自動化此過程。不過,在單句分析上仍有改進空間。研究結果顯示,自動化系統能提供穩健的數據,適用於多層次分析,對組織心理學和企業分析具價值。整體而言,這方法論可應用於其他LLMs的分類任務,展現其在文本分析中的潛力。 PubMed DOI