原始文章

這項研究探討了ChatGPT 4在透過書面文本評估人格特質的有效性,使用了兩個公開數據集,包含文本和基於五大人格模型的自我評估。研究目的是評估ChatGPT 4在十一點量表上預測人格特質的準確性,並與作者的自我評估進行比較。結果顯示,ChatGPT 4能中等程度推斷人格特質,但在判斷輸入適當性方面有困難。研究建議改進基準測試方法,以提升評估過程,並強調大型語言模型在人格評估中的潛力。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-4和Google Bard在理解視覺和文字情感方面的能力。ChatGPT-4在視覺情感辨識表現優秀,接近人類水準;Google Bard在這方面表現不穩定。兩者在文字情感理解方面都表現不錯。研究指出情感辨識在AI發展中的重要性,呼籲使用多元數據、與專家合作,並強調政府監督以確保透明度和病患隱私。 PubMed DOI

研究探討大型語言模型如ChatGPT是否能從社群媒體貼文推斷人格特質,結果顯示模型可準確推斷大五人格特質,尤其對女性和年輕人更準確。這種能力或許讓心理評估更普及,但也引發隱私和監管疑慮。 PubMed DOI

GPT-4的發布引起了人們對大型語言模型(LLMs)普遍應用的關注。這篇論文探討了ChatGPT對人類與電腦互動、心理學和社會的影響,著重於其技術基礎、對話界面的改進、心理效應、商業和社會應用,以及未來的發展方向。 PubMed DOI

研究評估了ChatGPT對2020年葡萄牙國家住院醫師選拔考試題目的分析能力。使用150道考題測試ChatGPT,計算每題難度。結果顯示ChatGPT預測的難度與實際相關,且能辨識較簡單問題。總結來說,研究顯示ChatGPT在預測考題難度方面有潛力,無需實際測試即可評估心理特性。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

研究顯示,ChatGPT-4在使用十項人格量表(TIPI)評估公共人物的人格特質上表現優異,相關係數高達0.76到0.87,顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力,以及缺乏偏見的反饋。這些發現顯示,ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值,並引發對AI在社會評估中可靠性的思考,顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI

這項研究探討了生成式人工智慧,特別是 ChatGPT 4.0,在創建和增強一個包含 24 項目的 HEXACO 人格量表(ChatGPT HEXACO 量表,簡稱 CHI)的有效性。我們的目的是檢視 ChatGPT 是否能改善 CHI 的內部一致性或內容效度。研究中682名參與者完成了簡短 HEXACO 量表(BHI)和 HEXACO-60,結果顯示三個 CHI 版本的心理測量特性與 BHI 相當,但 ChatGPT 在改善特定心理測量特性方面並未成功。雖然 ChatGPT 在問卷開發中可能有幫助,但不一定能提供增強特定心理測量屬性的捷徑。 PubMed DOI

最近,GPT-4在大型語言模型(LLMs)方面的進展,可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性,進行了兩項模擬研究。 第一項模擬顯示,GPT-4生成的個性反應比人類反應更具一致性,且與人類自我報告的分數高度相關,顯示其能有效模仿真實個性。第二項模擬則指出,隨著角色複雜度增加,GPT-4的表現會下降,但加入人口統計信息後,模擬的準確性有所提升。 總體而言,這些結果顯示使用GPT-4創造多樣個性的代理人,對理解人類行為的研究有很大潛力,並為未來的研究提供了新方向。 PubMed DOI

這項研究評估了OpenAI的AI對話工具ChatGPT在數據分析中的有效性,特別是探索性因素分析(EFA)。研究人員生成了不同條件下的模擬數據,並在兩次不同時間點使用ChatGPT-4進行分析,與R語言的結果進行比較。結果顯示,ChatGPT在計算任務上表現良好,尤其是KMO值和因素載荷的計算,但在確定多維結構時存在一些偏差。因此,研究人員在依賴AI進行決策時應保持謹慎。總體而言,ChatGPT在簡單計算任務上顯示出潛力。 PubMed DOI

這項研究探討了人工智慧在敘事人格評估中的潛力,特別是使用社會認知與物件關係量表 - 總體評分法(SCORS-G)。研究發現,透過精煉的提示,AI聊天機器人能更準確地評估敘事,尤其在總體層面上表現良好。專家們改進的提示在評估者間的可靠性和與既定評分的一致性上優於基本提示。總體來說,這顯示AI能有效減輕臨床醫生和研究人員在使用SCORS-G時的時間和資源負擔,並提出未來研究的方向。 PubMed DOI