原始文章

大型語言模型(LLMs)因在知識性任務上表現優於人類而受到關注,但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中,五個聊天機器人與276名人類參與者進行比較,結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類,且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力,但其廣泛應用仍面臨挑戰與風險。 PubMed DOI


站上相關主題文章列表

討論了最新研究,認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確,且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證,專注自然語言溝通可改變心理健康評估。 PubMed DOI

研究比較人類和大型語言模型(LLM)在心智理論任務上的表現,發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類,但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類,但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法,需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

研究探討大型語言模型如ChatGPT是否能從社群媒體貼文推斷人格特質,結果顯示模型可準確推斷大五人格特質,尤其對女性和年輕人更準確。這種能力或許讓心理評估更普及,但也引發隱私和監管疑慮。 PubMed DOI

大型語言模型(LLM)應用廣泛,包括心理健康領域。然而,使用LLM強化的對話人工智慧(CAI)協助抑鬱症患者面臨人性化和情境韌性挑戰。觀點論文探討這些挑戰,提出跨學科解決方案,結合哲學、心理學和計算機科學。為了負責地設計和應用LLM增強的CAI支援抑鬱症患者,提出建議。 PubMed DOI

大型語言模型(LLMs)如ChatGPT的出現可能會影響心理治療,特別是認知行為療法(CBT)。我們的系統性研究顯示,LLMs能夠識別不利的思維,評估其有效性,並建議將其重新框架為更具建設性的替代方案。然而,儘管LLMs在這方面能提供有用的建議,但不應僅依賴它們來進行CBT。 PubMed DOI

這項研究探討生成性大型語言模型(LLMs)在分析公共健康相關社交媒體內容的可行性,特別是疫苗言論。研究發現,LLMs通常能有效識別人類專家所關注的主題,且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家,但專家認為其生成的主題仍然合理且相關。總體來看,LLMs在處理健康相關社交媒體內容方面展現出顯著潛力,未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

研究顯示,ChatGPT-4在使用十項人格量表(TIPI)評估公共人物的人格特質上表現優異,相關係數高達0.76到0.87,顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力,以及缺乏偏見的反饋。這些發現顯示,ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值,並引發對AI在社會評估中可靠性的思考,顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI

一項研究評估了十一個大型語言模型(LLMs),使用40個專門的錯誤信念任務,這些任務對於評估人類的心智理論(ToM)非常重要。結果顯示,較舊的模型無法解決任何任務,而GPT-3-davinci-003和ChatGPT-3.5-turbo僅解決了20%。相比之下,ChatGPT-4的成功率達到75%,與6歲兒童的表現相當。這顯示出心智理論的能力可能是LLMs語言能力增強的副產品,預示著更先進的人工智慧的崛起,帶來正負面影響。 PubMed DOI

這項研究評估了七種大型語言模型(LLMs)在新基準上的理解能力,要求它們回答基於短文本的問題,並與400名人類的回答進行比較。結果顯示,這些模型的表現僅達到隨機準確率,且回答變異性大。相比之下,人類在數量和質量上都明顯優於這些模型,LLMs的錯誤也顯示出非人類特徵。這表明,雖然AI模型在某些應用中有效,但它們的語言理解仍無法與人類相提並論,可能因為無法有效處理語法和語義信息。 PubMed DOI