Beyond rating scales: With targeted evaluation, large language models are poised for psychological assessment.
超越評分量表：透過有針對性的評估，大型語言模型準備好進行心理評估。 Psychiatry Res 2024-02-19

討論了最新研究，認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確，且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證，專注自然語言溝通可改變心理健康評估。 PubMed DOI

Testing theory of mind in large language models and humans.
在大型語言模型和人類中測試心智理論。 Nat Hum Behav 2024-05-20

研究比較人類和大型語言模型（LLM）在心智理論任務上的表現，發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類，但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類，但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法，需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

Large language models can infer psychological dispositions of social media users.
大型語言模型可以推斷社交媒體使用者的心理傾向。 PNAS Nexus 2024-07-01

研究探討大型語言模型如ChatGPT是否能從社群媒體貼文推斷人格特質，結果顯示模型可準確推斷大五人格特質，尤其對女性和年輕人更準確。這種能力或許讓心理評估更普及，但也引發隱私和監管疑慮。 PubMed DOI

The Role of Humanization and Robustness of Large Language Models in Conversational Artificial Intelligence for Individuals With Depression: A Critical Analysis.
大型語言模型在對話人工智慧中的人性化和強健性對憂鬱症患者的角色：一個批判性分析。 JMIR Ment Health 2024-07-03

大型語言模型（LLM）應用廣泛，包括心理健康領域。然而，使用LLM強化的對話人工智慧（CAI）協助抑鬱症患者面臨人性化和情境韌性挑戰。觀點論文探討這些挑戰，提出跨學科解決方案，結合哲學、心理學和計算機科學。為了負責地設計和應用LLM增強的CAI支援抑鬱症患者，提出建議。 PubMed DOI

Can Large Language Models Replace Therapists? Evaluating Performance at Simple Cognitive Behavioral Therapy Tasks.
大型語言模型能取代治療師嗎？評估其在簡單認知行為療法任務中的表現。 JMIR AI 2024-07-30

大型語言模型（LLMs）如ChatGPT的出現可能會影響心理治療，特別是認知行為療法（CBT）。我們的系統性研究顯示，LLMs能夠識別不利的思維，評估其有效性，並建議將其重新框架為更具建設性的替代方案。然而，儘管LLMs在這方面能提供有用的建議，但不應僅依賴它們來進行CBT。 PubMed DOI

Large Language Models Can Enable Inductive Thematic Analysis of a Social Media Corpus in a Single Prompt: Human Validation Study.
大型語言模型能夠在單一提示中啟用社交媒體語料庫的歸納主題分析：人類驗證研究。 JMIR Infodemiology 2024-08-29

這項研究探討生成性大型語言模型（LLMs）在分析公共健康相關社交媒體內容的可行性，特別是疫苗言論。研究發現，LLMs通常能有效識別人類專家所關注的主題，且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家，但專家認為其生成的主題仍然合理且相關。總體來看，LLMs在處理健康相關社交媒體內容方面展現出顯著潛力，未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Large language models and humans converge in judging public figures' personalities.
大型語言模型與人類在評估公眾人物的個性上達成一致。 PNAS Nexus 2024-10-03

研究顯示，ChatGPT-4在使用十項人格量表（TIPI）評估公共人物的人格特質上表現優異，相關係數高達0.76到0.87，顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力，以及缺乏偏見的反饋。這些發現顯示，ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值，並引發對AI在社會評估中可靠性的思考，顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI

Evaluating large language models in theory of mind tasks.
評估大型語言模型在心智理論任務中的表現。 Proc Natl Acad Sci U S A 2024-10-29

一項研究評估了十一個大型語言模型（LLMs），使用40個專門的錯誤信念任務，這些任務對於評估人類的心智理論（ToM）非常重要。結果顯示，較舊的模型無法解決任何任務，而GPT-3-davinci-003和ChatGPT-3.5-turbo僅解決了20%。相比之下，ChatGPT-4的成功率達到75%，與6歲兒童的表現相當。這顯示出心智理論的能力可能是LLMs語言能力增強的副產品，預示著更先進的人工智慧的崛起，帶來正負面影響。 PubMed DOI

Testing AI on language comprehension tasks reveals insensitivity to underlying meaning.
測試 AI 在語言理解任務上的表現顯示對潛在意義的敏感度不足。 Sci Rep 2024-11-14

這項研究評估了七種大型語言模型（LLMs）在新基準上的理解能力，要求它們回答基於短文本的問題，並與400名人類的回答進行比較。結果顯示，這些模型的表現僅達到隨機準確率，且回答變異性大。相比之下，人類在數量和質量上都明顯優於這些模型，LLMs的錯誤也顯示出非人類特徵。這表明，雖然AI模型在某些應用中有效，但它們的語言理解仍無法與人類相提並論，可能因為無法有效處理語法和語義信息。 PubMed DOI

原始文章

站上相關主題文章列表