原始文章

這篇論文探討大型語言模型(LLMs)在不同上下文中的價值表達穩定性,並分析了認知能力、知識和模型大小等因素。研究涵蓋21個來自六個家族的LLM,重點在於人際和個體層級的穩定性。主要發現包括:某些模型(如Mixtral和GPT-3.5)在價值表達上較為穩定,而模擬特定個性時,模型的穩定性會下降。研究建議未來需進一步探討LLMs如何模擬多樣化的人格,並發展更全面的評估方法。論文為理解LLMs的價值穩定性提供了基礎,並附上研究代碼。 PubMed DOI


站上相關主題文章列表

研究發現GPT-3.5在模擬人類行為上有限制,容易出現「正確答案」效應。即使改變資料或答案,結果仍一致。有研究顯示GPT-3.5傾向右派價值觀。這顯示在社會科學中使用大型語言模型存在挑戰,也引發對未來由AI主導可能帶來的思想單一性的擔憂。 PubMed DOI

研究使用大型生成式語言模型模擬質性研究中的面試問題回答,發現LLM生成的內容與人類看法有相似之處,但結構和語氣有差異。結論指出目前LLMs缺乏算法忠實度,無法廣泛應用於真實人群,但未來或有改善。強調建立評估基於LLM的質性研究有效性規範的重要性,尤其是代表多樣人類經驗。 PubMed DOI

研究使用大型語言模型模擬人類在博弈理論中的行為選擇,探討合作行為特質的演化。模型基於平均報酬和基因突變,演化出合作或自私行為族群。結果顯示,模型能模擬多樣人格表徵下的合作行為演化,並產生合作和自私特質。基因反映個性行為傾向,影響個體行為和演化。 PubMed DOI

研究使用Schwartz的基本價值理論評估大型語言模型(LLMs)中的價值構念,發現LLMs存在動機偏見,與人類價值有所偏離,對心理健康應用存在道德疑慮。研究強調透明度和對齊過程的重要性,以確保LLMs在提供心理健康護理時公平。 PubMed DOI

心理學家利用心理測量方法研究不同情境下個人風險行為的差異。文章提出結合大型語言模型(LLMs)來量化風險行為和決策模型,以解釋行為和個人之間的相關性。這種方法可預測行為、解釋原因,並用心理術語解釋,提供對日常行為異質性的洞察。 PubMed DOI

研究探討大型語言模型如ChatGPT是否能從社群媒體貼文推斷人格特質,結果顯示模型可準確推斷大五人格特質,尤其對女性和年輕人更準確。這種能力或許讓心理評估更普及,但也引發隱私和監管疑慮。 PubMed DOI

大型語言模型(LLM)應用廣泛,包括心理健康領域。然而,使用LLM強化的對話人工智慧(CAI)協助抑鬱症患者面臨人性化和情境韌性挑戰。觀點論文探討這些挑戰,提出跨學科解決方案,結合哲學、心理學和計算機科學。為了負責地設計和應用LLM增強的CAI支援抑鬱症患者,提出建議。 PubMed DOI

這篇論文探討大型語言模型(LLMs)如GPT-3.5、GPT-4和LLaMa-2在博弈理論中的策略行為,並分析遊戲結構與背景對決策的影響。研究發現: - **GPT-3.5** 對背景敏感,但抽象策略思考較弱。 - **GPT-4** 專注於遊戲內部機制,對背景敏感度低,區分遊戲類型較粗略。 - **LLaMa-2** 在理解遊戲結構與考量背景上取得平衡,處理複雜策略情境時更具優勢。 總體來看,LLaMa-2在整合遊戲結構與背景方面表現最佳,而GPT-4則偏向一般化的結構策略。 PubMed DOI

這段文字探討了人工智慧系統與人類價值觀對齊的挑戰,區分了強價值對齊和弱價值對齊。強對齊需要高級認知能力,讓人工智慧理解意圖並建立因果關聯,這對識別潛在風險至關重要。作者指出像ChatGPT、Gemini和Copilot等模型在這方面的不足,並分析了詞嵌入的差異。文中提出「帶有詞彙轉換字典的中文房間」的思想實驗,進一步探討這些概念。最後提到的研究旨在實現弱對齊,雖然能產生可接受的回應,但不保證其真實性。 PubMed DOI

這項研究探討生成式人工智慧模型中的文化偏見,特別是五個版本的OpenAI語言模型如何影響使用者表達並強化主導文化價值觀。研究發現,這些模型多反映英語系和新教歐洲國家的文化。為解決這問題,研究人員測試了一種叫做文化提示的方法,結果顯示這方法能改善後期模型(如GPT-4)在71-81%的評估地區的文化一致性。研究建議持續使用文化提示和評估,以減少生成式人工智慧中的文化偏見。 PubMed DOI