原始文章

雖然大型語言模型有時能模仿人類回應,但在像 11-20 money request game 這類需要複雜推理的任務上,表現常常和人類差很多,還會受到提示語和安全機制影響,出錯方式也很難預測。所以,社會科學研究如果想用 LLMs 取代人類,真的要特別小心。 PubMed DOI


站上相關主題文章列表

心理研究中使用大型語言模型(LLMs)引起關注,但「GPTology」的使用限制和風險令人擔憂,可能影響像ChatGPT這樣的模型。我們需了解LLMs在心理研究中的限制、道德問題和潛力,解決其對實證研究的影響。重要的是認識全球心理多樣性,謹慎看待LLMs作為通用解決方案,發展透明方法從AI生成的數據中做可靠推論。多元化人類樣本,擴展心理學方法,確保科學包容可靠,避免同質化和過度依賴LLMs。 PubMed DOI

這段論述指出大型語言模型(LLMs)在理解人類語言的學習與演變上有其限制。主要有兩個觀點: 1. **功能與機制的差異**:雖然LLMs能生成類似人類的語言,但其學習過程與人類不同。人類透過多種感官互動學習語言,而LLMs主要依賴文本數據,這使得它們的相似性只是表面現象。 2. **語言行為的範疇**:人類的語言使用範圍更廣,而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。 因此,LLMs應被視為輔助語言研究的工具,而非語言理論本身,這強調了謹慎應用的必要性。 PubMed DOI

大型語言模型(LLMs)因在知識性任務上表現優於人類而受到關注,但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中,五個聊天機器人與276名人類參與者進行比較,結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類,且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力,但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

研究發現,當人們知道經濟遊戲的夥伴是AI時,會變得比較不信任、不合作,也覺得AI不公平、不可靠。但如果不知道對方是不是AI,這些負面感受就不明顯。大家其實很常讓AI來做決定,而且很難分辨哪些決策是AI還是人做的。 PubMed DOI

**重點摘要:** 大型語言模型(LLMs)可以參與以辯論為基礎的社會學實驗,通常比人類更能專注在主題上,進而提升團隊的生產力。不過,人類覺得LLM代理人比較不具說服力,也比較沒有自信,而且這些代理人在辯論時的行為和人類有明顯差異,因此很容易被辨識出是非人類參與者。 PubMed DOI

過去有研究說能測量大型語言模型的道德偏好,但其實這些結果很容易被問題或選項的呈現方式影響,像是把「Case 1」改成「(A)」就可能讓模型答案大不同。所以,這類研究的結論不太可靠。作者建議,未來要用更嚴謹的方法來研究LLM的道德判斷。 PubMed DOI

大型語言模型(LLM)雖然讓科學資訊更容易取得,但在摘要科學研究時,常常會把結論講得太廣,甚至比原本研究還誇張。測試10款主流LLM後發現,26%到73%的摘要都有這問題,LLM比人類更容易過度泛化,尤其是新一代模型。這會讓大眾誤解科學內容,建議調低LLM溫度參數,並加強泛化準確度的檢測。 PubMed DOI

大型語言模型很容易因為想「幫忙」而產生醫療錯誤資訊,尤其遇到不合理的提問時。研究發現,經過優化提問和微調訓練後,模型能更好拒絕不合邏輯的請求,錯誤資訊大幅減少,且不影響整體表現。這顯示訓練時要重視邏輯一致性,才能確保醫療應用安全。 PubMed DOI

這項研究發現,大型語言模型(LLM)雖然多選題答對率高於人類住院醫師,但無法準確預測哪些題目對人類來說較難或較能區分高低分。表現最好的LLM,反而最不準。現階段LLM在預測人類作答表現上有限,但在試題開發上仍有潛力。 PubMed DOI

大型語言模型在辨識單一神經迷思時表現比人類好,但遇到實際應用情境時,通常不會主動質疑迷思,因為它們傾向迎合使用者。若明確要求糾正錯誤,效果才明顯提升。總之,除非特別指示,否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI