原始文章

這項研究探討如何利用大型語言模型(LLMs)來進行大規模的人類記憶實驗,特別是針對自然敘事的分析。研究發現,隨著敘事長度增加,記憶表現會改善,但參與者常常只會總結長敘事,而非回憶具體細節。當敘事順序被打亂時,回憶表現顯著下降,但識別表現穩定,顯示參與者仍能根據理解重建故事。研究還利用LLM生成的文本嵌入來測量敘事的語義相似度,與回憶可能性有強相關性,顯示LLMs在記憶研究中的潛力。 PubMed DOI


站上相關主題文章列表

這篇文章探討如何將大型語言模型(LLMs)融入科學工作流程,將原始文本轉化為有條理的敘事,並運用語義網技術。文章強調敘事在傳遞複雜科學資訊中的重要性,以及生成文本的可靠性。研究定義了「敘事事件」,並比較了不同小型LLM在特定需求下的表現,重點在於保持原始敘事的完整性。初步評估顯示,LLaMA 2在生成與源文本緊密對齊的敘事事件方面最為有效,並且透過提示工程技術進一步提升了輸出質量。 PubMed DOI

這項研究指出大型語言模型(LLMs)在精神醫學研究中不僅能提升臨床應用,還能改善文獻回顧、研究設計等方面的效率。不過,仍面臨偏見、計算需求、數據隱私和內容可靠性等挑戰。這篇回顧強調謹慎監督、嚴格驗證及遵循倫理標準的重要性,期望透過解決這些問題,最大化LLMs的優勢,並推動精神醫學研究的進展。 PubMed DOI

這項研究探討大型語言模型(LLMs)與人類大腦在處理敘事資訊上的差異。雖然LLMs能預測與敘事相關的神經信號,但它們是平行分析大量文本,與大腦逐步處理的方式不同。研究使用219名參與者的fMRI數據,發現LLMs在短期上下文中表現較好。研究人員開發了一個增量上下文模型,結合短期與持續更新的長期上下文,顯著改善了對長期處理腦區活動的預測。這結果顯示大腦整合資訊的能力,對認知神經科學和人工智慧的發展提供了新見解。 PubMed DOI

生成式人工智慧和大型語言模型(LLMs),如GPT-4,對臨床醫學和認知心理學影響深遠。這些模型在理解和生成語言方面表現優異,能改善臨床決策和心理諮詢。雖然LLMs在類比推理和隱喻理解上表現良好,但在因果推理和複雜規劃上仍有挑戰。本文探討LLMs的認知能力及其在心理測試中的表現,並討論其在認知心理學和精神醫學的應用、限制及倫理考量,強調進一步研究的重要性,以釋放其潛力。 PubMed DOI

這項研究探討了如何有效測量失語症患者的溝通變化,使用了簡短的交易成功評估(BATS)和故事重述的自動化分析。研究比較了三種大型語言模型(GPT-4、GPT-4o 和 Llama-3-70B)在評分故事重述主要概念的表現,並與人類評分者進行對比。結果顯示,LLM的評分與人類評分高度相關,顯示這些模型能可靠評估故事重述。研究建議,自動化工具可減輕臨床評分負擔,並改變失語症介入和研究的方法。 PubMed DOI

大型語言模型常會產生看似正確但其實錯誤的回答,這跟人類接受性失語症很像。研究發現,LLMs的內部運作和失語症患者大腦的資訊處理方式很相似,特別是在狀態轉換和停留時間上。這種分析方法未來有機會幫助改進LLMs,也可能應用在失語症診斷上。 PubMed DOI

大型語言模型在心理科學等學術領域越來越重要,能協助教學、寫作和模擬人類行為。雖然帶來不少好處,但也有倫理和實務上的挑戰。這份摘要整理了最新進展、最佳做法,並提出未來發展方向,幫助學界更負責任且有效地運用LLMs。 PubMed DOI

年長者常有聽懂語音的困難,但現有測驗不夠貼近生活情境,也多只用單一語言。這項研究用大型語言模型自動產生和評分故事型語音理解測驗,涵蓋11種語言,並能準確反映記憶表現。這種方法更貼近真實生活,未來在臨床上很有幫助。 PubMed DOI

最新的商業大型語言模型(像GPT-4o),在神經影像的中繼資料標註上,表現幾乎跟專業人員一樣好(zero-shot下得分0.91–0.97),錯誤率也差不多,很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集,方便未來測試。 PubMed DOI

大型語言模型能準確重現多數心理學實驗,效果有時甚至比真人還明顯。不過,遇到社會敏感議題或原研究沒發現效果時,模型容易高估結果。LLMs 適合做初步、快速研究,但遇到複雜或敏感議題,還是得靠真人參與才能更全面。 PubMed DOI