原始文章

年長者常有聽懂語音的困難,但現有測驗不夠貼近生活情境,也多只用單一語言。這項研究用大型語言模型自動產生和評分故事型語音理解測驗,涵蓋11種語言,並能準確反映記憶表現。這種方法更貼近真實生活,未來在臨床上很有幫助。 PubMed DOI


站上相關主題文章列表

認知障礙是全球健康的重要議題,急需早期檢測與介入。傳統診斷方法主觀且成本高,資源不足地區更難取得。我們在INTERSPEECH 2024 TAUKADIAL挑戰中,針對169名英語和中文使用者,自動檢測輕度認知障礙(MCI)並預測認知分數。利用Whisper語音模型提取語音嵌入,並採用集成模型,我們在MCI分類中達到81.83%的召回率,認知分數預測則有1.196的均方根誤差,分別排名第二和第一。研究顯示,語言特有的細微差別對準確預測認知障礙至關重要,展現了在多語言環境中進行非侵入性評估的潛力。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來進行大規模的人類記憶實驗,特別是針對自然敘事的分析。研究發現,隨著敘事長度增加,記憶表現會改善,但參與者常常只會總結長敘事,而非回憶具體細節。當敘事順序被打亂時,回憶表現顯著下降,但識別表現穩定,顯示參與者仍能根據理解重建故事。研究還利用LLM生成的文本嵌入來測量敘事的語義相似度,與回憶可能性有強相關性,顯示LLMs在記憶研究中的潛力。 PubMed DOI

這項研究探討了利用大型語言模型(LLMs)來創建個性化的語言理解測試(AI-BVCTs),以評估語言智力的可行性,並與傳統的韋克斯勒成人智力量表(WAIS-III)進行比較。八位講希伯來語的參與者完成了兩種測試,結果顯示AI-BVCT的得分與WAIS-III的語言理解指數(VCI)有很強的一致性,且兩者之間沒有顯著差異。研究指出,LLMs可能提升認知評估的可及性與經濟性,但也需注意隱私及對AI的依賴等倫理問題,並呼籲進行更大規模的研究。 PubMed DOI

這項研究探討了如何有效測量失語症患者的溝通變化,使用了簡短的交易成功評估(BATS)和故事重述的自動化分析。研究比較了三種大型語言模型(GPT-4、GPT-4o 和 Llama-3-70B)在評分故事重述主要概念的表現,並與人類評分者進行對比。結果顯示,LLM的評分與人類評分高度相關,顯示這些模型能可靠評估故事重述。研究建議,自動化工具可減輕臨床評分負擔,並改變失語症介入和研究的方法。 PubMed DOI

這項研究用大型語言模型自動從電子病歷抓出智力及發展障礙、腦性麻痺患者的語言和行走能力,準確率很高(行走能力F1值超過0.9)。這方法能減少人工評估負擔、省成本,且適用不同醫院和紀錄格式。不過,還需要更多研究才能擴展到其他族群和更細的功能指標。 PubMed DOI

研究發現,Llama-2-70b-chat 和 GPT-3.5 能生成符合年齡、合理的遺傳疾病病例描述和醫病對話,但治療計畫常常不完整或有誤。這顯示大型語言模型在臨床決策應用上,還有不少限制和改進空間。 PubMed DOI

大型語言模型常會產生看似正確但其實錯誤的回答,這跟人類接受性失語症很像。研究發現,LLMs的內部運作和失語症患者大腦的資訊處理方式很相似,特別是在狀態轉換和停留時間上。這種分析方法未來有機會幫助改進LLMs,也可能應用在失語症診斷上。 PubMed DOI

這項研究發現,像 Llama-2-70b-chat 和 GPT-3.5 這類大型語言模型,在描述282種遺傳疾病的年齡相關特徵時表現不錯,尤其有情境提示時更佳,且沒明顯年齡偏見。不過,雖然這些模型有潛力協助臨床應用,實際使用上還是有一些限制需要注意。 PubMed DOI

這項研究用大型語言模型(LLM)來自動辨識自閉症語言障礙的關鍵特徵,在零樣本情境下,表現比傳統方法好,敏感度和陽性預測值都提升超過10%。LLM能穩定偵測出十種重要語言特徵,顯示它有潛力成為協助自閉症診斷和個人化治療規劃的有效工具。 PubMed DOI

這項研究用大型語言模型(LLM)自動評分治療逐字稿中的心理構念(如病人參與度),取代傳統人工評分。實驗用 Llama 3.1 8B 分析 1,131 場治療,結果顯示 LLM 評分具高信度與效度,且與治療結果高度相關。這方法不僅減輕參與者負擔、保護隱私,也為心理評估帶來新可能。 PubMed DOI