原始文章

這項研究用大型語言模型(LLM)自動評分治療逐字稿中的心理構念(如病人參與度),取代傳統人工評分。實驗用 Llama 3.1 8B 分析 1,131 場治療,結果顯示 LLM 評分具高信度與效度,且與治療結果高度相關。這方法不僅減輕參與者負擔、保護隱私,也為心理評估帶來新可能。 PubMed DOI


站上相關主題文章列表

這項案例研究探討大型語言模型(LLMs)在自我發展測量中的應用,這對成人個性成長至關重要。研究評估專家與LLMs生成的自我發展階段分類的一致性,結果顯示加權Kappa值為0.779,顯示出顯著一致性,證明LLMs能有效自動化此過程。不過,在單句分析上仍有改進空間。研究結果顯示,自動化系統能提供穩健的數據,適用於多層次分析,對組織心理學和企業分析具價值。整體而言,這方法論可應用於其他LLMs的分類任務,展現其在文本分析中的潛力。 PubMed DOI

這項研究探討了如何有效測量失語症患者的溝通變化,使用了簡短的交易成功評估(BATS)和故事重述的自動化分析。研究比較了三種大型語言模型(GPT-4、GPT-4o 和 Llama-3-70B)在評分故事重述主要概念的表現,並與人類評分者進行對比。結果顯示,LLM的評分與人類評分高度相關,顯示這些模型能可靠評估故事重述。研究建議,自動化工具可減輕臨床評分負擔,並改變失語症介入和研究的方法。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

這項研究發現,大型語言模型(LLMs)在有明確、結構化提示下,能準確且一致地評分醫學生臨床紀錄,但如果只給簡單指示,結果會不穩定。LLM有時會算錯總分,需要外部協助。整體來說,經過優化後,LLM有潛力成為醫學教育自動評分工具,但針對更複雜的評分系統還需進一步研究。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

這項研究用大型語言模型分析德文心理治療逐字稿,偵測28種情緒,並預測病人症狀嚴重度和治療聯盟。模型在情緒分類表現普通,但預測症狀嚴重度效果不錯(r=.50),預測治療聯盟則中等(r=.20)。認可、憤怒、恐懼與症狀嚴重度有關,好奇、困惑、驚訝則與治療聯盟有關。結果顯示正負向情緒都很重要,未來應加強情緒資料集並納入更多語境和感官資訊。 PubMed DOI

這項研究發現,透過提示工程(prompt engineering)可以提升大型語言模型在心理治療(PST)初期階段的表現,尤其在症狀辨識和目標設定上更有效。雖然品質和同理心有所提升,但仍有侷限。整體來說,LLM 有潛力協助解決心理健康人力不足,推動 AI 治療服務發展。 PubMed

年長者常有聽懂語音的困難,但現有測驗不夠貼近生活情境,也多只用單一語言。這項研究用大型語言模型自動產生和評分故事型語音理解測驗,涵蓋11種語言,並能準確反映記憶表現。這種方法更貼近真實生活,未來在臨床上很有幫助。 PubMed DOI

這項研究發現,GPT-4在分析癌症病患與醫療人員的對話內容時,和人類專家有高度到中度的一致性,像是判斷有無討論症狀、誰先提起、以及建議內容等。雙方意見分歧的情況不多,且有詳細分類。結果顯示,LLM有潛力協助提升醫療溝通與照護品質。 PubMed DOI

這項研究用大型語言模型(LLM)來自動辨識自閉症語言障礙的關鍵特徵,在零樣本情境下,表現比傳統方法好,敏感度和陽性預測值都提升超過10%。LLM能穩定偵測出十種重要語言特徵,顯示它有潛力成為協助自閉症診斷和個人化治療規劃的有效工具。 PubMed DOI