原始文章

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示,這三個模型的反應評價普遍比專家自殺學者更適當,尤其是ChatGPT的評分差異最大。異常值分析發現,Gemini的偏差比例最高。整體來看,ChatGPT的表現相當於碩士級輔導員,Claude超過受訓心理健康專業人士,而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向,但部分模型的表現已達到或超過專業水平。 PubMed DOI


站上相關主題文章列表

研究比較大型語言模型(LLMs)和心理健康專業人員在評估精神分裂症患者預後能力。結果顯示,LLMs在評估接受治療的患者預後方面表現接近專業人士,但與普羅大眾看法有差異。ChatGPT-3.5較悲觀,可能影響患者治療動機。LLMs有潛力改善醫療保健,但需經驗證及整合人類專業知識。 PubMed DOI

人工智慧進步,如OpenAI的GPT-4,對語言任務很有幫助。研究評估GPT-4在預測心理健康危機上的表現,發現臨床醫師在主訴方面表現較佳,但加入自殺企圖歷史後,兩者表現都有改善。GPT-4有潛力匹敵臨床醫師,但仍需進一步測試,包括偏見檢查。LLMs可提升患者風險辨識,改善護理品質。 PubMed DOI

大型語言模型(LLMs)如ChatGPT的出現可能會影響心理治療,特別是認知行為療法(CBT)。我們的系統性研究顯示,LLMs能夠識別不利的思維,評估其有效性,並建議將其重新框架為更具建設性的替代方案。然而,儘管LLMs在這方面能提供有用的建議,但不應僅依賴它們來進行CBT。 PubMed DOI

大型語言模型(LLMs)在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現,並評估了一個新開發的評分標準。結果顯示,Gemini的表現最佳,且評分工具的可靠性高,觀察者間變異性低。研究強調不同情境下模型表現的差異,並指出在實施前需評估診斷模型的有效性,為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

這項研究比較了三種不同版本的BERT模型和大型語言模型(LLMs)在檢測巴西葡萄牙語文本中的自殺意念的效果。數據集包含2,691句無自殺意念和1,097句有自殺意念的句子,經心理學家標註。結果顯示,Bing/GPT-4表現最佳,準確率達98%,其次是微調過的BERTimbau-Large(96%)和BERTimbau-Base(94%)。Bard最低,僅62%。雖然模型召回率高,但研究強調尚未在臨床環境驗證,使用時需謹慎。 PubMed DOI

這項研究探討生成式人工智慧,特別是大型語言模型(LLMs)在醫療上解決憂鬱症問題的效果。透過分析BioGPT、PMC-Llama、GPT-3.5和Llama2等模型的回應,並使用PubMedQA和QuoraQA數據集,結果顯示最新的模型,尤其是GPT-3.5和Llama2,在生成醫療回應方面表現優異。研究指出,升級一般的LLMs可能比專門微調的模型更能產生生物醫學知識,目的是提升AI驅動的醫療諮詢系統,特別是在心理健康領域的應用。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在回答脊髓損傷相關問題的表現,包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示,Gemini的資訊品質最佳,但可讀性較低,需大學程度理解。ChatGPT在準確性上表現最佳,達83.8%的「良好」評級,超過其他模型。所有模型在全面性和自我修正能力上表現良好,特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

安全規劃介入忠實度評估工具(SPIFR)是一個自動化工具,專門用來評估自殺風險管理的安全規劃介入(SPI)質量。它利用三個大型語言模型(LLMs)分析了266個去識別化的SPI,重點在於警示徵兆、內部應對策略、安全環境及生存理由。研究發現,LLaMA 3和o3-mini的表現優於GPT-4,並針對每個步驟提出了最佳評分系統。這顯示大型語言模型在提供臨床醫師即時且準確的反饋方面的潛力,有助於提升自殺預防策略的有效性。 PubMed DOI

這項研究發現,主流AI語言模型在評估退伍軍人自殺風險和治療建議上,表現常與專業人員不同,容易高估或低估風險,且各AI模型間差異大。雖然AI有時能與人類判斷一致,但治療建議不夠穩定,像ChatGPT-4o就全都建議住院。AI目前只能當輔助工具,不能取代專業判斷,臨床應用前還需要更多研究和專家監督。 PubMed DOI