原始文章

這項研究分析了一個為心理健康支持設計的大型語言模型(LLM)是否存在偏見,透過模擬醫生與病人的對話進行。研究使用數位標準化病人(DSPs),保持中立並了解其社會人口特徵。結果顯示,449次對話中LLM的回應並無顯著偏見,且能理解DSPs的關切,改善對話語氣。總體來說,研究未發現LLM有實質偏見,對於心理健康支持的LLM偏見理解有所貢獻。 PubMed DOI


站上相關主題文章列表

這項研究分析了一個專注於由大型語言模型(LLM)驅動的對話代理的心理健康支援子論壇中用戶的評論。研究發現強調了一些好處,例如即時支援和提升用戶信心,但也指出了一些挑戰,如過濾有害內容和用戶過度依賴的問題。該研究強調了在心理健康支援中需要謹慎評估和負責任使用LLM的必要性。 PubMed DOI

大型語言模型(LLM)應用廣泛,包括心理健康領域。然而,使用LLM強化的對話人工智慧(CAI)協助抑鬱症患者面臨人性化和情境韌性挑戰。觀點論文探討這些挑戰,提出跨學科解決方案,結合哲學、心理學和計算機科學。為了負責地設計和應用LLM增強的CAI支援抑鬱症患者,提出建議。 PubMed DOI

這項研究探討大型語言模型(LLM)聊天機器人中可能存在的種族和性別偏見,特別是在腫瘤學領域。研究發現,這些偏見可能加劇醫療不平等。三個聊天機器人(Chat GPT、Gemini和Bing Chat)在回應腫瘤學相關情境時,顯示出以下主要問題: 1. **職業偏見**:黑人和美洲原住民更常被聯想到腫瘤護理師,而非腫瘤科醫生,且護理角色偏向女性。 2. **人口代表性**:Chat GPT推薦的腫瘤科醫生中,亞洲人過度代表,黑人和西班牙裔則不足。 3. **職位描述**:不同背景的群體收到的職位描述強調文化能力,卻忽略治療管理。 4. **病人檔案刻板印象**:AI生成的癌症案例未能準確反映現實,延續了刻板印象。 這是首個系統性檢查腫瘤學領域AI偏見的研究,為未來的評估提供了框架。 PubMed DOI

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 PubMed DOI

大型語言模型(LLMs)在心理健康護理中有潛力,能透過臨床筆記和轉錄來改善診斷和治療。不過,技術成本、識字差距和數據偏見等挑戰需解決。文章建議採用社會文化技術方法,重點在五個領域:建立全球臨床資料庫、制定倫理指導方針、精煉診斷類別、納入文化考量及促進數位包容性。作者強調開發具代表性的數據集和可解釋的臨床決策支持系統的重要性,並強調各方合作以確保公平的臨床部署。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究評估了治療性聊天機器人(如 Wysa 和 Youper)與通用語言模型(如 GPT-3.5、GPT-4 和 Gemini Pro)在處理認知偏誤和識別用戶情緒的效果。結果顯示,通用聊天機器人在糾正認知偏誤方面表現更佳,特別是 GPT-4 獲得最高分。通用機器人也在情緒識別上超越治療性機器人,顯示出後者在這方面的局限性。研究建議未來設計應提升情緒智力,並解決倫理問題,以確保人工智慧在心理健康支持上的有效性。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在醫療領域中所引發的人口統計偏見,並強調了相關的擔憂。從2018年到2024年,分析了24項研究,發現91.7%的研究識別出偏見,性別偏見最為普遍(93.7%),種族或民族偏見也高達90.9%。雖然偏見檢測有所改善,但有效的減緩策略仍在開發中。隨著LLMs在醫療決策中的重要性上升,解決這些偏見對建立公平的人工智慧系統至關重要。未來研究應考慮更廣泛的人口因素及非西方文化背景。 PubMed DOI

這項研究分析了四個大型語言模型(LLMs)在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔,並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示,只有GPT-4在實體計數上有統計意義的差異,但經調整後並無顯著差異。總體來看,這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法,並建議進一步研究以探討對健康照護的影響。 PubMed DOI

大型語言模型(LLMs)在心理健康評估中的應用日益普遍,但對其準確性和公平性仍有疑慮,特別是社會偏見和某些族群的代表性不足。本研究聚焦於厭食症和暴食症,特別是男性,尤其是同性戀男性在這方面的研究常被忽視。研究發現,ChatGPT-4在健康相關生活品質的評估中對男性存在顯著性別偏見,男性分數低於女性,卻缺乏實證支持。這些結果顯示LLM在心理健康評估中可能存在偏見,強調需理解並減少這些偏見,以確保診斷和治療的負責任使用。 PubMed DOI