原始文章

大型語言模型(LLMs)在心理健康評估中的應用日益普遍,但對其準確性和公平性仍有疑慮,特別是社會偏見和某些族群的代表性不足。本研究聚焦於厭食症和暴食症,特別是男性,尤其是同性戀男性在這方面的研究常被忽視。研究發現,ChatGPT-4在健康相關生活品質的評估中對男性存在顯著性別偏見,男性分數低於女性,卻缺乏實證支持。這些結果顯示LLM在心理健康評估中可能存在偏見,強調需理解並減少這些偏見,以確保診斷和治療的負責任使用。 PubMed DOI


站上相關主題文章列表

LLMs透過AIGC改變生活,但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見,歧視女性、黑人。ChatGPT偏見最少,且能拒絕有偏見提示。 PubMed DOI

全球心理健康問題日益嚴重,現有的照護模式無法滿足需求。大型語言模型(LLMs)被視為解決方案,能在心理健康教育、評估和介入上提供幫助。本文回顧了LLMs的應用,並指出其潛在的正面影響與風險,強調需採取策略來降低風險。平衡心理健康支持的需求與LLMs的負責任開發至關重要,確保這些模型符合倫理標準,並讓有經驗的人參與開發,以減少傷害並增強其正面影響。 PubMed DOI

這項研究探討耳鼻喉科住院醫師選拔中,人工智慧模擬的決策是否受到人口統計偏見影響。研究使用OpenAI的GPT-4和GPT-4o模擬選拔委員會的決策,結果顯示RSC成員在種族、性別和性取向上存在偏見,特別偏好與自己相似的申請者。最新的ChatGPT-4o則顯示出對黑人女性和LGBTQIA+申請者的偏好,強調在選拔過程中需注意和減少這些偏見,以確保未來醫療人力的多樣性和代表性。 PubMed DOI

這項研究探討大型語言模型(LLM)聊天機器人中可能存在的種族和性別偏見,特別是在腫瘤學領域。研究發現,這些偏見可能加劇醫療不平等。三個聊天機器人(Chat GPT、Gemini和Bing Chat)在回應腫瘤學相關情境時,顯示出以下主要問題: 1. **職業偏見**:黑人和美洲原住民更常被聯想到腫瘤護理師,而非腫瘤科醫生,且護理角色偏向女性。 2. **人口代表性**:Chat GPT推薦的腫瘤科醫生中,亞洲人過度代表,黑人和西班牙裔則不足。 3. **職位描述**:不同背景的群體收到的職位描述強調文化能力,卻忽略治療管理。 4. **病人檔案刻板印象**:AI生成的癌症案例未能準確反映現實,延續了刻板印象。 這是首個系統性檢查腫瘤學領域AI偏見的研究,為未來的評估提供了框架。 PubMed DOI

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 PubMed DOI

這項研究分析了一個為心理健康支持設計的大型語言模型(LLM)是否存在偏見,透過模擬醫生與病人的對話進行。研究使用數位標準化病人(DSPs),保持中立並了解其社會人口特徵。結果顯示,449次對話中LLM的回應並無顯著偏見,且能理解DSPs的關切,改善對話語氣。總體來說,研究未發現LLM有實質偏見,對於心理健康支持的LLM偏見理解有所貢獻。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在心理健康預測任務中的表現,測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術,結果顯示指令微調能顯著提升模型能力,尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外,研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI

這項研究分析了四個大型語言模型(LLMs)在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔,並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示,只有GPT-4在實體計數上有統計意義的差異,但經調整後並無顯著差異。總體來看,這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法,並建議進一步研究以探討對健康照護的影響。 PubMed DOI

研究顯示,基於人工智慧的決策,特別是大型語言模型(LLMs),在評估求職者時存在顯著偏見。約361,000份履歷被評估後發現,女性候選人通常獲得較高評分,而黑人男性則常被低估,儘管他們的資格相似。這導致聘用機率出現1-3個百分點的差異,且在不同職位和群體中一致。這突顯了進一步調查偏見成因及發展減輕策略的必要性,以促進社會公平。 PubMed DOI