原始文章

這項研究分析了一個為心理健康支持設計的大型語言模型(LLM)是否存在偏見,透過模擬醫生與病人的對話進行。研究使用數位標準化病人(DSPs),保持中立並了解其社會人口特徵。結果顯示,449次對話中LLM的回應並無顯著偏見,且能理解DSPs的關切,改善對話語氣。總體來說,研究未發現LLM有實質偏見,對於心理健康支持的LLM偏見理解有所貢獻。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)如ChatGPT可以像人一樣回應,不需要特別的訓練。研究使用ChatGPT分析HIV患者的醫療文本,觀察不同族群的電子健康記錄。結果顯示,在情感和主觀方面沒有明顯的種族偏見,但在保險類型方面有詞頻和主觀上的差異。研究指出,ChatGPT在語言和可讀性上對不同族群和保險類型都是一致的,但仍需要進一步的研究來確認。 PubMed DOI

研究發現GPT-4在醫療保健領域存在種族和性別偏見問題,未能充分考慮人口多樣性,容易產生刻板印象。建議在將GPT-4等大型語言模型應用於臨床前,務必評估和解決偏見問題。 PubMed DOI

這項研究分析了一個專注於由大型語言模型(LLM)驅動的對話代理的心理健康支援子論壇中用戶的評論。研究發現強調了一些好處,例如即時支援和提升用戶信心,但也指出了一些挑戰,如過濾有害內容和用戶過度依賴的問題。該研究強調了在心理健康支援中需要謹慎評估和負責任使用LLM的必要性。 PubMed DOI

LLMs透過AIGC改變生活,但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見,歧視女性、黑人。ChatGPT偏見最少,且能拒絕有偏見提示。 PubMed DOI

研究評估大型語言模型對自閉症患者回應的效果,發現醫師回應更準確實用,而LLMs在同理心表現較佳。在將LLMs應用到臨床前,還需進一步研究和改進。 PubMed DOI

大型語言模型(LLM)應用廣泛,包括心理健康領域。然而,使用LLM強化的對話人工智慧(CAI)協助抑鬱症患者面臨人性化和情境韌性挑戰。觀點論文探討這些挑戰,提出跨學科解決方案,結合哲學、心理學和計算機科學。為了負責地設計和應用LLM增強的CAI支援抑鬱症患者,提出建議。 PubMed DOI

這項研究探討耳鼻喉科住院醫師選拔中,人工智慧模擬的決策是否受到人口統計偏見影響。研究使用OpenAI的GPT-4和GPT-4o模擬選拔委員會的決策,結果顯示RSC成員在種族、性別和性取向上存在偏見,特別偏好與自己相似的申請者。最新的ChatGPT-4o則顯示出對黑人女性和LGBTQIA+申請者的偏好,強調在選拔過程中需注意和減少這些偏見,以確保未來醫療人力的多樣性和代表性。 PubMed DOI

大型語言模型(LLMs),像是GPT-3.5-turbo和GPT-4,對醫療專業人員有潛在的協助能力,但可能帶有訓練數據中的偏見,影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現,發現它們對白人族群的預測較高,且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等,強調了進一步研究的必要性,以減少語言模型中的偏見,確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

這項研究探討大型語言模型(LLM)聊天機器人中可能存在的種族和性別偏見,特別是在腫瘤學領域。研究發現,這些偏見可能加劇醫療不平等。三個聊天機器人(Chat GPT、Gemini和Bing Chat)在回應腫瘤學相關情境時,顯示出以下主要問題: 1. **職業偏見**:黑人和美洲原住民更常被聯想到腫瘤護理師,而非腫瘤科醫生,且護理角色偏向女性。 2. **人口代表性**:Chat GPT推薦的腫瘤科醫生中,亞洲人過度代表,黑人和西班牙裔則不足。 3. **職位描述**:不同背景的群體收到的職位描述強調文化能力,卻忽略治療管理。 4. **病人檔案刻板印象**:AI生成的癌症案例未能準確反映現實,延續了刻板印象。 這是首個系統性檢查腫瘤學領域AI偏見的研究,為未來的評估提供了框架。 PubMed DOI

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 PubMed DOI