原始文章

這項研究回顧了大型語言模型(LLMs)在醫療領域中所引發的人口統計偏見,並強調了相關的擔憂。從2018年到2024年,分析了24項研究,發現91.7%的研究識別出偏見,性別偏見最為普遍(93.7%),種族或民族偏見也高達90.9%。雖然偏見檢測有所改善,但有效的減緩策略仍在開發中。隨著LLMs在醫療決策中的重要性上升,解決這些偏見對建立公平的人工智慧系統至關重要。未來研究應考慮更廣泛的人口因素及非西方文化背景。 PubMed DOI


站上相關主題文章列表

研究發現大型語言模型在醫療系統中可能持續散播有害、不準確、種族相關的內容。四個模型在種族醫學和誤解情境下表現不一,都散播種族醫學觀念,且回應不一致。這引發對LLMs在醫療環境可能造成潛在傷害的擔憂,因為它們持續散播已被揭露的種族主義觀念。 PubMed DOI

大型語言模型如GPT-3.5-turbo和GPT-4在醫療保健領域有潛力,但可能受到訓練時的偏見影響,影響其在醫療環境中的實用性。研究指出,這些模型可能對白人族群預測較高的醫療成本和較長的住院時間,並對困難醫療情況下的存活率持過於樂觀的看法。未來需研究減少語言模型中的偏見,特別是在醫療保健領域,確保對所有患者公平且準確評估。 PubMed DOI

機器學習在醫療決策中的風險評估中可能存在偏見,導致不公平。解決方法包括使用去偏見技術來減輕這些偏見,確保公平的醫療風險評估和決策。 PubMed DOI

大型語言模型(LLMs),像是GPT-3.5-turbo和GPT-4,對醫療專業人員有潛在的協助能力,但可能帶有訓練數據中的偏見,影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現,發現它們對白人族群的預測較高,且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等,強調了進一步研究的必要性,以減少語言模型中的偏見,確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

大型語言模型(LLMs)在滿足健康資訊需求上有潛力,但也可能加劇健康不平等。本研究針對Med-PaLM 2模型,提供識別醫療答案中偏見的資源與方法,並提出一個評估框架及七個對抗性查詢的數據集EquityMedQA。研究強調多樣化評估策略的重要性,並呼籲來自不同背景的評審者參與。雖然無法完全確定AI系統是否促進公平健康結果,但此方法旨在增強可及性與公平醫療。 PubMed DOI

大型語言模型(LLMs)在醫療領域有潛力,但目前的評估方法無法有效識別其最佳用途。針對2022年至2024年間的研究進行系統性回顧,發現519項研究中僅5%使用真實病人數據。主要醫療任務集中在醫學知識和診斷,行政任務則較少。大多數研究專注於問答任務,準確性是主要評估維度,但公平性和偏見等問題卻被忽略。未來應標準化評估指標,納入臨床數據,並擴展至更多任務和專科。 PubMed DOI

這項研究探討大型語言模型(LLM)聊天機器人中可能存在的種族和性別偏見,特別是在腫瘤學領域。研究發現,這些偏見可能加劇醫療不平等。三個聊天機器人(Chat GPT、Gemini和Bing Chat)在回應腫瘤學相關情境時,顯示出以下主要問題: 1. **職業偏見**:黑人和美洲原住民更常被聯想到腫瘤護理師,而非腫瘤科醫生,且護理角色偏向女性。 2. **人口代表性**:Chat GPT推薦的腫瘤科醫生中,亞洲人過度代表,黑人和西班牙裔則不足。 3. **職位描述**:不同背景的群體收到的職位描述強調文化能力,卻忽略治療管理。 4. **病人檔案刻板印象**:AI生成的癌症案例未能準確反映現實,延續了刻板印象。 這是首個系統性檢查腫瘤學領域AI偏見的研究,為未來的評估提供了框架。 PubMed DOI

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這項研究分析了四個大型語言模型(LLMs)在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔,並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示,只有GPT-4在實體計數上有統計意義的差異,但經調整後並無顯著差異。總體來看,這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法,並建議進一步研究以探討對健康照護的影響。 PubMed DOI