原始文章

用多家醫院資料訓練的深度學習模型,常會學到分辨資料來源而非真正的臨床特徵,導致模型偏誤、泛化能力變差。這種「來源混淆偏誤」在NLP特別明顯。作者提出TAPER和DAPPER兩種新方法,能降低模型辨識資料來源的能力,提升模型在不同資料分布下的穩健性,為解決臨床AI偏誤提供新方向。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs),像是GPT-3.5-turbo和GPT-4,對醫療專業人員有潛在的協助能力,但可能帶有訓練數據中的偏見,影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現,發現它們對白人族群的預測較高,且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等,強調了進一步研究的必要性,以減少語言模型中的偏見,確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

大型語言模型(LLMs)在滿足健康資訊需求上有潛力,但也可能加劇健康不平等。本研究針對Med-PaLM 2模型,提供識別醫療答案中偏見的資源與方法,並提出一個評估框架及七個對抗性查詢的數據集EquityMedQA。研究強調多樣化評估策略的重要性,並呼籲來自不同背景的評審者參與。雖然無法完全確定AI系統是否促進公平健康結果,但此方法旨在增強可及性與公平醫療。 PubMed DOI

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 PubMed DOI

這篇論文介紹了FairPlay,一種新穎的合成數據生成方法,利用大型語言模型來解決臨床結果預測中的挑戰,特別是針對不平衡數據集和公平治療的需求。FairPlay生成現實且匿名的合成病人數據,改善代表性並增強數據集,提升算法性能,減少預測偏見,並保持隱私。實驗結果顯示,FairPlay顯著提升死亡預測的F1分數,最高可提高21%,且有效縮小不同子群體的性能差距,展現出一致的改善。 PubMed DOI

這項研究介紹了MedAdapter,一種新方法,能讓大型語言模型(LLMs)在生物醫學領域適應,而不需微調整個模型。MedAdapter使用小型的BERT適配器來排名LLMs生成的候選解,提升測試時的適應性。實驗顯示,MedAdapter在四個生物醫學任務上,白盒和黑盒LLMs的性能分別提升了18.24%和10.96%。這種方法資源效率高,且保護數據隱私,適合現有方法的靈活選擇。 PubMed DOI

這項研究探討了使用遮蔽語言模型(MLM)在醫院特定領域的適應性,並應用於基於BERT的模型來分類神經放射學報告。分析了來自國王學院醫院和蓋伊與聖托馬斯信託醫院的超過200,000份MRI報告。結果顯示,經過適應的模型性能顯著提升,最佳訓練數據達到97.0%和95.5%的準確率。Llama-3.0 70B模型表現最佳,準確率分別為97.1%和94.0%。研究建議在臨床環境中使用醫院特定的模型適應,並指出LLM可作為有效替代方案。 PubMed DOI

近期LLM在醫療應用上進步很快,但輸入多餘的社經細節(如種族、收入、LGBT+身份)可能讓結果產生偏見,甚至加劇健康不平等。為此,作者提出EquityGuard框架,能偵測並減少這些不公平風險,實驗證明能讓不同族群獲得更公平的醫療建議。 PubMed DOI

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄,發現模型越大,資料越完整,但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布,種族偏見則不一致,部分模型高估White或Black患者,低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性,並呼籲建立更完善的偏見評估標準。 PubMed DOI

這項研究發現,結合 soft prompt-based learning 和大型語言模型(像 GatorTronGPT),能大幅提升從不同醫院和疾病的臨床文本中萃取社會健康決定因素(SDoH)的效果。經過 prompt-tuning 的 GatorTronGPT,F1 分數最高比傳統 fine-tuned 模型多出 21.8%,顯示它在跨領域應用上表現更好。 PubMed

這項研究發現,像 Med-BERT 這種專為醫療設計的大型語言模型,比通用型模型更能處理不同醫院間的資料差異,提升知識轉移效果。通用模型如 OpenAI 需額外微調。未來建議持續研究如何在任務難度、資料量和微調之間取得最佳平衡。 PubMed