社會健康決定因素(SDoH)對病人的結果很重要,但常常沒有完整記錄在電子健康紀錄(EHRs)中。大型語言模型(LLMs)可以幫助從EHRs中提取SDoH數據。研究專注於從EHR敘述文本中提取六個SDoH類別。最佳模型是Flan-T5 XL,對任何SDoH提及進行微調,以及Flan-T5 XXL,對不良SDoH提及進行微調。合成數據提高了性能,尤其對較小的模型。這些模型在零次和少次訓練情況下優於ChatGPT模型,並在添加種族/族裔和性別描述詞時表現較少偏見。這些模型識別出比ICD-10代碼更多具有不良SDoH的病人,突顯了它們在改善有關SDoH的真實世界證據並識別需要支持的病人方面的潛力。 PubMed DOI