Assessing Racial and Ethnic Bias in Text Generation for Healthcare-Related Tasks by ChatGPT<sup>1</sup>.
ChatGPT<sup>1</sup>在醫療相關任務中評估文本生成的種族和族裔偏見。 medRxiv 2024-02-16

大型語言模型（LLMs）如ChatGPT可以像人一樣回應，不需要特別的訓練。研究使用ChatGPT分析HIV患者的醫療文本，觀察不同族群的電子健康記錄。結果顯示，在情感和主觀方面沒有明顯的種族偏見，但在保險類型方面有詞頻和主觀上的差異。研究指出，ChatGPT在語言和可讀性上對不同族群和保險類型都是一致的，但仍需要進一步的研究來確認。 PubMed DOI

Large language models propagate race-based medicine.
大型語言模型推廣種族主義醫學。 NPJ Digit Med 2024-02-19

研究發現大型語言模型在醫療系統中可能持續散播有害、不準確、種族相關的內容。四個模型在種族醫學和誤解情境下表現不一，都散播種族醫學觀念，且回應不一致。這引發對LLMs在醫療環境可能造成潛在傷害的擔憂，因為它們持續散播已被揭露的種族主義觀念。 PubMed DOI

Large Language Models for Therapy Recommendations Across 3 Clinical Specialties: Comparative Study.
跨越三個臨床專業領域的治療建議大型語言模型：比較研究。 J Med Internet Res 2023-11-16

研究比較四個大型語言模型在眼科、骨科和皮膚科領域生成醫學內容的表現，發現不同模型在治療建議的質量、準確性和安全性上有差異。GPT-3.5-Turbo最安全，Bloomz質量較差。研究強調需持續改進人工智慧工具，確保醫學建議可靠。建議引入GPT-4的自動評估機制，擴展評估範疇。 PubMed DOI

Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study.
評估 GPT-4 在延續醫療領域種族和性別偏見的潛力：一項模型評估研究。 Lancet Digit Health 2023-12-22

研究發現GPT-4在醫療保健領域存在種族和性別偏見問題，未能充分考慮人口多樣性，容易產生刻板印象。建議在將GPT-4等大型語言模型應用於臨床前，務必評估和解決偏見問題。 PubMed DOI

Unmasking and Quantifying Racial Bias of Large Language Models in Medical Report Generation.
揭示和量化大型語言模型在醫學報告生成中的種族偏見。 ArXiv 2024-03-06

大型語言模型如GPT-3.5-turbo和GPT-4在醫療保健領域有潛力，但可能受到訓練時的偏見影響，影響其在醫療環境中的實用性。研究指出，這些模型可能對白人族群預測較高的醫療成本和較長的住院時間，並對困難醫療情況下的存活率持過於樂觀的看法。未來需研究減少語言模型中的偏見，特別是在醫療保健領域，確保對所有患者公平且準確評估。 PubMed DOI

Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見：對大型語言模型生成的新聞進行檢驗。 Sci Rep 2024-03-07

LLMs透過AIGC改變生活，但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見，歧視女性、黑人。ChatGPT偏見最少，且能拒絕有偏見提示。 PubMed DOI

Large Language Models in Otolaryngology Residency Admissions: A Random Sampling Analysis.
大型語言模型在耳鼻喉科住院醫師招生中的應用：隨機抽樣分析。 Laryngoscope 2024-08-19

這項研究探討耳鼻喉科住院醫師選拔中，人工智慧模擬的決策是否受到人口統計偏見影響。研究使用OpenAI的GPT-4和GPT-4o模擬選拔委員會的決策，結果顯示RSC成員在種族、性別和性取向上存在偏見，特別偏好與自己相似的申請者。最新的ChatGPT-4o則顯示出對黑人女性和LGBTQIA+申請者的偏好，強調在選拔過程中需注意和減少這些偏見，以確保未來醫療人力的多樣性和代表性。 PubMed DOI

Currently Available Large Language Models Do Not Provide Musculoskeletal Treatment Recommendations That are Concordant With Evidence-Based Clinical Practice Guidelines.
目前可用的大型語言模型未能提供與循證臨床實踐指導一致的肌肉骨骼治療建議。 Arthroscopy 2024-08-22

這項研究評估了幾個商業可用的大型語言模型（LLMs）在提供治療建議時，與美國骨科醫學會（AAOS）針對肩袖撕裂和前交叉韌帶（ACL）損傷的臨床指導方針（CPGs）的符合度。分析了48項CPGs，結果顯示70.3%的回應與指導方針一致，ChatGPT-4的符合率最高（79.2%），而Mistral-7B最低（58.3%）。研究指出，雖然LLMs能提供一致建議，但缺乏透明的資料來源，限制了其作為臨床支持工具的可靠性，未來應擴大評估範圍以減少偏見。 PubMed DOI

Large Language Models Improve the Identification of Emergency Department Visits for Symptomatic Kidney Stones.
大型語言模型改善了對有症狀腎結石的急診就診識別。 medRxiv 2024-08-30

這項研究探討大型語言模型（LLMs），特別是GPT-4和GPT-3.5，如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集，透過提示優化和微調來提升模型表現。結果顯示，GPT-4的宏觀F1分數達0.833，明顯優於基準系統的0.71，而GPT-3.5則為0.796。研究還發現，GPT-4在種族和性別偏見方面表現良好，顯示出其在臨床文本分析的潛力。 PubMed DOI

Unmasking and quantifying racial bias of large language models in medical report generation.
揭示與量化大型語言模型在醫療報告生成中的種族偏見。 Commun Med (Lond) 2024-09-10

大型語言模型（LLMs），像是GPT-3.5-turbo和GPT-4，對醫療專業人員有潛在的協助能力，但可能帶有訓練數據中的偏見，影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現，發現它們對白人族群的預測較高，且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等，強調了進一步研究的必要性，以減少語言模型中的偏見，確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

原始文章

站上相關主題文章列表