Diagnostic accuracy of large language models in psychiatry.
大型語言模型在精神科的診斷準確性。 Asian J Psychiatr 2024-08-07

這項研究探討了不同人工智慧模型在精神醫學診斷的表現，包括GPT-3.5、GPT-4、Aya和Nemotron。由於病人主觀報告的影響，準確診斷常常困難。研究使用20個DSM-5的臨床案例，結果顯示GPT-3.5和GPT-4在準確性和推理上優於其他模型，尤其在診斷精神病和雙相情感障礙方面表現突出，但在某些情況下則不佳。研究建議，人工智慧有潛力改善精神科診斷，但其他模型需進一步改進，未來應擴展數據集以增強診斷能力。 PubMed DOI

Unmasking and quantifying racial bias of large language models in medical report generation.
揭示與量化大型語言模型在醫療報告生成中的種族偏見。 Commun Med (Lond) 2024-09-10

大型語言模型（LLMs），像是GPT-3.5-turbo和GPT-4，對醫療專業人員有潛在的協助能力，但可能帶有訓練數據中的偏見，影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現，發現它們對白人族群的預測較高，且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等，強調了進一步研究的必要性，以減少語言模型中的偏見，確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

Fairness in AI-Driven Oncology: Investigating Racial and Gender Biases in Large Language Models.
AI 驅動的腫瘤學中的公平性：調查大型語言模型中的種族和性別偏見。 Cureus 2024-10-17

這項研究探討大型語言模型（LLM）聊天機器人中可能存在的種族和性別偏見，特別是在腫瘤學領域。研究發現，這些偏見可能加劇醫療不平等。三個聊天機器人（Chat GPT、Gemini和Bing Chat）在回應腫瘤學相關情境時，顯示出以下主要問題： 1. **職業偏見**：黑人和美洲原住民更常被聯想到腫瘤護理師，而非腫瘤科醫生，且護理角色偏向女性。 2. **人口代表性**：Chat GPT推薦的腫瘤科醫生中，亞洲人過度代表，黑人和西班牙裔則不足。 3. **職位描述**：不同背景的群體收到的職位描述強調文化能力，卻忽略治療管理。 4. **病人檔案刻板印象**：AI生成的癌症案例未能準確反映現實，延續了刻板印象。這是首個系統性檢查腫瘤學領域AI偏見的研究，為未來的評估提供了框架。 PubMed DOI

Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Assessing Racial and Ethnic Bias in Text Generation by Large Language Models for Health Care-Related Tasks: Cross-Sectional Study.
評估大型語言模型在健康照護相關任務中的文本生成中的種族和族裔偏見：橫斷面研究。 J Med Internet Res 2025-03-13

這項研究分析了四個大型語言模型（LLMs）在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔，並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示，只有GPT-4在實體計數上有統計意義的差異，但經調整後並無顯著差異。總體來看，這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法，並建議進一步研究以探討對健康照護的影響。 PubMed DOI

Sociodemographic biases in medical decision making by large language models.
大型語言模型在醫療決策中的社會人口偏見。 Nat Med 2025-04-08

這項研究評估了九個大型語言模型在醫療領域的表現，分析了1,000個急診案例的170萬個輸出結果。結果顯示，標記為黑人、無家可歸者或自我認同為LGBTQIA+的案例，常被建議進行緊急護理或心理健康評估，且有時缺乏臨床正當理由。相對而言，高收入案例則較常建議進行高級影像檢查。這些偏差可能加劇健康不平等，強調了評估和減輕LLMs偏見的重要性，以確保醫療建議的公平性。 PubMed DOI

Inherent Bias in Large Language Models: A Random Sampling Analysis.
大型語言模型中的固有偏見：隨機抽樣分析。 Mayo Clin Proc Digit Health 2025-04-10

這項研究探討了生成式人工智慧模型中的偏見，特別是這些偏見如何影響醫療環境中的臨床決策。研究使用OpenAI的GPT-4模擬醫生在資源有限的情況下選擇病人。結果顯示，醫生在種族、性別、年齡等方面存在顯著偏見，男性醫生偏好男性病人，女性醫生則偏好女性病人。此外，政治立場和性取向也影響醫生的選擇。研究強調，若不採取適當措施，這些偏見可能對病人結果造成不利影響。 PubMed DOI

Effectiveness of generative AI-large language models' recognition of veteran suicide risk: a comparison with human mental health providers using a risk stratification model.
生成式 AI-大型語言模型辨識退伍軍人自殺風險的效能：與人類心理健康醫療提供者運用風險分層模型之比較 Front Psychiatry 2025-04-18

這項研究發現，主流AI語言模型在評估退伍軍人自殺風險和治療建議上，表現常與專業人員不同，容易高估或低估風險，且各AI模型間差異大。雖然AI有時能與人類判斷一致，但治療建議不夠穩定，像ChatGPT-4o就全都建議住院。AI目前只能當輔助工具，不能取代專業判斷，臨床應用前還需要更多研究和專家監督。 PubMed DOI

Assessing bias in AI-driven psychiatric recommendations: A comparative cross-sectional study of chatbot-classified and CANMAT 2023 guideline for adjunctive therapy in difficult-to-treat depression.
AI驅動精神科建議中的偏誤評估：聊天機器人分類與CANMAT 2023指引於難治型憂鬱症加成治療之比較橫斷研究 Psychiatry Res 2025-04-23

這項研究發現，頂尖聊天機器人在難治型憂鬱症治療建議上，和專業指引高度一致，但有明顯偏誤，像是過度推薦某些藥物、低估其他選項。顯示AI有潛力協助精神醫療，但也有風險，建議多用幾種模型來降低偏誤、提升可靠性。 PubMed DOI

Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study.
大型語言模型在生成合成電子健康紀錄的評估與偏誤分析：比較性研究 J Med Internet Res 2025-05-12

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄，發現模型越大，資料越完整，但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布，種族偏見則不一致，部分模型高估White或Black患者，低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性，並呼籲建立更完善的偏見評估標準。 PubMed DOI

原始文章

站上相關主題文章列表