Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4.
評估生成式預訓練轉換器(GPT)在臨床決策中的應用：GPT-3.5與GPT-4的比較分析。 J Med Internet Res 2024-06-27

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現，結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分，尤其在倫理問題上。AI有助於醫師，但不應取代人類專業知識，需進一步研究整合到臨床環境中的方法。 PubMed DOI

AI integration in nephrology: evaluating ChatGPT for accurate ICD-10 documentation and coding.
腎臟科中的AI整合：評估ChatGPT在ICD-10文檔和編碼中的準確性。 Front Artif Intell 2024-09-17

這項研究評估了ChatGPT在識別腎臟科疾病的ICD-10代碼的準確性，使用了模擬案例。兩位腎臟科醫生創建了100個案例，測試了ChatGPT的3.5和4.0版本。結果顯示，3.5版本的準確率為91%，而4.0版本則高達99%。雖然3.5在第二輪下降至87%，但4.0仍維持99%。這顯示4.0在腎臟科編碼上有顯著優勢，並可能減輕醫療人員的負擔。不過，仍需注意小錯誤率，強調持續改進AI系統的重要性。 PubMed DOI

Fairness in AI-Driven Oncology: Investigating Racial and Gender Biases in Large Language Models.
AI 驅動的腫瘤學中的公平性：調查大型語言模型中的種族和性別偏見。 Cureus 2024-10-17

這項研究探討大型語言模型（LLM）聊天機器人中可能存在的種族和性別偏見，特別是在腫瘤學領域。研究發現，這些偏見可能加劇醫療不平等。三個聊天機器人（Chat GPT、Gemini和Bing Chat）在回應腫瘤學相關情境時，顯示出以下主要問題： 1. **職業偏見**：黑人和美洲原住民更常被聯想到腫瘤護理師，而非腫瘤科醫生，且護理角色偏向女性。 2. **人口代表性**：Chat GPT推薦的腫瘤科醫生中，亞洲人過度代表，黑人和西班牙裔則不足。 3. **職位描述**：不同背景的群體收到的職位描述強調文化能力，卻忽略治療管理。 4. **病人檔案刻板印象**：AI生成的癌症案例未能準確反映現實，延續了刻板印象。這是首個系統性檢查腫瘤學領域AI偏見的研究，為未來的評估提供了框架。 PubMed DOI

Bias Sensitivity in Diagnostic Decision-Making: Comparing ChatGPT with Residents.
診斷決策中的偏見敏感性：比較 ChatGPT 與住院醫師。 J Gen Intern Med 2024-11-07

這項研究比較了ChatGPT與265名醫學住院醫師在診斷準確性上的表現，特別關注臨床推理中的偏見影響。結果顯示，ChatGPT的整體診斷準確性與住院醫師相似，但對不同類型的偏見反應不同。當偏見來自病人病史時，ChatGPT的準確性顯著下降，而住院醫師的下降幅度較小。相對地，當偏見是情境性的，ChatGPT表現穩定，但住院醫師的準確性則下降更多。這顯示提升ChatGPT檢測和減輕偏見的能力，對其在臨床應用中至關重要。 PubMed DOI

Evaluating AI performance in nephrology triage and subspecialty referrals.
評估人工智慧在腎臟科分診和專科轉診中的表現。 Sci Rep 2025-01-27

這項研究探討了大型語言模型ChatGPT在腎臟科病例分診的有效性，特別是在因人口老化導致腎臟問題增加的情況下。兩位腎臟科醫生設計了100個病人情境，結果顯示ChatGPT在判斷腎臟科需求的準確率高達99-100%，選擇正確子專科的準確率為96-99%，兩輪評估的協議率為97%。雖然結果顯示AI能提升醫療分診的效率與準確性，但仍需改進在複雜病情的多學科護理整合方面。整體而言，研究強調了AI在改善臨床決策及發展量身訂做的分診系統的潛力。 PubMed DOI

Advancing health equity: evaluating AI translations of kidney donor information for Spanish speakers.
推進健康公平：評估針對西班牙語使用者的腎臟捐贈者資訊的 AI 翻譯。 Front Public Health 2025-02-11

這項研究探討了ChatGPT在將健康資訊翻譯成西班牙語的有效性，特別針對西班牙裔族群獲得活體腎臟捐贈的機會。研究使用了ChatGPT 3.5和4.0翻譯27個常見問題，並由西班牙語腎臟科醫生評估翻譯的準確性和文化敏感性。結果顯示，兩個版本的翻譯準確性和文化敏感性均很高，特別是GPT-4.0達到完美分數。這顯示AI在改善健康公平性方面的潛力，建議未來應整合這類工具進醫療系統，以提升患者教育和服務公平性。 PubMed DOI

Inherent Bias in Large Language Models: A Random Sampling Analysis.
大型語言模型中的固有偏見：隨機抽樣分析。 Mayo Clin Proc Digit Health 2025-04-10

這項研究探討了生成式人工智慧模型中的偏見，特別是這些偏見如何影響醫療環境中的臨床決策。研究使用OpenAI的GPT-4模擬醫生在資源有限的情況下選擇病人。結果顯示，醫生在種族、性別、年齡等方面存在顯著偏見，男性醫生偏好男性病人，女性醫生則偏好女性病人。此外，政治立場和性取向也影響醫生的選擇。研究強調，若不採取適當措施，這些偏見可能對病人結果造成不利影響。 PubMed DOI

AI and inclusion in simulation education and leadership: a global cross-sectional evaluation of diversity.
AI 與包容性在模擬教育與領導中的應用：全球多元化的橫斷面評估 Adv Simul (Lond) 2025-05-04

這項研究比較了三種AI（ChatGPT、Gemini、Claude）在模擬醫學教育領導者設定上的差異。結果發現，Claude偏好產生年長、白人、男性領導者，ChatGPT和Gemini則較多元。這些偏見可能讓醫學教育更不公平，凸顯發展倫理AI和推動領導多元化的重要性。研究只用AI生成資料，沒用到真人資訊。 PubMed DOI

Equality, Diversity, and Inclusion in AI-Driven Healthcare Chatbots: Addressing Challenges and Shaping Strategies.
AI 驅動醫療聊天機器人中的平等、多元與包容：挑戰與策略的探討 Eur J Cardiovasc Nurs 2025-06-02

AI 聊天機器人有助提升醫療品質，但在平等、多元和包容方面還有挑戰。論文建議應用多元資料、持續評估及專家合作，減少偏見、促進公平。只要落實 EDI 原則，AI 未來能更有效支持公平且包容的醫療照護。 PubMed DOI

Racial bias in AI-mediated psychiatric diagnosis and treatment: a qualitative comparison of four large language models.
AI輔助精神科診斷與治療中的種族偏見：四種大型語言模型的質性比較 NPJ Digit Med 2025-06-04

最新研究發現，主流AI語言模型在精神科治療建議上，對非裔美國人病患常出現明顯偏見，尤其在種族資訊明確時更明顯。NewMes-15偏見最嚴重，Gemini則最少。這顯示AI有可能加劇醫療種族不平等，未來醫療AI必須加強偏見檢測與修正。 PubMed DOI

原始文章

站上相關主題文章列表