原始文章

這項研究發現,ChatGPT 3.5在腎臟科決策時,遇到涉及歧視的問題還是會直接回答;而4.0有時會拒絕作答,雖然有進步,但兩者在辨識偏見上還是不夠。研究強調,AI應用在醫療和人事決策時,必須加強規範、DEI指引和倫理監督,才能確保公平公正。 PubMed DOI


站上相關主題文章列表

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

這項研究探討了大型語言模型ChatGPT在腎臟科病例分診的有效性,特別是在因人口老化導致腎臟問題增加的情況下。兩位腎臟科醫生設計了100個病人情境,結果顯示ChatGPT在判斷腎臟科需求的準確率高達99-100%,選擇正確子專科的準確率為96-99%,兩輪評估的協議率為97%。雖然結果顯示AI能提升醫療分診的效率與準確性,但仍需改進在複雜病情的多學科護理整合方面。整體而言,研究強調了AI在改善臨床決策及發展量身訂做的分診系統的潛力。 PubMed DOI

這項研究探討了ChatGPT在將健康資訊翻譯成西班牙語的有效性,特別針對西班牙裔族群獲得活體腎臟捐贈的機會。研究使用了ChatGPT 3.5和4.0翻譯27個常見問題,並由西班牙語腎臟科醫生評估翻譯的準確性和文化敏感性。結果顯示,兩個版本的翻譯準確性和文化敏感性均很高,特別是GPT-4.0達到完美分數。這顯示AI在改善健康公平性方面的潛力,建議未來應整合這類工具進醫療系統,以提升患者教育和服務公平性。 PubMed DOI

這項研究評估了兩個AI語言模型,GPT-3.5和GPT-4,在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分,結果顯示兩者表現相似,GPT-4稍微高一些,但差異不顯著。分析顯示,模型的內部一致性較低,專家經驗與評價無明顯相關。研究指出,這些AI模型雖能提供基本資訊,但未能解決小兒腎臟科的特定挑戰,強調專業訓練和人類監督的重要性。 PubMed DOI

這項研究分析了四個大型語言模型(LLMs)在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔,並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示,只有GPT-4在實體計數上有統計意義的差異,但經調整後並無顯著差異。總體來看,這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法,並建議進一步研究以探討對健康照護的影響。 PubMed DOI

這項研究探討了生成式人工智慧模型中的偏見,特別是這些偏見如何影響醫療環境中的臨床決策。研究使用OpenAI的GPT-4模擬醫生在資源有限的情況下選擇病人。結果顯示,醫生在種族、性別、年齡等方面存在顯著偏見,男性醫生偏好男性病人,女性醫生則偏好女性病人。此外,政治立場和性取向也影響醫生的選擇。研究強調,若不採取適當措施,這些偏見可能對病人結果造成不利影響。 PubMed DOI

這項研究比較了三種AI(ChatGPT、Gemini、Claude)在模擬醫學教育領導者設定上的差異。結果發現,Claude偏好產生年長、白人、男性領導者,ChatGPT和Gemini則較多元。這些偏見可能讓醫學教育更不公平,凸顯發展倫理AI和推動領導多元化的重要性。研究只用AI生成資料,沒用到真人資訊。 PubMed DOI

AI 聊天機器人有助提升醫療品質,但在平等、多元和包容方面還有挑戰。論文建議應用多元資料、持續評估及專家合作,減少偏見、促進公平。只要落實 EDI 原則,AI 未來能更有效支持公平且包容的醫療照護。 PubMed DOI

最新研究發現,主流AI語言模型在精神科治療建議上,對非裔美國人病患常出現明顯偏見,尤其在種族資訊明確時更明顯。NewMes-15偏見最嚴重,Gemini則最少。這顯示AI有可能加劇醫療種族不平等,未來醫療AI必須加強偏見檢測與修正。 PubMed DOI

最新研究比較四種AI模型在腎臟科問題上的表現,發現GPT-4o最準確且穩定,GPT-4同理心最佳,PaLM 2和Gemini 1.0 Ultra則在部分任務表現突出。結果顯示,生成式AI有助於提升腎臟科病患的溝通與衛教,不同模型可依臨床需求選用。 PubMed DOI