原始文章

這項研究探討耳鼻喉科住院醫師選拔中,人工智慧模擬的決策是否受到人口統計偏見影響。研究使用OpenAI的GPT-4和GPT-4o模擬選拔委員會的決策,結果顯示RSC成員在種族、性別和性取向上存在偏見,特別偏好與自己相似的申請者。最新的ChatGPT-4o則顯示出對黑人女性和LGBTQIA+申請者的偏好,強調在選拔過程中需注意和減少這些偏見,以確保未來醫療人力的多樣性和代表性。 PubMed DOI


站上相關主題文章列表

研究評估OpenAI開發的ChatGPT在提供耳鼻喉科健康資訊的表現。醫生們認為聊天機器人回答相關性不錯,但深度有待加強,可能受訓練數據影響。儘管有潛力提供正確資訊,仍需改進回應深度和減少偏見。 PubMed DOI

研究發現GPT-4在醫療保健領域存在種族和性別偏見問題,未能充分考慮人口多樣性,容易產生刻板印象。建議在將GPT-4等大型語言模型應用於臨床前,務必評估和解決偏見問題。 PubMed DOI

大型語言模型如GPT-3.5-turbo和GPT-4在醫療保健領域有潛力,但可能受到訓練時的偏見影響,影響其在醫療環境中的實用性。研究指出,這些模型可能對白人族群預測較高的醫療成本和較長的住院時間,並對困難醫療情況下的存活率持過於樂觀的看法。未來需研究減少語言模型中的偏見,特別是在醫療保健領域,確保對所有患者公平且準確評估。 PubMed DOI

LLMs透過AIGC改變生活,但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見,歧視女性、黑人。ChatGPT偏見最少,且能拒絕有偏見提示。 PubMed DOI

研究人員研究了像ChatGPT這樣的大型語言模型在簡化不同種族背景患者的放射學報告中的應用。他們發現根據種族背景,可讀性分數存在顯著差異,對某些種族群體的輸出比其他人更複雜。這凸顯了確保這些模型不在醫療環境中持續種族偏見的重要性。 PubMed DOI

研究發現,人工智慧生成的推薦信對男性候選人存在性別偏見,不論候選人性別如何。撰寫推薦信時,應留意避免引入潛在偏見。 PubMed DOI

這項研究探討學術外科中的性別偏見,分析AI平台ChatGPT生成的推薦信,對比男性與女性申請升遷為副教授的候選人。研究人員創作了六封推薦信,結果顯示針對女性的信件平均較短(298字),而男性的則較長(314字)。此外,女性的推薦信強調「同情心」等特質,男性則強調「尊重」和「技能」。這些結果顯示升遷過程中的性別偏見,建議在使用AI撰寫推薦信時需謹慎。 PubMed DOI

大型語言模型(LLMs),像是GPT-3.5-turbo和GPT-4,對醫療專業人員有潛在的協助能力,但可能帶有訓練數據中的偏見,影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現,發現它們對白人族群的預測較高,且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等,強調了進一步研究的必要性,以減少語言模型中的偏見,確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

這項研究探討放射科住院醫師計畫主任對住院醫師申請者使用大型語言模型(如ChatGPT)撰寫個人陳述的看法。八位主任參加了調查和焦點小組討論,評估了五位申請者的四種不同版本的陳述。結果顯示,LLM生成的陳述質量被評為一般或更差的比例達56%,而人類撰寫的則為29%。主任們雖然對區分兩者的能力不自信,但能準確識別人類撰寫的陳述。焦點小組討論中,主任們對AI影響個人陳述的真實性和價值表示擔憂,並指出AI生成內容中申請者的聲音減弱。這項研究突顯了AI在住院醫師申請過程中的挑戰與影響。 PubMed DOI

這項研究評估了多個大型語言模型(LLMs)在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集,結果顯示GPT-4表現最佳,正確率達77.1%,其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性,GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異,但GPT-4在教育上仍具潛力,需注意其局限性。 PubMed DOI