原始文章

這項研究探討了大型語言模型(如GPT-4和Gemini)在根據病人的種族/族裔和性別建議鴉片類藥物處方的表現。研究分析了480個來自MIMIC-IV Note數據集的真實病人案例,發現曲馬多和羥考酮是最常被推薦的藥物。Gemini較GPT-4更可能將疼痛評為「嚴重」,並較晚建議使用鴉片類藥物。重要的是,這些模型的建議不受種族/族裔或性別影響,顯示出在疼痛管理上無偏見,可能成為醫生的有用工具。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)如ChatGPT可以像人一樣回應,不需要特別的訓練。研究使用ChatGPT分析HIV患者的醫療文本,觀察不同族群的電子健康記錄。結果顯示,在情感和主觀方面沒有明顯的種族偏見,但在保險類型方面有詞頻和主觀上的差異。研究指出,ChatGPT在語言和可讀性上對不同族群和保險類型都是一致的,但仍需要進一步的研究來確認。 PubMed DOI

研究發現大型語言模型在醫療系統中可能持續散播有害、不準確、種族相關的內容。四個模型在種族醫學和誤解情境下表現不一,都散播種族醫學觀念,且回應不一致。這引發對LLMs在醫療環境可能造成潛在傷害的擔憂,因為它們持續散播已被揭露的種族主義觀念。 PubMed DOI

研究比較四個大型語言模型在眼科、骨科和皮膚科領域生成醫學內容的表現,發現不同模型在治療建議的質量、準確性和安全性上有差異。GPT-3.5-Turbo最安全,Bloomz質量較差。研究強調需持續改進人工智慧工具,確保醫學建議可靠。建議引入GPT-4的自動評估機制,擴展評估範疇。 PubMed DOI

研究發現GPT-4在醫療保健領域存在種族和性別偏見問題,未能充分考慮人口多樣性,容易產生刻板印象。建議在將GPT-4等大型語言模型應用於臨床前,務必評估和解決偏見問題。 PubMed DOI

大型語言模型如GPT-3.5-turbo和GPT-4在醫療保健領域有潛力,但可能受到訓練時的偏見影響,影響其在醫療環境中的實用性。研究指出,這些模型可能對白人族群預測較高的醫療成本和較長的住院時間,並對困難醫療情況下的存活率持過於樂觀的看法。未來需研究減少語言模型中的偏見,特別是在醫療保健領域,確保對所有患者公平且準確評估。 PubMed DOI

LLMs透過AIGC改變生活,但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見,歧視女性、黑人。ChatGPT偏見最少,且能拒絕有偏見提示。 PubMed DOI

這項研究探討耳鼻喉科住院醫師選拔中,人工智慧模擬的決策是否受到人口統計偏見影響。研究使用OpenAI的GPT-4和GPT-4o模擬選拔委員會的決策,結果顯示RSC成員在種族、性別和性取向上存在偏見,特別偏好與自己相似的申請者。最新的ChatGPT-4o則顯示出對黑人女性和LGBTQIA+申請者的偏好,強調在選拔過程中需注意和減少這些偏見,以確保未來醫療人力的多樣性和代表性。 PubMed DOI

這項研究評估了幾個商業可用的大型語言模型(LLMs)在提供治療建議時,與美國骨科醫學會(AAOS)針對肩袖撕裂和前交叉韌帶(ACL)損傷的臨床指導方針(CPGs)的符合度。分析了48項CPGs,結果顯示70.3%的回應與指導方針一致,ChatGPT-4的符合率最高(79.2%),而Mistral-7B最低(58.3%)。研究指出,雖然LLMs能提供一致建議,但缺乏透明的資料來源,限制了其作為臨床支持工具的可靠性,未來應擴大評估範圍以減少偏見。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數達0.833,明顯優於基準系統的0.71,而GPT-3.5則為0.796。研究還發現,GPT-4在種族和性別偏見方面表現良好,顯示出其在臨床文本分析的潛力。 PubMed DOI

大型語言模型(LLMs),像是GPT-3.5-turbo和GPT-4,對醫療專業人員有潛在的協助能力,但可能帶有訓練數據中的偏見,影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現,發現它們對白人族群的預測較高,且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等,強調了進一步研究的必要性,以減少語言模型中的偏見,確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI