原始文章

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 PubMed DOI


站上相關主題文章列表

大型語言模型如GPT-3.5-turbo和GPT-4在醫療保健領域有潛力,但可能受到訓練時的偏見影響,影響其在醫療環境中的實用性。研究指出,這些模型可能對白人族群預測較高的醫療成本和較長的住院時間,並對困難醫療情況下的存活率持過於樂觀的看法。未來需研究減少語言模型中的偏見,特別是在醫療保健領域,確保對所有患者公平且準確評估。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

這項研究探討了使用生成性大型語言模型(LLMs)來自動化醫學研究中的偏見風險評估(RoB)。研究發現,LLMs在新整理的測試數據集上的表現不如預期,F1分數僅在0.1到0.2之間,與簡單基準相似,顯示其在RoB2預測任務中的效能有限。即使在分解任務中,表現也不佳,遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI

大型語言模型(LLMs),像是GPT-3.5-turbo和GPT-4,對醫療專業人員有潛在的協助能力,但可能帶有訓練數據中的偏見,影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現,發現它們對白人族群的預測較高,且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等,強調了進一步研究的必要性,以減少語言模型中的偏見,確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

大型語言模型(LLMs)在滿足健康資訊需求上有潛力,但也可能加劇健康不平等。本研究針對Med-PaLM 2模型,提供識別醫療答案中偏見的資源與方法,並提出一個評估框架及七個對抗性查詢的數據集EquityMedQA。研究強調多樣化評估策略的重要性,並呼籲來自不同背景的評審者參與。雖然無法完全確定AI系統是否促進公平健康結果,但此方法旨在增強可及性與公平醫療。 PubMed DOI

臨床決策中的認知偏誤可能導致誤診和病人不良結果。本研究探討大型語言模型(LLMs)如何透過多代理框架來減少這些偏誤。研究人員模擬臨床決策,創建不同角色的代理進行對話,以提高診斷準確性。分析16個因認知偏誤而誤診的案例,測試各種代理組合。使用GPT-4的代理包括決策者、挑戰偏誤的魔鬼代言人等。結果顯示,初始診斷準確率為0%,但經過討論後,最佳框架的準確率提升至76%。這顯示LLM驅動的對話在醫療情境中具潛力。 PubMed DOI

大型語言模型(LLMs)在臨床環境中有潛力,但在提供可靠的預測概率上常遇挑戰,這對透明度和知情決策很重要。研究顯示,明確提示生成的概率在六個開源LLMs和五個醫療數據集上表現不如隱含概率,尤其在小型LLMs和不平衡數據集上更明顯。這強調了謹慎解讀結果的必要性,並呼籲開發更好的概率估計方法及進一步研究,以提升LLMs在臨床應用的可行性。 PubMed DOI

這項研究探討生成式人工智慧,特別是大型語言模型(LLMs)在醫療上解決憂鬱症問題的效果。透過分析BioGPT、PMC-Llama、GPT-3.5和Llama2等模型的回應,並使用PubMedQA和QuoraQA數據集,結果顯示最新的模型,尤其是GPT-3.5和Llama2,在生成醫療回應方面表現優異。研究指出,升級一般的LLMs可能比專門微調的模型更能產生生物醫學知識,目的是提升AI驅動的醫療諮詢系統,特別是在心理健康領域的應用。 PubMed DOI

大型語言模型(LLMs)在醫學考試中表現出色,但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試,評估模型的信心分數和元認知任務。研究顯示,雖然模型在回答問題上表現良好,但在識別知識空白方面存在重大缺陷,經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險,因此需要改進評估框架,以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在醫療領域中所引發的人口統計偏見,並強調了相關的擔憂。從2018年到2024年,分析了24項研究,發現91.7%的研究識別出偏見,性別偏見最為普遍(93.7%),種族或民族偏見也高達90.9%。雖然偏見檢測有所改善,但有效的減緩策略仍在開發中。隨著LLMs在醫療決策中的重要性上升,解決這些偏見對建立公平的人工智慧系統至關重要。未來研究應考慮更廣泛的人口因素及非西方文化背景。 PubMed DOI