原始文章

大型語言模型(LLMs)在臨床環境中有潛力,但在提供可靠的預測概率上常遇挑戰,這對透明度和知情決策很重要。研究顯示,明確提示生成的概率在六個開源LLMs和五個醫療數據集上表現不如隱含概率,尤其在小型LLMs和不平衡數據集上更明顯。這強調了謹慎解讀結果的必要性,並呼籲開發更好的概率估計方法及進一步研究,以提升LLMs在臨床應用的可行性。 PubMed DOI


站上相關主題文章列表

研究發現,透過診斷提示,GPT-4能夠模擬臨床醫師的診斷過程並保持準確性。這對醫師理解並信任LLMs的回應很重要,有助於克服「黑盒子」問題,提升LLMs在醫學實踐中的安全性與效益。 PubMed DOI

大型語言模型(LLMs)是訓練在大量文本資料上的先進人工智慧模型,目的是模擬人類的表現。在醫療保健領域中,LLMs的應用越來越廣泛,用來回答醫學問題和生成臨床報告等任務。LLM公司與醫療系統的合作將這些模型帶入更貼近真實臨床應用的領域。醫療保健提供者需要了解LLMs的發展、應用以及在醫療環境中可能面臨的挑戰。這篇文章旨在教育醫療專業人士有關醫學中的LLMs,包括了它們在目前景觀中的應用以及未來在醫療領域的改進。 PubMed DOI

研究探討利用語言模型強化電子健康記錄的風險預測。提出兩種新方法「LLaMA2-EHR」和「Sent-e-Med」,利用病歷文本預測診斷結果,表現優於先前方法,特點是少量樣本學習和適應醫學詞彙。但結果受提示影響,語言模型安全問題尚待解決,建議謹慎使用。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

這項研究探討了使用生成性大型語言模型(LLMs)來自動化醫學研究中的偏見風險評估(RoB)。研究發現,LLMs在新整理的測試數據集上的表現不如預期,F1分數僅在0.1到0.2之間,與簡單基準相似,顯示其在RoB2預測任務中的效能有限。即使在分解任務中,表現也不佳,遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI

大型語言模型(LLMs)有潛力顯著改變臨床醫學,能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過,這些模型的有效運用需謹慎設計提示,以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念,以及運用策略性提示技術,對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解,能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 PubMed DOI

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),Mistral-7B-Instruct 和 Llama3-70B-chat-hf,使用660名患者的電子健康紀錄來預測敗血症、心律不整和充血性心臟衰竭等病症的診斷機率。結果顯示,傳統的極端梯度提升(XGB)分類器在所有任務中表現優於LLMs。雖然LLM嵌入+XGB的表現接近XGB,但口頭信心和標記對數的效果較差。研究建議未來應結合LLMs與數值推理,以提升診斷準確性,並強調目前LLMs在臨床應用上仍需改進。 PubMed DOI

大型語言模型(LLMs)在醫學考試中表現出色,但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試,評估模型的信心分數和元認知任務。研究顯示,雖然模型在回答問題上表現良好,但在識別知識空白方面存在重大缺陷,經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險,因此需要改進評估框架,以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI