原始文章

這篇論文發現,用 Chain of Thought(CoT)提示法能讓小型語言模型在醫學問答上表現更好、更透明,特別是在 PubMedQA 資料集上效果明顯。CoT 幫助模型逐步推理,提升準確度和可解釋性。不過,遇到很專業的題目還是有困難。若結合檢索增強生成等技術,小型模型未來有機會追上大型模型。 PubMed DOI


站上相關主題文章列表

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

研究探討如何用大型語言模型提升醫學問答,並引入新方法「集成推理」。結果顯示此方法在回答醫學問題時有提升。集成推理在各種問題上表現優異,有助提升語言模型性能,特別是在使用較弱模型時。研究也強調結合人工智能和人類以提升推理能力的重要性。 PubMed DOI

這項研究評估了不同提示技術對GPT-3.5在回答美國醫學執照考試(USMLE)第一階段考題的影響。研究分析了1000個GPT-4生成的問題和95個真實考題,結果顯示各種提示類型的準確性差異不大,直接提示成功率為61.7%,思考鏈為62.8%,修改版思考鏈為57.4%。所有p值均高於0.05,顯示無顯著差異。結論認為,思考鏈提示並未顯著提升GPT-3.5的醫學問題處理能力,顯示人工智慧工具可有效融入醫學教育中,無需複雜提示策略。 PubMed DOI

大型語言模型(LLMs)有潛力顯著改變臨床醫學,能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過,這些模型的有效運用需謹慎設計提示,以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念,以及運用策略性提示技術,對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解,能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

這項研究探討不同提示策略如何提升大型語言模型(LLMs)在醫療診斷中的表現,特別是針對322道放射科診斷請求的測驗問題。研究比較了三種方法:基準的零-shot思考鏈、兩步驟結構化方法,以及僅使用LLM生成的摘要。結果顯示,兩步驟方法的準確率達60.6%,明顯優於基準(56.5%)和摘要方法(56.3%)。整體來看,結構化的臨床推理方法能有效提升LLMs的診斷準確性,顯示其在臨床應用上的潛力。 PubMed DOI

大型語言模型(LLMs)在醫學考試中表現出色,但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試,評估模型的信心分數和元認知任務。研究顯示,雖然模型在回答問題上表現良好,但在識別知識空白方面存在重大缺陷,經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險,因此需要改進評估框架,以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

這項研究提出了一種名為「GAPrompt」的新方法,旨在提升大型語言模型(LLMs)在自動化臨床評估中的應用,特別是針對電子健康紀錄(EHRs)中的中風評估。GAPrompt包含五個關鍵組件,包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示,GAPrompt能有效分析EHRs並提供定量評估,解決傳統中風評估的勞動密集問題,顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

這項研究推出 Meerkat 小型醫療語言模型(7B 和 8B 參數),透過醫學教科書的高品質思路鏈資料和多元指令訓練,強化多步推理能力。Meerkat 在醫學考試和病例挑戰中表現優於其他小型模型,甚至超越人類平均分數,推理品質也獲專家肯定,同時兼顧輕量化和隱私。 PubMed DOI

這項研究用大型語言模型和Chain-of-Thought提示技術,自動分類病人透過入口網站發送的訊息,幫助分流、減輕醫護人員負擔。模型參考分診護理師標註,能隨工作流程調整,分類準確度也比傳統方法高。這方法彈性高、可持續優化,適用於各種臨床文件處理,有助提升回應速度與安全性,減少醫護壓力。 PubMed

這項研究評估多種大型語言模型,利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示,大型且專業化的模型在基本資訊擷取表現最好,但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助,顯示LLMs自動化醫療文本分析有潛力,但還需改進。 PubMed DOI