原始文章

這篇論文發現,用 Chain of Thought(CoT)提示法能讓小型語言模型在醫學問答上表現更好、更透明,特別是在 PubMedQA 資料集上效果明顯。CoT 幫助模型逐步推理,提升準確度和可解釋性。不過,遇到很專業的題目還是有困難。若結合檢索增強生成等技術,小型模型未來有機會追上大型模型。 PubMed DOI


站上相關主題文章列表

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

大型語言模型(LLMs)在醫學考試中表現出色,但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試,評估模型的信心分數和元認知任務。研究顯示,雖然模型在回答問題上表現良好,但在識別知識空白方面存在重大缺陷,經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險,因此需要改進評估框架,以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

這項研究提出了一種名為「GAPrompt」的新方法,旨在提升大型語言模型(LLMs)在自動化臨床評估中的應用,特別是針對電子健康紀錄(EHRs)中的中風評估。GAPrompt包含五個關鍵組件,包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示,GAPrompt能有效分析EHRs並提供定量評估,解決傳統中風評估的勞動密集問題,顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

這項研究探討如何利用臨床實踐指導(CPGs)來強化大型語言模型(LLMs),以改善針對 COVID-19 的門診治療決策。研究開發了三種整合 CPGs 的方法:二元決策樹、程式輔助圖形構建和思考鏈少量提示,並以零樣本提示作為基準。結果顯示,所有 LLMs 在有 CPG 增強的情況下表現優於零樣本提示,特別是二元決策樹在自動評估中表現最佳。這顯示出帶有 CPG 的 LLMs 能提供更準確的治療建議,未來應用潛力廣泛。 PubMed DOI

大型語言模型在醫療應用常有資訊過時或錯誤的問題。RAG雖能補充新資訊,但容易遺漏重點。這項研究提出BriefContext,用map-reduce方式強化RAG,無需改動模型本身,就能保留重要醫療細節。多項測試證明,BriefContext能讓LLM在醫療問答和臨床決策上更可靠、安全。 PubMed DOI

這項研究推出 Meerkat 小型醫療語言模型(7B 和 8B 參數),透過醫學教科書的高品質思路鏈資料和多元指令訓練,強化多步推理能力。Meerkat 在醫學考試和病例挑戰中表現優於其他小型模型,甚至超越人類平均分數,推理品質也獲專家肯定,同時兼顧輕量化和隱私。 PubMed DOI

開源大型語言模型(LLMs)在從放射科報告擷取標籤上,比傳統規則式工具(如 CheXpert)更準確。規模較大的 LLMs,特別在判讀困難異常(如肋骨骨折)時,敏感度更高。不同提示策略(如 chain-of-thought)效果不一。即使標籤有雜訊,用 LLM 擷取的標籤訓練影像分類器,表現仍不錯,但最終評估結果會受標註方法影響很大。因此,選對 LLM、提示方式和評估方法對醫療 AI 發展很重要。 PubMed DOI

這項研究用大型語言模型和Chain-of-Thought提示技術,自動分類病人透過入口網站發送的訊息,幫助分流、減輕醫護人員負擔。模型參考分診護理師標註,能隨工作流程調整,分類準確度也比傳統方法高。這方法彈性高、可持續優化,適用於各種臨床文件處理,有助提升回應速度與安全性,減少醫護壓力。 PubMed

這項研究評估多種大型語言模型,利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示,大型且專業化的模型在基本資訊擷取表現最好,但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助,顯示LLMs自動化醫療文本分析有潛力,但還需改進。 PubMed DOI

這項研究發現,不同Chain-of-Thought(CoT)提示方法對大型語言模型在醫學推理上的表現差異不大,簡單的CoT提示效果就很好。模型本身和資料集特性對準確率影響更大。以臨床紀錄為主的任務中,o1-mini模型表現最佳。總結來說,臨床決策應用上,建議優先採用簡單的CoT方法。 PubMed DOI