原始文章

這項研究發現,不同Chain-of-Thought(CoT)提示方法對大型語言模型在醫學推理上的表現差異不大,簡單的CoT提示效果就很好。模型本身和資料集特性對準確率影響更大。以臨床紀錄為主的任務中,o1-mini模型表現最佳。總結來說,臨床決策應用上,建議優先採用簡單的CoT方法。 PubMed DOI


站上相關主題文章列表

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

這篇論文探討了大型語言模型(LLMs)在營養與飲食應用中的表現,特別是針對註冊營養師(RD)考試的1050道問題。研究比較了GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的準確性與一致性,並分析了不同提示技術的效果。結果顯示,GPT-4o在使用帶自我一致性的思考鏈(CoT-SC)時表現最佳,而Gemini 1.5 Pro在零提示(ZS)下則展現最高一致性。研究強調選擇合適的LLM和提示策略對減少錯誤風險的重要性。 PubMed DOI

這項研究提出了一種名為「GAPrompt」的新方法,旨在提升大型語言模型(LLMs)在自動化臨床評估中的應用,特別是針對電子健康紀錄(EHRs)中的中風評估。GAPrompt包含五個關鍵組件,包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示,GAPrompt能有效分析EHRs並提供定量評估,解決傳統中風評估的勞動密集問題,顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

開源大型語言模型(LLMs)在從放射科報告擷取標籤上,比傳統規則式工具(如 CheXpert)更準確。規模較大的 LLMs,特別在判讀困難異常(如肋骨骨折)時,敏感度更高。不同提示策略(如 chain-of-thought)效果不一。即使標籤有雜訊,用 LLM 擷取的標籤訓練影像分類器,表現仍不錯,但最終評估結果會受標註方法影響很大。因此,選對 LLM、提示方式和評估方法對醫療 AI 發展很重要。 PubMed DOI

這項研究用標準化、針對人類優化的提示語,讓大型語言模型標註六家醫院的放射科報告,結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語,LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

這篇論文發現,用 Chain of Thought(CoT)提示法能讓小型語言模型在醫學問答上表現更好、更透明,特別是在 PubMedQA 資料集上效果明顯。CoT 幫助模型逐步推理,提升準確度和可解釋性。不過,遇到很專業的題目還是有困難。若結合檢索增強生成等技術,小型模型未來有機會追上大型模型。 PubMed DOI

這項研究針對2024年ESC心房顫動指引,測試三款大型語言模型(ChatGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro),發現它們在指引一致性上表現中等到高,Claude 3.5 Sonnet用思路鏈提問法時最好(60.3%)。中英文表現差不多,但LLM常建議比指引更積極的治療。建議臨床使用時多問幾次、用不同問法,並持續評估模型表現。 PubMed DOI

這項研究發現,用結構化提示雖然能讓八款大型語言模型產生更貼近臨床需求的摘要,但也更容易出現錯誤和偏誤。沒有任何模型能穩定產出臨床可用的摘要,因此各機構還是要自行把關,確保摘要內容正確無誤。 PubMed DOI

這項研究發現,多款主流大型語言模型在以色列基層醫療執照考試中表現不錯,尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%,解釋也多半正確有邏輯,但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力,但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI

這項研究評估多種大型語言模型,利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示,大型且專業化的模型在基本資訊擷取表現最好,但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助,顯示LLMs自動化醫療文本分析有潛力,但還需改進。 PubMed DOI