OpenMedLM: prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models.
OpenMedLM: 在醫學問答中，prompt engineering 可以優於對開源大型語言模型進行微調。 Sci Rep 2024-06-19

OpenMedLM是一個開源的醫學語言模型，在醫學基準測試中表現優異，且無需大量微調。透過提示策略，OpenMedLM在三個醫學語言模型基準測試中取得領先地位，超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力，同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

Evaluation of LLMs accuracy and consistency in the registered dietitian exam through prompt engineering and knowledge retrieval.
透過提示工程和知識檢索評估大型語言模型在註冊營養師考試中的準確性和一致性。 Sci Rep 2025-01-09

這篇論文探討了大型語言模型（LLMs）在營養與飲食應用中的表現，特別是針對註冊營養師（RD）考試的1050道問題。研究比較了GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的準確性與一致性，並分析了不同提示技術的效果。結果顯示，GPT-4o在使用帶自我一致性的思考鏈（CoT-SC）時表現最佳，而Gemini 1.5 Pro在零提示（ZS）下則展現最高一致性。研究強調選擇合適的LLM和提示策略對減少錯誤風險的重要性。 PubMed DOI

Empowering large language models for automated clinical assessment with generation-augmented retrieval and hierarchical chain-of-thought.
利用生成增強檢索和分層思維鏈來提升大型語言模型的自動臨床評估能力。 Artif Intell Med 2025-02-20

這項研究提出了一種名為「GAPrompt」的新方法，旨在提升大型語言模型（LLMs）在自動化臨床評估中的應用，特別是針對電子健康紀錄（EHRs）中的中風評估。GAPrompt包含五個關鍵組件，包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示，GAPrompt能有效分析EHRs並提供定量評估，解決傳統中風評估的勞動密集問題，顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

Role of Model Size and Prompting Strategies in Extracting Labels from Free-Text Radiology Reports with Open-Source Large Language Models.
開源大型語言模型在從自由文本放射學報告中擷取標籤時，模型規模與提示策略的角色 J Imaging Inform Med 2025-05-05

開源大型語言模型（LLMs）在從放射科報告擷取標籤上，比傳統規則式工具（如 CheXpert）更準確。規模較大的 LLMs，特別在判讀困難異常（如肋骨骨折）時，敏感度更高。不同提示策略（如 chain-of-thought）效果不一。即使標籤有雜訊，用 LLM 擷取的標籤訓練影像分類器，表現仍不錯，但最終評估結果會受標註方法影響很大。因此，選對 LLM、提示方式和評估方法對醫療 AI 發展很重要。 PubMed DOI

Cross-Institutional Evaluation of Large Language Models for Radiology Diagnosis Extraction: A Prompt-Engineering Perspective.
跨機構評估大型語言模型於放射診斷萃取之表現：以提示工程觀點分析 J Imaging Inform Med 2025-05-09

這項研究用標準化、針對人類優化的提示語，讓大型語言模型標註六家醫院的放射科報告，結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語，LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

Chain of Thought Strategy for Smaller LLMs for Medical Reasoning.
用於醫學推理之較小型LLM的Chain of Thought策略 Stud Health Technol Inform 2025-05-17

這篇論文發現，用 Chain of Thought（CoT）提示法能讓小型語言模型在醫學問答上表現更好、更透明，特別是在 PubMedQA 資料集上效果明顯。CoT 幫助模型逐步推理，提升準確度和可解釋性。不過，遇到很專業的題目還是有困難。若結合檢索增強生成等技術，小型模型未來有機會追上大型模型。 PubMed DOI

Evaluating performance of large language models for atrial fibrillation management using different prompting strategies and languages.
使用不同提示策略與語言評估大型語言模型於心房顫動管理的表現 Sci Rep 2025-05-30

這項研究針對2024年ESC心房顫動指引，測試三款大型語言模型（ChatGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro），發現它們在指引一致性上表現中等到高，Claude 3.5 Sonnet用思路鏈提問法時最好（60.3%）。中英文表現差不多，但LLM常建議比指引更積極的治療。建議臨床使用時多問幾次、用不同問法，並持續評估模型表現。 PubMed DOI

Prompting Pro Tips! Best Practices for Generating Clinical Narrative Summaries.
臨床敘述摘要撰寫技巧！產生臨床敘述摘要的最佳實務指南 Mil Med 2025-05-31

這項研究發現，用結構化提示雖然能讓八款大型語言模型產生更貼近臨床需求的摘要，但也更容易出現錯誤和偏誤。沒有任何模型能穩定產出臨床可用的摘要，因此各機構還是要自行把關，確保摘要內容正確無誤。 PubMed DOI

Performance of large language models on family medicine licensing exams.
大型語言模型在家庭醫學執照考試中的表現 Fam Pract 2025-06-09

這項研究發現，多款主流大型語言模型在以色列基層醫療執照考試中表現不錯，尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%，解釋也多半正確有邏輯，但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力，但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI

Evaluating large language models for information extraction from gastroscopy and colonoscopy reports through multi-strategy prompting.
透過多策略提示評估大型語言模型於胃鏡與大腸鏡報告資訊擷取的表現 J Biomed Inform 2025-06-12

這項研究評估多種大型語言模型，利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示，大型且專業化的模型在基本資訊擷取表現最好，但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助，顯示LLMs自動化醫療文本分析有潛力，但還需改進。 PubMed DOI

原始文章

站上相關主題文章列表