OpenMedLM: prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models.
OpenMedLM: 在醫學問答中，prompt engineering 可以優於對開源大型語言模型進行微調。 Sci Rep 2024-06-19

OpenMedLM是一個開源的醫學語言模型，在醫學基準測試中表現優異，且無需大量微調。透過提示策略，OpenMedLM在三個醫學語言模型基準測試中取得領先地位，超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力，同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning.
CLEFT：結合高效大型語言模型與提示微調的語言-影像對比學習。 Med Image Comput Comput Assist Interv 2025-01-10

最近的研究顯示，對比語言-圖像預訓練（CLIP）在多項任務中表現優異，但傳統方法需大量GPU資源，對醫療應用造成限制。為了解決這些問題，我們提出了一種新方法，稱為CLEFT，結合高效的大型語言模型與提示微調。這種方法縮小了臨床數據與簡單標籤之間的差距，並在胸部X光和乳腺攝影等數據集上達到最先進的性能。更重要的是，我們的框架將可訓練模型大小減少39%，使其在醫療應用中更具實用性。 PubMed DOI

Virtual patients using large language models: Scalable, contextualized simulation of clinician-patient dialog with feedback.
使用大型語言模型的虛擬病人：可擴展的、具情境化的臨床醫生-病人對話模擬及反饋。 J Med Internet Res 2025-01-24

這項研究顯示大型語言模型（LLMs）在創建虛擬病人（VPs）方面的潛力，能模擬病人與醫師的互動。研究使用OpenAI的GPT模型生成60個針對慢性咳嗽和糖尿病的對話，並評估其真實性和使用者體驗。主要發現包括： 1. **成本效益**：每次對話成本低，具可擴展性。 2. **對話真實性**：評分高，顯示對話現實且有用。 3. **病人偏好**：大多數對話符合病人預期。 4. **模型比較**：GPT-4.0-turbo表現優於GPT-3.5-turbo。 5. **反饋相似性**：醫師與LLM的評分相似。 6. **缺陷識別**：某些特徵影響真實性。 7. **工具驗證**：確認測量工具的可靠性。總體而言，LLM生成的虛擬病人能有效模擬臨床互動，具成本效益，建議進一步研究以提升對話質量。 PubMed DOI

Comprehensive testing of large language models for extraction of structured data in pathology.
大型語言模型在病理學中結構化數據提取的綜合測試。 Commun Med (Lond) 2025-03-31

病理科部門產生大量非結構化數據，主要以自由文本的診斷報告形式存在，轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務，但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集，評估了六個語言模型的提取能力。研究顯示，開源模型在提取結構化數據方面的精度與專有模型相當，且具成本效益和隱私保護潛力，為醫療機構提供了重要見解。 PubMed DOI

Diagnostic performance of multimodal large language models in radiological quiz cases: the effects of prompt engineering and input conditions.
多模態大型語言模型於放射學問答案例中的診斷表現：提示工程與輸入條件的影響 Ultrasonography 2025-04-16

這項研究比較三款多模態大型語言模型在解讀放射影像的表現，發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字，都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說，善用提示工程和豐富輸入資料，有助提升 LLMs 在放射科的應用效能。 PubMed DOI

Multimodal LLMs for retinal disease diagnosis via OCT: few-shot versus single-shot learning.
利用多模態大型語言模型（LLMs）透過OCT進行視網膜疾病診斷：少量學習（few-shot）與單次學習（single-shot）的比較 Ther Adv Ophthalmol 2025-05-22

這項研究發現，GPT-4o 和 Claude Sonnet 3.5 這兩款AI模型，經過少量範例訓練後，診斷OCT影像的準確率最高可達73%。雖然還不如專業深度學習模型，但在日常眼科診斷、特別是判斷正常個案時，已展現輔助潛力。未來需更多研究結合影像和臨床資料來提升表現。 PubMed DOI

Enhancing gastroenterology with multimodal learning: the role of large language model chatbots in digestive endoscopy.
以多模態學習提升腸胃科：大型語言模型聊天機器人在消化內視鏡的角色 Front Med (Lausanne) 2025-06-05

這項研究提出一套結合大型語言模型、內視鏡影像和病患資料的AI系統，能即時輔助醫師判讀、偵測病灶並自動產生報告。透過自我監督和領域自適應學習，系統提升了診斷準確率和一致性，強化醫師與AI的合作，展現多模態AI在內視鏡檢查上的應用潛力。 PubMed DOI

BioMistral-NLU: Towards More Generalizable Medical Language Understanding through Instruction Tuning.
BioMistral-NLU：透過指令微調邁向更具泛化能力的醫學語言理解 AMIA Jt Summits Transl Sci Proc 2025-06-12

作者針對大型語言模型在醫療自然語言理解表現不佳，提出統一提示格式、多元醫療指令微調資料集，並以BioMistral微調成BioMistral-NLU。該模型在零樣本下於多項醫療NLU基準測試勝過原始BioMistral及ChatGPT、GPT-4等，證明多元任務指令微調能有效提升泛化能力。 PubMed

Medical Knowledge Intervention Prompt Tuning for Medical Image Classification.
用於醫學影像分類的醫學知識介入提示微調 IEEE Trans Med Imaging 2025-07-01

這篇論文提出CILMP方法，結合大型語言模型產生的專業醫學知識，來客製化醫學影像分類模型的提示語。CILMP能根據不同疾病和影像自動調整提示語，讓視覺-語言模型在多種醫學影像分類任務上表現更好，效果也比現有方法優秀。 PubMed DOI

Specialized curricula for training vision language models in retinal image analysis.
視網膜影像分析中訓練視覺語言模型的專業課程設計 NPJ Digit Med 2025-08-19

現有像ChatGPT-4o這類AI模型，在診斷老年性黃斑部病變時，表現還是比不上眼科醫師。不過，研究團隊透過專門設計的訓練課程，開發出RetinaVLM-Specialist，讓它在分期和轉診上表現已經追上資淺醫師，甚至比其他AI更準確。專家也認同這種課程式訓練，能讓AI更貼近臨床需求。 PubMed DOI

原始文章

站上相關主題文章列表