OpenMedLM: prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models.
OpenMedLM: 在醫學問答中，prompt engineering 可以優於對開源大型語言模型進行微調。 Sci Rep 2024-06-19

OpenMedLM是一個開源的醫學語言模型，在醫學基準測試中表現優異，且無需大量微調。透過提示策略，OpenMedLM在三個醫學語言模型基準測試中取得領先地位，超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力，同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

Large Language Models in Traditional Chinese Medicine: A Scoping Review.
傳統中醫中的大型語言模型：範疇回顧。 J Evid Based Med 2024-12-09

大型語言模型（LLMs）在醫學領域的應用越來越受到重視，但在中醫方面的研究仍然有限。本研究回顧了29項相關研究，發現LLMs在知識提取和輔助診斷方面有潛力。專為中醫設計的模型在執業醫師考試中達到70%的準確率，而通用模型則為60%。不過，LLMs在中醫應用上仍面臨數據質量、安全性及中醫特有的複雜性等挑戰。未來應著重於跨學科訓練和數據標準化等方向。 PubMed DOI

Empowering large language models for automated clinical assessment with generation-augmented retrieval and hierarchical chain-of-thought.
利用生成增強檢索和分層思維鏈來提升大型語言模型的自動臨床評估能力。 Artif Intell Med 2025-02-20

這項研究提出了一種名為「GAPrompt」的新方法，旨在提升大型語言模型（LLMs）在自動化臨床評估中的應用，特別是針對電子健康紀錄（EHRs）中的中風評估。GAPrompt包含五個關鍵組件，包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示，GAPrompt能有效分析EHRs並提供定量評估，解決傳統中風評估的勞動密集問題，顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

Prompts to Table: Specification and Iterative Refinement for Clinical Information Extraction with Large Language Models.
使用大型語言模型進行臨床信息提取的提示到表格：規範與迭代精煉。 medRxiv 2025-02-24

從自由文本醫療紀錄中提取結構化數據，特別是病理報告，面臨不少挑戰。傳統方法因醫療語言複雜而困難重重。這項研究開發了一個端到端的LLM管道，能有效提取病理報告中的診斷、解剖部位等元素。透過人機協作，我們將重大錯誤率降至0.99%。在3520份報告中，識別腎腫瘤亞型的F1分數達0.99，顯示LLM提取管道在良好指示下可達接近專家準確性，並可應用於其他臨床信息提取任務。 PubMed DOI

LLM-based kidney disease diagnostic framework for Pathologists.
基於 LLM 的腎臟疾病診斷框架供病理學家使用。 Annu Int Conf IEEE Eng Med Biol Soc 2025-03-05

大型語言模型正在改變醫療領域，特別是在臨床決策支持和資訊提取方面。這些模型的語言理解能力幫助病理學家從知識庫中檢索準確資訊以進行診斷。我們提出了一個框架，結合檢索增強生成技術與提示工程，並提供了涵蓋腎臟疾病的臨床數據語料庫。透過多樣的提示技術，模型在疾病診斷的表現顯著提升，特別是在上下文相關性上獲得完美的1.0分，顯示出優秀的對話對齊能力。 PubMed DOI

Prompting large language models to extract chemical‒disease relation precisely and comprehensively at the document level: an evaluation study.
在文件層面精確且全面地引導大型語言模型提取化學‒疾病關係：一項評估研究。 PLoS One 2025-04-08

這項研究探討大型語言模型（LLMs），如GPT-3.5、GPT-4.0和Claude-opus，在化學與疾病關係提取中的挑戰，特別是標註數據不足的情況。研究發現，這些模型在精確提取上達87%的F1分數，但全面提取僅73%。模型在提示工程上的改進有限，且對正向關係的識別較佳。提取錯誤多因模型誤解生物醫學文本的隱含意義。最後，研究提供了增強提取任務的工作流程，並強調優化訓練數據的重要性。 PubMed DOI

Medical short text classification via Soft Prompt-tuning.
透過 Soft Prompt-tuning 進行醫學短文本分類 Front Med (Lausanne) 2025-04-29

這篇論文提出一種全新的 soft prompt-tuning 方法，專門用來分類醫療短文本，像是對話紀錄或線上諮詢。透過自動產生模板和擴充標籤詞彙，能更精準處理醫療術語和複雜單位。實驗證明，這方法不只提升分類準確率，也讓結果更容易理解，有效解決醫療短文本分類的難題。 PubMed DOI

Cross-Institutional Evaluation of Large Language Models for Radiology Diagnosis Extraction: A Prompt-Engineering Perspective.
跨機構評估大型語言模型於放射診斷萃取之表現：以提示工程觀點分析 J Imaging Inform Med 2025-05-09

這項研究用標準化、針對人類優化的提示語，讓大型語言模型標註六家醫院的放射科報告，結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語，LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

End-to-end Chinese clinical event extraction based on large language model.
基於大型語言模型的端到端中文臨床事件擷取 Sci Rep 2025-05-15

這篇論文提出 LMCEE 方法，把大型語言模型和 prompt learning 結合來擷取臨床事件，F1 分數明顯勝過傳統和舊有生成式方法。不過，LMCEE 的效果很依賴 prompt 設計和 LLM 選擇，還有進步空間。 PubMed DOI

Evaluating large language models for information extraction from gastroscopy and colonoscopy reports through multi-strategy prompting.
透過多策略提示評估大型語言模型於胃鏡與大腸鏡報告資訊擷取的表現 J Biomed Inform 2025-06-12

這項研究評估多種大型語言模型，利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示，大型且專業化的模型在基本資訊擷取表現最好，但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助，顯示LLMs自動化醫療文本分析有潛力，但還需改進。 PubMed DOI

原始文章

站上相關主題文章列表