OpenMedLM: prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models.
OpenMedLM: 在醫學問答中，prompt engineering 可以優於對開源大型語言模型進行微調。 Sci Rep 2024-06-19

OpenMedLM是一個開源的醫學語言模型，在醫學基準測試中表現優異，且無需大量微調。透過提示策略，OpenMedLM在三個醫學語言模型基準測試中取得領先地位，超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力，同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

Large Language Model Prompting Techniques for Advancement in Clinical Medicine.
臨床醫學進步的大型語言模型提示技術。 J Clin Med 2024-09-14

大型語言模型（LLMs）有潛力顯著改變臨床醫學，能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過，這些模型的有效運用需謹慎設計提示，以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念，以及運用策略性提示技術，對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解，能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

Enhancing Clinical Accuracy of Medical Chatbots with Large Language Models.
利用大型語言模型提升醫療聊天機器人的臨床準確性。 IEEE J Biomed Health Inform 2024-09-27

這篇論文探討大型語言模型（LLMs）的進展，特別是在醫療領域的應用，像是開發專注於臨床準確性的醫療聊天機器人和虛擬助手。文中介紹了一個新型的多輪對話模型，具備以下創新特點： 1. **層正規化調整**：改善訓練的穩定性。 2. **上下文滑動窗口回覆預測**：更好地捕捉對話上下文。 3. **局部關鍵信息提煉**：提升回覆質量。該模型在MIMIC-III和n2c2數據集上測試，顯示出顯著的改進，能有效支持患者和醫療提供者。 PubMed DOI

Exploring the effectiveness of instruction tuning in biomedical language processing.
探索指令調整在生物醫學語言處理中的有效性。 Artif Intell Med 2024-11-14

這項研究探討如何透過指令調整來提升大型語言模型（LLMs）在生物醫學自然語言處理任務的表現，像是命名實體識別（NER）、關係提取（RE）和醫學自然語言推理（NLI）。研究團隊使用約20萬個專注於指令的樣本來訓練模型，目的是達到與BioBERT和BioClinicalBERT等專門模型相當的效果。他們還分析了數據集的組成對模型表現的影響，並希望分享研究結果、代碼和模型，以促進該領域的進一步發展。 PubMed DOI

Me-LLaMA: Medical Foundation Large Language Models for Comprehensive Text Analysis and Beyond.
Me-LLaMA: 醫學基礎大型語言模型的綜合文本分析及其他應用。 Res Sq 2025-01-07

最近大型語言模型（LLMs）如ChatGPT和LLaMA在醫療應用上展現潛力，但因缺乏專業醫學知識，效果有限。為此，本研究推出Me-LLaMA，一系列開源醫療LLM，整合專業知識與指令遵循能力。Me-LLaMA經過大量生物醫學文獻訓練，並在六個醫療文本分析任務中表現優於LLaMA及其他開源醫療LLM，甚至在多數任務中超越ChatGPT和GPT-4。研究強調持續預訓練與指令調整的重要性，並希望透過公開資源促進醫療AI的發展。 PubMed DOI

Demystifying Large Language Models for Medicine: A Primer.
醫學領域大型語言模型的解密：入門指南。 ArXiv 2025-01-13

這篇文章介紹了一個結構化的方法，幫助醫療專業人員有效運用大型語言模型（LLMs）。重點在於LLMs在臨床文檔和病人試驗匹配等醫療任務中的潛力。方法包括五個關鍵步驟： 1. **任務制定**：找出適合LLM的醫療任務。 2. **選擇LLMs**：根據需求選擇合適的模型。 3. **提示工程**：設計有效的提示來引導回應。 4. **微調**：調整LLMs以符合醫療應用。 5. **部署**：考慮法規、倫理及持續監測公平性。目的是提供醫療人員安全有效整合LLMs的指導。 PubMed DOI

Towards evaluating and building versatile large language models for medicine.
朝向評估與建構多功能大型語言模型於醫學領域。 NPJ Digit Med 2025-01-26

這項研究介紹了 MedS-Bench，旨在評估大型語言模型（LLMs）在臨床環境中的表現，涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM，發現它們在面對這些任務時表現不佳。為了解決這些問題，我們創建了 MedS-Ins，這是一個針對醫療應用的大規模指令調整數據集，包含58個醫療語料庫和500萬個實例。透過實驗，我們展示了該數據集的有效性，並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins，並鼓勵研究社群參與進一步發展。 PubMed DOI

Medical foundation large language models for comprehensive text analysis and beyond.
醫學基礎大型語言模型在全面文本分析及其他領域的應用。 NPJ Digit Med 2025-03-05

最近大型語言模型（LLMs）在醫療應用上展現潛力，但通常缺乏專業醫學知識。為了解決這個問題，我們推出了Me-LLaMA，這是一系列開源的醫療LLMs，結合了專業知識與強大的指令遵循能力。Me-LLaMA透過持續預訓練和指令調整，利用生物醫學和臨床數據進行開發。我們在六個文本分析任務中評估Me-LLaMA，結果顯示其在診斷複雜病例方面的表現優於現有的開放醫療LLMs，並且在大多數任務中超越了ChatGPT和GPT-4。這強調了持續預訓練與指令調整結合的重要性，以提升醫療LLMs的效能。 PubMed DOI

Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。 J Am Med Inform Assoc 2025-04-07

這項研究評估了生物醫學調整的大型語言模型（LLMs）在臨床任務中的表現，與通用模型相比。研究發現，生物醫學LLMs的表現通常不如通用模型，尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似，但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念，建議探索其他策略，如檢索增強生成，以更有效地整合LLMs進入臨床環境。 PubMed DOI

Enhancing Cross-Domain Generalizability in Social Determinants of Health Extraction with Prompt-Tuning Large Language Models.
利用提示微調大型語言模型提升社會健康決定因素萃取的跨領域泛化能力 AMIA Jt Summits Transl Sci Proc 2025-06-12

這項研究發現，結合 soft prompt-based learning 和大型語言模型（像 GatorTronGPT），能大幅提升從不同醫院和疾病的臨床文本中萃取社會健康決定因素（SDoH）的效果。經過 prompt-tuning 的 GatorTronGPT，F1 分數最高比傳統 fine-tuned 模型多出 21.8%，顯示它在跨領域應用上表現更好。 PubMed

原始文章

站上相關主題文章列表