OpenMedLM: prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models.
OpenMedLM: 在醫學問答中，prompt engineering 可以優於對開源大型語言模型進行微調。 Sci Rep 2024-06-19

OpenMedLM是一個開源的醫學語言模型，在醫學基準測試中表現優異，且無需大量微調。透過提示策略，OpenMedLM在三個醫學語言模型基準測試中取得領先地位，超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力，同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

Reasoning with large language models for medical question answering.
運用大型語言模型進行醫學問答的推理。 J Am Med Inform Assoc 2024-07-03

研究探討如何用大型語言模型提升醫學問答，並引入新方法「集成推理」。結果顯示此方法在回答醫學問題時有提升。集成推理在各種問題上表現優異，有助提升語言模型性能，特別是在使用較弱模型時。研究也強調結合人工智能和人類以提升推理能力的重要性。 PubMed DOI

Evaluating prompt engineering on GPT-3.5's performance in USMLE-style medical calculations and clinical scenarios generated by GPT-4.
評估提示工程對 GPT-3.5 在 USMLE 風格醫學計算和由 GPT-4 生成的臨床情境中的表現。 Sci Rep 2024-07-28

這項研究評估了不同提示技術對GPT-3.5在回答美國醫學執照考試（USMLE）第一階段考題的影響。研究分析了1000個GPT-4生成的問題和95個真實考題，結果顯示各種提示類型的準確性差異不大，直接提示成功率為61.7%，思考鏈為62.8%，修改版思考鏈為57.4%。所有p值均高於0.05，顯示無顯著差異。結論認為，思考鏈提示並未顯著提升GPT-3.5的醫學問題處理能力，顯示人工智慧工具可有效融入醫學教育中，無需複雜提示策略。 PubMed DOI

Large Language Model Prompting Techniques for Advancement in Clinical Medicine.
臨床醫學進步的大型語言模型提示技術。 J Clin Med 2024-09-14

大型語言模型（LLMs）有潛力顯著改變臨床醫學，能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過，這些模型的有效運用需謹慎設計提示，以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念，以及運用策略性提示技術，對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解，能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

Structured clinical reasoning prompt enhances LLM's diagnostic capabilities in diagnosis please quiz cases.
結構化臨床推理提示增強大型語言模型在診斷請求案例中的診斷能力。 Jpn J Radiol 2024-12-03

這項研究探討不同提示策略如何提升大型語言模型（LLMs）在醫療診斷中的表現，特別是針對322道放射科診斷請求的測驗問題。研究比較了三種方法：基準的零-shot思考鏈、兩步驟結構化方法，以及僅使用LLM生成的摘要。結果顯示，兩步驟方法的準確率達60.6%，明顯優於基準（56.5%）和摘要方法（56.3%）。整體來看，結構化的臨床推理方法能有效提升LLMs的診斷準確性，顯示其在臨床應用上的潛力。 PubMed DOI

Large Language Models lack essential metacognition for reliable medical reasoning.
大型語言模型缺乏可靠醫學推理所需的基本後設認知。 Nat Commun 2025-01-14

大型語言模型（LLMs）在醫學考試中表現出色，但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試，評估模型的信心分數和元認知任務。研究顯示，雖然模型在回答問題上表現良好，但在識別知識空白方面存在重大缺陷，經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險，因此需要改進評估框架，以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

Empowering large language models for automated clinical assessment with generation-augmented retrieval and hierarchical chain-of-thought.
利用生成增強檢索和分層思維鏈來提升大型語言模型的自動臨床評估能力。 Artif Intell Med 2025-02-20

這項研究提出了一種名為「GAPrompt」的新方法，旨在提升大型語言模型（LLMs）在自動化臨床評估中的應用，特別是針對電子健康紀錄（EHRs）中的中風評估。GAPrompt包含五個關鍵組件，包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示，GAPrompt能有效分析EHRs並提供定量評估，解決傳統中風評估的勞動密集問題，顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

Small language models learn enhanced reasoning skills from medical textbooks.
小型語言模型從醫學教科書中學習到增強的推理能力 NPJ Digit Med 2025-05-02

這項研究推出 Meerkat 小型醫療語言模型（7B 和 8B 參數），透過醫學教科書的高品質思路鏈資料和多元指令訓練，強化多步推理能力。Meerkat 在醫學考試和病例挑戰中表現優於其他小型模型，甚至超越人類平均分數，推理品質也獲專家肯定，同時兼顧輕量化和隱私。 PubMed DOI

Development of a Flexible Chain of Thought Framework for Automated Routing of Patient Portal Messages.
開發用於自動分流病人入口網站訊息的彈性思考鏈架構 AMIA Annu Symp Proc 2025-05-26

這項研究用大型語言模型和Chain-of-Thought提示技術，自動分類病人透過入口網站發送的訊息，幫助分流、減輕醫護人員負擔。模型參考分診護理師標註，能隨工作流程調整，分類準確度也比傳統方法高。這方法彈性高、可持續優化，適用於各種臨床文件處理，有助提升回應速度與安全性，減少醫護壓力。 PubMed

Evaluating large language models for information extraction from gastroscopy and colonoscopy reports through multi-strategy prompting.
透過多策略提示評估大型語言模型於胃鏡與大腸鏡報告資訊擷取的表現 J Biomed Inform 2025-06-12

這項研究評估多種大型語言模型，利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示，大型且專業化的模型在基本資訊擷取表現最好，但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助，顯示LLMs自動化醫療文本分析有潛力，但還需改進。 PubMed DOI

原始文章

站上相關主題文章列表