Prompt engineering on leveraging large language models in generating response to InBasket messages.
利用大型語言模型生成 InBasket 訊息回應的提示工程。 J Am Med Inform Assoc 2024-07-19

這項研究探討大型語言模型（LLMs），特別是GPT-4，如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程，優化提示，提升回應質量。經過三次迭代後，臨床醫師對草擬回應的接受度從62%提升至84%，且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳，76%的病人無法分辨人類與LLM生成的回應。研究顯示，根據醫師和病人的反饋來精煉提示，能有效生成有用的醫療建議。 PubMed DOI

Empowering large language models for automated clinical assessment with generation-augmented retrieval and hierarchical chain-of-thought.
利用生成增強檢索和分層思維鏈來提升大型語言模型的自動臨床評估能力。 Artif Intell Med 2025-02-20

這項研究提出了一種名為「GAPrompt」的新方法，旨在提升大型語言模型（LLMs）在自動化臨床評估中的應用，特別是針對電子健康紀錄（EHRs）中的中風評估。GAPrompt包含五個關鍵組件，包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示，GAPrompt能有效分析EHRs並提供定量評估，解決傳統中風評估的勞動密集問題，顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

A guide to prompt design: foundations and applications for healthcare simulationists.
醫療模擬專家的提示設計指南：基礎與應用。 Front Med (Lausanne) 2025-02-21

這篇論文是醫療領域模擬專家的實用指南，教你如何設計大型語言模型（LLMs）如ChatGPT、Gemini和Claude的提示。透過文獻回顧和測試，提供最佳實踐，涵蓋臨床情境、OSCE站點、角色劇本及回饋會議等使用案例。還探討了整合LLMs的挑戰，如偏見、隱私和透明度等問題，並考量醫療教育的倫理影響。總之，這篇論文旨在幫助模擬專家有效利用生成式AI，提升學習的真實感和教育效果。 PubMed DOI

Summarizing Online Patient Conversations Using Generative Language Models: Experimental and Comparative Study.
使用生成語言模型總結線上病患對話：實驗性和比較研究。 JMIR Med Inform 2025-04-14

這項研究探討大型語言模型（LLMs）在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型，並測試不同的提示策略。結果顯示，GPT-3.5在零-shot提示中表現最佳，並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解，但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

Physician- and Large Language Model-Generated Hospital Discharge Summaries.
醫師與大型語言模型生成的出院摘要 JAMA Intern Med 2025-05-05

研究發現，大型語言模型（LLM）生成的出院摘要，品質和醫師寫的差不多，受歡迎程度也相近。LLM寫的內容比較精簡、結構清楚，但資訊沒那麼完整，錯誤率也稍高。不過這些錯誤通常不會造成傷害。只要有醫師審核，LLM生成的摘要很有機會成為醫院的好幫手。 PubMed DOI

Cross-Institutional Evaluation of Large Language Models for Radiology Diagnosis Extraction: A Prompt-Engineering Perspective.
跨機構評估大型語言模型於放射診斷萃取之表現：以提示工程觀點分析 J Imaging Inform Med 2025-05-09

這項研究用標準化、針對人類優化的提示語，讓大型語言模型標註六家醫院的放射科報告，結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語，LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

Summarize-then-Prompt: A Novel Prompt Engineering Strategy for Generating High-Quality Discharge Summaries.
Summarize-then-Prompt：一種用於產生高品質出院摘要的全新提示工程策略 Appl Clin Inform 2025-05-21

研究發現，先把每份臨床紀錄各自摘要，再合併生成出院摘要（先摘要再提示），比直接合併所有紀錄來得更完整、正確，內容也不會變冗長。這種方法有望協助自動化出院摘要撰寫，減輕醫師工作壓力。 PubMed DOI

Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy.
邁向將大型語言模型作為治療工具：比較提示技巧以提升GPT提供的問題解決治療效果 AMIA Annu Symp Proc 2025-05-26

這項研究發現，透過提示工程（prompt engineering）可以提升大型語言模型在心理治療（PST）初期階段的表現，尤其在症狀辨識和目標設定上更有效。雖然品質和同理心有所提升，但仍有侷限。整體來說，LLM 有潛力協助解決心理健康人力不足，推動 AI 治療服務發展。 PubMed

Automatic Summarization of Doctor-Patient Encounter Dialogues Using Large Language Model through Prompt Tuning.
利用提示微調大型語言模型自動摘要醫病對話紀錄 AMIA Jt Summits Transl Sci Proc 2025-06-12

**重點摘要：** 這項研究顯示，使用 prompt-tuning 搭配大型臨床語言模型（GatorTronGPT）可以有效地摘要醫師與病患之間的對話，不僅表現優於以往經過 fine-tune 的模型，而且更有效率，因為不需要更新模型的參數。 PubMed

A comparative evaluation of chain-of-thought-based prompt engineering techniques for medical question answering.
基於 chain-of-thought 的提示工程技術於醫學問答之比較性評估 Comput Biol Med 2025-07-02

這項研究發現，不同Chain-of-Thought（CoT）提示方法對大型語言模型在醫學推理上的表現差異不大，簡單的CoT提示效果就很好。模型本身和資料集特性對準確率影響更大。以臨床紀錄為主的任務中，o1-mini模型表現最佳。總結來說，臨床決策應用上，建議優先採用簡單的CoT方法。 PubMed DOI

原始文章

站上相關主題文章列表