Improving large language model applications in biomedicine with retrieval-augmented generation: a systematic review, meta-analysis, and clinical development guidelines.
利用檢索增強生成技術改善生物醫學中的大型語言模型應用：系統性回顧、統合分析及臨床發展指導方針。 J Am Med Inform Assoc 2025-01-15

本研究綜合了近期在生物醫學領域中有關檢索增強生成（RAG）和大型語言模型（LLMs）的研究，旨在提供臨床發展的指導方針。透過系統文獻回顧和統合分析，研究納入了335項研究中的20項，結果顯示RAG顯著提升了模型表現，勝算比為1.35（P = .001）。報告詳細說明了臨床任務及評估方法，並提出在臨床環境中實施增強LLM的指導方針。未來研究應聚焦於RAG的整合與應用。 PubMed DOI

Use of ChatGPT Large Language Models to Extract Details of Recommendations for Additional Imaging From Free-Text Impressions of Radiology Reports.
使用 ChatGPT 大型語言模型從放射科報告的自由文本印象中提取額外影像建議的細節。 AJR Am J Roentgenol 2025-01-29

本研究探討大型語言模型（LLMs）在從放射科報告中提取額外影像檢查建議（RAIs）的有效性。研究回顧了250份報告，確認231份包含RAIs，並使用自然語言處理算法進行分析。結果顯示，GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5，顯示出LLMs在確保影像檢查建議及時完成的潛力，可能有助於減少診斷延遲。 PubMed DOI

Retrieval-augmented generation improves precision and trust of a GPT-4 model for emergency radiology diagnosis and classification: a proof-of-concept study.
檢索增強生成提升 GPT-4 模型在急診放射學診斷和分類中的精確性和信任度：一項概念驗證研究。 Eur Radiol 2025-02-14

這項研究探討了增強檢索生成（RAG）的GPT-4模型在診斷和分類創傷性傷害的效果。研究人員開發了名為TraumaCB的工具，利用專家知識來提升準確性。結果顯示，TraumaCB在診斷上達到100%準確率，分類96%，明顯優於一般的GPT-4。這項研究強調了傷害分類的挑戰，並指出結合RAG的GPT-4能提升創傷放射學的診斷能力，對急診部門的效率有正面影響。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Evaluating base and retrieval augmented LLMs with document or online support for evidence based neurology.
評估具有文件或線上支持的基礎及檢索增強型 LLMs 在證據基礎神經學中的應用。 NPJ Digit Med 2025-03-04

這項研究探討大型語言模型（LLMs）和檢索增強生成（RAG）系統在管理基於證據的信息的效果，特別針對13項神經學指導方針和130個問題。結果顯示性能差異明顯，雖然RAG系統在準確性上有所提升，但仍可能產生有害回應。此外，RAG系統在處理案例型問題時表現不如知識型問題。研究強調需要進一步改進和規範，以確保RAG增強的LLMs在臨床上的安全使用。 PubMed DOI

Enhancing Large Language Models with Retrieval-augmented Generation: A Radiology-specific Approach.
強化大型語言模型的檢索增強生成：一種放射科特定的方法。 Radiol Artif Intell 2025-03-12

這篇文章探討了一項研究，分析檢索增強生成（RAG）如何提升大型語言模型（LLMs）在放射學的表現。RAG 讓 LLMs 能夠即時訪問更新的知識庫，無需微調即可生成準確答案。研究中使用了來自 *RadioGraphics* 的 3,689 篇文章作為數據庫，並評估了五種 LLMs 在192道放射學考題中的表現。結果顯示，RAG 顯著提升了 GPT-4 和 Command R+ 的得分，特別是在與 *RadioGraphics* 相關的問題上，成功檢索並引用了相關資料。整體而言，RAG 在放射學任務中展現了提升 LLM 能力的潛力。 PubMed DOI

Retrieval augmented generation for 10 large language models and its generalizability in assessing medical fitness.
10 種大型語言模型的檢索增強生成及其在評估醫療適應性中的普遍性。 NPJ Digit Med 2025-04-04

這項研究探討了基於GPT-4的檢索增強生成（RAG）模型在術前評估中的有效性。研究測試了十個大型語言模型，生成超過3,200個回應，並與近450個人類答案進行比較。結果顯示，使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%，明顯高於人類的86.6%，且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI

Enhancing medical AI with retrieval-augmented generation: A mini narrative review.
以檢索增強生成（retrieval-augmented generation）提升醫療AI：迷你敘述性回顧 Digit Health 2025-05-09

RAG（檢索增強生成）能結合外部資料，讓大型語言模型在醫療領域的回應更精確，像是診斷、臨床決策和資訊擷取都更有幫助。研究發現，RAG在解讀指引、診斷和臨床試驗篩選等表現都比傳統方法好。不過，目前在評估標準、成本和減少AI幻覺上還有待加強，未來還需要持續優化並強化與醫療專業的合作。 PubMed DOI

Evaluation of large language models in generating pulmonary nodule follow-up recommendations.
大型語言模型在產生肺結節追蹤建議之評估 Eur J Radiol Open 2025-05-20

這篇研究發現，GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時，準確率都超過九成，表現和專業醫師差不多，錯誤建議也很少。雖然這些AI有潛力協助放射科決策，但實際應用前還是要嚴格驗證和監督，確保病人安全。 PubMed DOI

RadioRAG: Online Retrieval-augmented Generation for Radiology Question Answering.
RadioRAG：用於放射學問答的線上檢索增強生成 Radiol Artif Intell 2025-06-18

這項研究發現，把像 Radiopaedia 這類專業放射科資料即時整合進大型語言模型（LLMs），能有效提升它們回答放射科問題的準確度，特別是 GPT-3.5-turbo 和 Mixtral-8 × 7B，甚至有時比人類專家還厲害，也能減少錯誤資訊。不過，這樣會讓回應速度變慢，大約多四倍。整體來說，結合專業資料能讓 LLMs 在醫療領域更可靠。 PubMed DOI

原始文章

站上相關主題文章列表