Two-Layer Retrieval-Augmented Generation Framework for Low-Resource Medical Question Answering Using Reddit Data: Proof-of-Concept Study.
基於Reddit數據的低資源醫學問答的雙層檢索增強生成框架：概念驗證研究。 J Med Internet Res 2025-01-06

這篇論文探討了一種檢索增強生成（RAG）架構，幫助臨床醫師從社交媒體獲取醫療資訊，特別是針對新興藥物問題。研究比較了大型語言模型Nous-Hermes-2-7B-DPO與GPT-4的表現，評估它們在生成醫療查詢相關答案的能力。結果顯示兩者在相關性、連貫性和覆蓋率上表現相當，但在可讀性上有顯著差異。總體而言，RAG框架在低資源環境中有效解決醫療問題，為臨床醫師提供了有價值的工具。 PubMed DOI

Evaluating a large language model's ability to answer clinicians' requests for evidence summaries.
評估大型語言模型回答臨床醫師對證據摘要請求的能力。 J Med Libr Assoc 2025-02-20

這項研究評估了GPT-4生成式AI工具aiChat在回答臨床問題的效果，並與醫學圖書館員的資料進行比較。研究團隊使用了圖書館員處理的臨床問題資料庫，並根據COSTAR框架設計標準化提示。結果顯示，aiChat在216個問題中，有83.3%被評為「正確」，但只有37%的參考文獻被確認有效。雖然AI表現出潛力，但許多參考文獻無法驗證，未評估新概念的準確性。作者建議這是系列研究的第一部分，探討AI如何融入醫學圖書館員的工作。 PubMed DOI

Evaluating base and retrieval augmented LLMs with document or online support for evidence based neurology.
評估具有文件或線上支持的基礎及檢索增強型 LLMs 在證據基礎神經學中的應用。 NPJ Digit Med 2025-03-04

這項研究探討大型語言模型（LLMs）和檢索增強生成（RAG）系統在管理基於證據的信息的效果，特別針對13項神經學指導方針和130個問題。結果顯示性能差異明顯，雖然RAG系統在準確性上有所提升，但仍可能產生有害回應。此外，RAG系統在處理案例型問題時表現不如知識型問題。研究強調需要進一步改進和規範，以確保RAG增強的LLMs在臨床上的安全使用。 PubMed DOI

[Can large language models answer clinical questions?].
大型語言模型能否回答臨床問題？ Recenti Prog Med 2025-03-14

大型語言模型（LLMs）如ChatGPT在醫學領域的應用潛力巨大，但也帶來了準確性和可靠性的挑戰。研究顯示，LLMs能提供正確的疾病管理資訊，但必須符合國際指導方針。關鍵考量包括回應的可讀性、與指導方針的一致性、資訊來源的時效性、跨模型和跨語言的一致性，以及臨床使用的驗證。總之，雖然LLMs能提升醫學教育和決策，但仍需謹慎評估，以確保其在臨床中的安全與有效性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性：系統性回顧與網絡統合分析 J Med Internet Res 2025-04-30

這篇回顧分析168篇研究，發現ChatGPT-4o在選擇題最準，ChatGPT-4開放式問題表現最好，但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出，Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Summarizing clinical evidence utilizing large language models for cancer treatments: a blinded comparative analysis.
利用大型語言模型總結癌症治療的臨床證據：一項盲態比較分析 Front Digit Health 2025-05-14

四款大型語言模型用來產生多發性骨髓瘤和AL類澱粉沉積症治療的臨床摘要，Claude在正確性和完整性上表現最好，但沒有任何模型能完全正確。所有模型產出的內容都需要專家審查，目前還不適合單獨用於臨床摘要。 PubMed DOI

Optimizing theranostics chatbots with context-augmented large language models.
以情境增強大型語言模型優化theranostics聊天機器人 Theranostics 2025-05-14

這項研究開發了一套用於提升核醫療診斷治療的聊天機器人架構，透過情境增強（RAG）讓大型語言模型能查找相關研究資料。測試五款主流LLM後發現，RAG能明顯提升答案品質，尤其CLAUDE 3 OPUS和GPT-4O表現最好。研究也提醒，目前問題範圍有限，未來應擴大題目多樣性並比較人類與AI的評分。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

原始文章

站上相關主題文章列表