Automating pharmacovigilance evidence generation: using large language models to produce context-aware structured query language.
自動化藥物監測證據生成：使用大型語言模型產生具上下文意識的結構化查詢語言。 JAMIA Open 2025-02-10

這項研究探討大型語言模型（LLMs），特別是OpenAI的GPT-4，如何提升自然語言查詢（NLQs）轉換為藥物監測（PV）數據庫中的SQL查詢的準確性。研究分三個階段，變化查詢複雜度，並評估有無商業上下文文件的效果。結果顯示，NLQ轉換為SQL的準確性從8.3%提升至78.3%，在所有複雜度層級中均一致。排除高複雜度查詢時，準確率可達85%。這項研究對非技術用戶在數據密集型領域的信息可及性具有重要意義。 PubMed DOI

Evaluating a large language model's ability to answer clinicians' requests for evidence summaries.
評估大型語言模型回答臨床醫師對證據摘要請求的能力。 J Med Libr Assoc 2025-02-20

這項研究評估了GPT-4生成式AI工具aiChat在回答臨床問題的效果，並與醫學圖書館員的資料進行比較。研究團隊使用了圖書館員處理的臨床問題資料庫，並根據COSTAR框架設計標準化提示。結果顯示，aiChat在216個問題中，有83.3%被評為「正確」，但只有37%的參考文獻被確認有效。雖然AI表現出潛力，但許多參考文獻無法驗證，未評估新概念的準確性。作者建議這是系列研究的第一部分，探討AI如何融入醫學圖書館員的工作。 PubMed DOI

Enhancing systematic literature reviews with generative artificial intelligence: development, applications, and performance evaluation.
利用生成式人工智慧增強系統性文獻回顧：發展、應用及效能評估。 J Am Med Inform Assoc 2025-03-04

您開發了一個大型語言模型（LLM）輔助的系統，專門用於健康技術評估（HTA）的系統性文獻回顧（SLR）。這個系統包含五個模組，從文獻搜尋到數據總結，並具有人機協作的設計，能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估，系統在摘要篩選中表現優異，達到90%的敏感度和82的F1分數，顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程，降低時間和成本，並提升證據生成的準確性。 PubMed DOI

Assessing GPT-4's accuracy in answering clinical pharmacological questions on pain therapy.
評估 GPT-4 在疼痛治療臨床藥理學問題回答中的準確性。 Br J Clin Pharmacol 2025-03-11

這項研究評估了GPT-4在回答疼痛管理相關的臨床藥理學問題上的表現。醫療專業人員提出了有關藥物相互作用、劑量和禁忌症的問題，GPT-4的回應在清晰度、詳細程度和醫學準確性上獲得了高評價。結果顯示，99%的參與者認為回應易懂，84%認為信息詳細，93%表示滿意，96%認為醫學準確。不過，只有63%認為信息完整，顯示在藥物動力學和相互作用方面仍有不足。研究建議開發專門的AI工具，結合即時藥理數據庫，以提升臨床決策的準確性。 PubMed DOI

GPT for RCTs? Using AI to determine adherence to clinical trial reporting guidelines.
RCTs 的 GPT？使用 AI 確定臨床試驗報告指導方針的遵循情況。 BMJ Open 2025-03-19

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文，並針對遵循情況向模型提問。結果顯示，GPT-4 Turbo的F1分數達0.89，準確率90%；Llama 2經微調後，F1分數提升至0.84，準確率83%。此外，GPT-4 Vision能準確識別參與者流動圖，但在細節檢測上有困難。整體而言，這兩個模型在評估報告遵循方面顯示出潛力，未來開發高效的開源AI-LLM可能會進一步提升準確性。 PubMed DOI

Retrieval augmented generation for 10 large language models and its generalizability in assessing medical fitness.
10 種大型語言模型的檢索增強生成及其在評估醫療適應性中的普遍性。 NPJ Digit Med 2025-04-04

這項研究探討了基於GPT-4的檢索增強生成（RAG）模型在術前評估中的有效性。研究測試了十個大型語言模型，生成超過3,200個回應，並與近450個人類答案進行比較。結果顯示，使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%，明顯高於人類的86.6%，且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

Generative AI vs. human expertise: a comparative analysis of case-based rational pharmacotherapy question generation.
生成式人工智慧與人類專業知識：基於案例的合理藥物治療問題生成的比較分析。 Eur J Clin Pharmacol 2025-04-09

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示，這些模型生成了60個問題，並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題，結果顯示AI問題的正確率與專家問題相當，且AI生成問題的準備效率顯著提升。然而，仍有19個問題被認為無法使用，顯示專家審查的重要性。結合AI效率與專家驗證的方式，可能是改善醫學教育的最佳策略。 PubMed DOI

From knowledge generation to knowledge verification: examining the biomedical generative capabilities of ChatGPT.
從知識產生到知識驗證：檢視 ChatGPT 在生物醫學領域的生成能力 iScience 2025-06-09

這篇研究發現，像 ChatGPT 這類大型語言模型在產生疾病、藥物和基因相關知識時，準確率很高，但在症狀相關詞彙上表現較差，主要因為症狀描述較口語化。此外，模型產生的 ID 常有錯誤或重複。整體來說，LLMs 若小心使用，對生醫領域還是有幫助，未來可透過 RAG 等方法提升可靠性。 PubMed DOI

Reliability of Large Language Model Knowledge Across Brand and Generic Cancer Drug Names.
大型語言模型對於品牌與學名癌症藥物名稱知識的可靠性 JCO Clin Cancer Inform 2025-06-16

這項研究發現，GPT-3.5-turbo-0125、GPT-4-turbo 和 GPT-4o 在腫瘤科藥物品牌名和學名的配對上表現很好，但在較複雜的臨床任務（如藥物交互作用判斷、診斷副作用等）則表現不穩定，甚至有偏誤。特別是 GPT-3.5-turbo-0125 偏好用品牌名。總結來說，這些模型在簡單任務上可靠，但臨床應用還需更嚴謹的評估與改進。 PubMed DOI

原始文章

站上相關主題文章列表