Performance of the ChatGPT large language model for decision support in community pharmacy.
ChatGPT 大型語言模型在社區藥局決策支持中的表現。 Br J Clin Pharmacol 2024-08-27

這項研究評估了ChatGPT-4在社區藥局的表現，包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示，ChatGPT對藥物查詢的回應相當滿意，能引用正確的藥物數據，並成功識別標籤錯誤。在臨床情境中，其建議與藥師相當，特別是在藥物反應評估和健康建議方面。研究指出，ChatGPT可能成為社區藥局的有用工具，但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

Unlocking the potential of advanced large language models in medication review and reconciliation: A proof-of-concept investigation.
釋放先進大型語言模型在藥物審查和調解中的潛力：一項概念驗證研究。 Explor Res Clin Soc Pharm 2024-09-11

這項研究評估了大型語言模型（LLMs）在藥物審查中的表現，特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM，發現ChatGPT在劑量方案上表現良好，但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用，但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議，而Gemini在基因組學上表現不錯。研究指出，LLM在藥物審查中有潛力，但整合進醫療系統對病人安全至關重要。 PubMed DOI

Evaluating accuracy and reproducibility of large language model performance on critical care assessments in pharmacy education.
評估大型語言模型在藥學教育中對重症護理評估的準確性和可重複性。 Front Artif Intell 2025-01-24

這項評估針對五種大型語言模型（LLMs）在重症護理藥物治療問題上的表現進行測試，結果顯示ChatGPT-4的準確性最高，達71.6%。LLMs在知識回憶問題上表現較好，但在知識應用問題上則不及藥學博士學生（學生準確性81%）。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練，以改善其應用能力，對於全面藥物管理的使用應謹慎。 PubMed DOI

Comparing Large Language Models for antibiotic prescribing in different clinical scenarios: which perform better?
比較大型語言模型在不同臨床情境下的抗生素處方：哪一種表現更佳？ Clin Microbiol Infect 2025-03-20

這項研究評估了十四個大型語言模型（LLMs）在不同臨床情境中推薦抗生素的表現。研究使用標準化提示，針對60個案例的藥物選擇、劑量和治療持續時間進行評估。結果顯示，ChatGPT-o1的準確率最高，達71.7%，劑量正確性達96.7%。而在治療持續時間方面，Gemini表現最佳（75.0%）。不過，各模型在複雜案例中的表現差異明顯，顯示出在臨床應用前仍需謹慎驗證。 PubMed DOI

Large Language Models and Their Applications in Drug Discovery and Development: A Primer.
大型語言模型及其在藥物發現與開發中的應用：入門指南。 Clin Transl Sci 2025-04-10

這篇論文全面介紹大型語言模型（LLMs）在臨床藥理學和轉譯醫學中的應用。內容涵蓋LLMs的基本原則及其在藥物發現和開發各階段的潛在用途，包括靶點識別、臨床前研究和臨床試驗分析。還會強調實際應用，如醫學寫作輔助和加速定量臨床藥理學的分析流程。目的是幫助臨床藥理學家和轉譯科學家有效利用LLMs，改善研究和開發過程。 PubMed DOI

Summarizing clinical evidence utilizing large language models for cancer treatments: a blinded comparative analysis.
利用大型語言模型總結癌症治療的臨床證據：一項盲態比較分析 Front Digit Health 2025-05-14

四款大型語言模型用來產生多發性骨髓瘤和AL類澱粉沉積症治療的臨床摘要，Claude在正確性和完整性上表現最好，但沒有任何模型能完全正確。所有模型產出的內容都需要專家審查，目前還不適合單獨用於臨床摘要。 PubMed DOI

Can large language models detect drug-drug interactions leading to adverse drug reactions?
大型語言模型能否偵測導致不良藥物反應的藥物間交互作用？ Ther Adv Drug Saf 2025-05-19

這項研究發現，ChatGPT 和 Claude 在協助藥物安全專家偵測藥物交互作用（DDIs）方面表現相近，且都優於 Gemini，尤其在簡單案例中。不過，三款大型語言模型的特異性都不高，容易誤判沒有交互作用的情況。總結來說，LLMs 可作為輔助工具，但專業藥師仍不可或缺，特別是在排除不存在的 DDIs 時。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Evaluating and leveraging large language models in clinical pharmacology and therapeutics assessment: From exam takers to exam shapers.
在臨床藥理學與治療學評估中評價與應用大型語言模型：從考生到考題設計者 Br J Clin Pharmacol 2025-06-10

最新研究發現，像 ChatGPT-4 Omni 這類大型語言模型，在 CPT 和歐洲處方考試的表現跟醫學生差不多，甚至更厲害，特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方，不只適合當教學工具，也有助於改進考題品質。 PubMed DOI

Large Language Models and the Analyses of Adherence to Reporting Guidelines in Systematic Reviews and Overviews of Reviews (PRISMA 2020 and PRIOR).
大型語言模型與系統性回顧及回顧之總覽中報告指引遵循性分析（PRISMA 2020 與 PRIOR） J Med Syst 2025-06-12

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現，所有模型在PRISMA 2020的判斷上都高估了合規情況，準確度不如人類專家；但在PRIOR指引上，ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究，未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

原始文章

站上相關主題文章列表