Performance of the ChatGPT large language model for decision support in community pharmacy.
ChatGPT 大型語言模型在社區藥局決策支持中的表現。 Br J Clin Pharmacol 2024-08-27

這項研究評估了ChatGPT-4在社區藥局的表現，包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示，ChatGPT對藥物查詢的回應相當滿意，能引用正確的藥物數據，並成功識別標籤錯誤。在臨床情境中，其建議與藥師相當，特別是在藥物反應評估和健康建議方面。研究指出，ChatGPT可能成為社區藥局的有用工具，但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

Unlocking the potential of advanced large language models in medication review and reconciliation: A proof-of-concept investigation.
釋放先進大型語言模型在藥物審查和調解中的潛力：一項概念驗證研究。 Explor Res Clin Soc Pharm 2024-09-11

這項研究評估了大型語言模型（LLMs）在藥物審查中的表現，特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM，發現ChatGPT在劑量方案上表現良好，但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用，但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議，而Gemini在基因組學上表現不錯。研究指出，LLM在藥物審查中有潛力，但整合進醫療系統對病人安全至關重要。 PubMed DOI

Evaluating accuracy and reproducibility of large language model performance on critical care assessments in pharmacy education.
評估大型語言模型在藥學教育中對重症護理評估的準確性和可重複性。 Front Artif Intell 2025-01-24

這項評估針對五種大型語言模型（LLMs）在重症護理藥物治療問題上的表現進行測試，結果顯示ChatGPT-4的準確性最高，達71.6%。LLMs在知識回憶問題上表現較好，但在知識應用問題上則不及藥學博士學生（學生準確性81%）。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練，以改善其應用能力，對於全面藥物管理的使用應謹慎。 PubMed DOI

Using Large Language Models to Detect and Understand Drug Discontinuation Events in Web-Based Forums: Development and Validation Study.
使用大型語言模型檢測和理解網路論壇中的藥物中斷事件：開發與驗證研究。 J Med Internet Res 2025-01-30

這項研究探討如何利用大型語言模型（LLMs），如BART和GPT-4，從MedHelp論壇的用戶評論中識別藥物停用事件（DDEs）。DDEs對藥物依從性和病人結果至關重要，但研究仍不多。研究人員建立了一個靈活的框架，並發布了首個開源DDE數據集，以促進後續研究。結果顯示，GPT-4o在識別根本原因上表現優異，而BART在檢測DDEs方面最有效。這項研究顯示了LLMs在分析公開數據的潛力，並鼓勵進一步探索。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

Evaluating large language models as a supplementary patient information resource on antimalarial use in systemic lupus erythematosus.
評估大型語言模型作為系統性紅斑狼瘡抗瘧藥使用的補充病患資訊資源。 Lupus 2025-02-27

這項研究評估了三種大型語言模型（LLMs）—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡（SLE）使用的準確性和完整性。研究設計了十三個問題，兩位風濕病學專家對模型回應進行評分。結果顯示，雖然準確性高，但完整性差異明顯：Copilot 38.5%，GPT-3.5 55.9%，GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面，GPT-4 完整性達100%。研究指出，GPT-4 有潛力改善病人對 SLE 治療的理解，但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

Exploration of Using an Open-Source Large Language Model for Analyzing Trial Information: A Case Study of Clinical Trials With Decentralized Elements.
探索使用開源大型語言模型分析試驗資訊：一個包含去中心化元素的臨床試驗案例研究。 Clin Transl Sci 2025-03-03

這項研究探討了使用開源大型語言模型Llama 3，分析2018至2023年間去中心化臨床試驗（DCTs）的趨勢，並解決試驗登記中術語不標準的問題。研究人員從ClinicalTrials.gov獲取數據，使用三個不同版本的Llama 3模型進行DCT分類和提取去中心化元素。結果顯示，微調模型能提高敏感性，但正確預測值較低，需專注於DCT術語。最終識別出692個DCT，主要為第二期試驗，顯示大型語言模型在分析非結構化臨床數據的潛力，並強調管理模型偏見的重要性。 PubMed DOI

Delirium Identification from Nursing Reports Using Large Language Models.
利用大型語言模型從護理報告中辨識譫妄。 Stud Health Technol Inform 2025-05-17

這項研究發現，用大型語言模型（像Llama3和Phi3）分析護理紀錄來偵測譫妄，比傳統的關鍵字比對更準確。特別是finetuning後的Phi3（3.8B）模型，準確率高達90.24%，AUROC也有96.07%，顯示AI有助於提升臨床譫妄偵測的效率和準確性。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Evaluating and leveraging large language models in clinical pharmacology and therapeutics assessment: From exam takers to exam shapers.
在臨床藥理學與治療學評估中評價與應用大型語言模型：從考生到考題設計者 Br J Clin Pharmacol 2025-06-10

最新研究發現，像 ChatGPT-4 Omni 這類大型語言模型，在 CPT 和歐洲處方考試的表現跟醫學生差不多，甚至更厲害，特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方，不只適合當教學工具，也有助於改進考題品質。 PubMed DOI

原始文章

站上相關主題文章列表