Unlocking the potential of advanced large language models in medication review and reconciliation: A proof-of-concept investigation.
釋放先進大型語言模型在藥物審查和調解中的潛力：一項概念驗證研究。 Explor Res Clin Soc Pharm 2024-09-11

這項研究評估了大型語言模型（LLMs）在藥物審查中的表現，特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM，發現ChatGPT在劑量方案上表現良好，但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用，但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議，而Gemini在基因組學上表現不錯。研究指出，LLM在藥物審查中有潛力，但整合進醫療系統對病人安全至關重要。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Evaluating accuracy and reproducibility of large language model performance on critical care assessments in pharmacy education.
評估大型語言模型在藥學教育中對重症護理評估的準確性和可重複性。 Front Artif Intell 2025-01-24

這項評估針對五種大型語言模型（LLMs）在重症護理藥物治療問題上的表現進行測試，結果顯示ChatGPT-4的準確性最高，達71.6%。LLMs在知識回憶問題上表現較好，但在知識應用問題上則不及藥學博士學生（學生準確性81%）。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練，以改善其應用能力，對於全面藥物管理的使用應謹慎。 PubMed DOI

Automating pharmacovigilance evidence generation: using large language models to produce context-aware structured query language.
自動化藥物監測證據生成：使用大型語言模型產生具上下文意識的結構化查詢語言。 JAMIA Open 2025-02-10

這項研究探討大型語言模型（LLMs），特別是OpenAI的GPT-4，如何提升自然語言查詢（NLQs）轉換為藥物監測（PV）數據庫中的SQL查詢的準確性。研究分三個階段，變化查詢複雜度，並評估有無商業上下文文件的效果。結果顯示，NLQ轉換為SQL的準確性從8.3%提升至78.3%，在所有複雜度層級中均一致。排除高複雜度查詢時，準確率可達85%。這項研究對非技術用戶在數據密集型領域的信息可及性具有重要意義。 PubMed DOI

Inductive reasoning with large language models: A simulated randomized controlled trial for epilepsy.
大型語言模型的歸納推理：針對癲癇的模擬隨機對照試驗。 Epilepsy Res 2025-02-28

這項研究探討了人工智慧，特別是大型語言模型（LLMs），在模擬隨機臨床試驗中對癲癇藥物cenobamate的應用。試驗包含240名患者，分為安慰劑組和全劑量藥物組。AI能準確分析臨床筆記，評估藥物的療效與安全性，結果顯示AI分析與人類分析相近，僅在療效識別上有小差異。這顯示AI在未來臨床研究中具備高效且可擴展的潛力，能減少對傳統數據挖掘方法的需求。 PubMed DOI

Assessing GPT-4's accuracy in answering clinical pharmacological questions on pain therapy.
評估 GPT-4 在疼痛治療臨床藥理學問題回答中的準確性。 Br J Clin Pharmacol 2025-03-11

這項研究評估了GPT-4在回答疼痛管理相關的臨床藥理學問題上的表現。醫療專業人員提出了有關藥物相互作用、劑量和禁忌症的問題，GPT-4的回應在清晰度、詳細程度和醫學準確性上獲得了高評價。結果顯示，99%的參與者認為回應易懂，84%認為信息詳細，93%表示滿意，96%認為醫學準確。不過，只有63%認為信息完整，顯示在藥物動力學和相互作用方面仍有不足。研究建議開發專門的AI工具，結合即時藥理數據庫，以提升臨床決策的準確性。 PubMed DOI

Can large language models detect drug-drug interactions leading to adverse drug reactions?
大型語言模型能否偵測導致不良藥物反應的藥物間交互作用？ Ther Adv Drug Saf 2025-05-19

這項研究發現，ChatGPT 和 Claude 在協助藥物安全專家偵測藥物交互作用（DDIs）方面表現相近，且都優於 Gemini，尤其在簡單案例中。不過，三款大型語言模型的特異性都不高，容易誤判沒有交互作用的情況。總結來說，LLMs 可作為輔助工具，但專業藥師仍不可或缺，特別是在排除不存在的 DDIs 時。 PubMed DOI

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Evaluating and leveraging large language models in clinical pharmacology and therapeutics assessment: From exam takers to exam shapers.
在臨床藥理學與治療學評估中評價與應用大型語言模型：從考生到考題設計者 Br J Clin Pharmacol 2025-06-10

最新研究發現，像 ChatGPT-4 Omni 這類大型語言模型，在 CPT 和歐洲處方考試的表現跟醫學生差不多，甚至更厲害，特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方，不只適合當教學工具，也有助於改進考題品質。 PubMed DOI

Reliability of Large Language Model Knowledge Across Brand and Generic Cancer Drug Names.
大型語言模型對於品牌與學名癌症藥物名稱知識的可靠性 JCO Clin Cancer Inform 2025-06-16

這項研究發現，GPT-3.5-turbo-0125、GPT-4-turbo 和 GPT-4o 在腫瘤科藥物品牌名和學名的配對上表現很好，但在較複雜的臨床任務（如藥物交互作用判斷、診斷副作用等）則表現不穩定，甚至有偏誤。特別是 GPT-3.5-turbo-0125 偏好用品牌名。總結來說，這些模型在簡單任務上可靠，但臨床應用還需更嚴謹的評估與改進。 PubMed DOI

原始文章

站上相關主題文章列表