原始文章

這項研究比較多款大型語言模型在自動化 pharmacometrics 任務的表現,發現 Claude 3.5 Sonnet 在產生模型圖、參數表和報告上最準確且易用。ChatGPT 4o 雖能模擬,但遇到複雜模型會卡關。整體來說,LLMs 有助於簡化工作流程,但還是需要專家把關結果。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT-4在社區藥局的表現,包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示,ChatGPT對藥物查詢的回應相當滿意,能引用正確的藥物數據,並成功識別標籤錯誤。在臨床情境中,其建議與藥師相當,特別是在藥物反應評估和健康建議方面。研究指出,ChatGPT可能成為社區藥局的有用工具,但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在藥物審查中的表現,特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM,發現ChatGPT在劑量方案上表現良好,但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用,但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議,而Gemini在基因組學上表現不錯。研究指出,LLM在藥物審查中有潛力,但整合進醫療系統對病人安全至關重要。 PubMed DOI

這項評估針對五種大型語言模型(LLMs)在重症護理藥物治療問題上的表現進行測試,結果顯示ChatGPT-4的準確性最高,達71.6%。LLMs在知識回憶問題上表現較好,但在知識應用問題上則不及藥學博士學生(學生準確性81%)。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練,以改善其應用能力,對於全面藥物管理的使用應謹慎。 PubMed DOI

這項研究評估了十四個大型語言模型(LLMs)在不同臨床情境中推薦抗生素的表現。研究使用標準化提示,針對60個案例的藥物選擇、劑量和治療持續時間進行評估。結果顯示,ChatGPT-o1的準確率最高,達71.7%,劑量正確性達96.7%。而在治療持續時間方面,Gemini表現最佳(75.0%)。不過,各模型在複雜案例中的表現差異明顯,顯示出在臨床應用前仍需謹慎驗證。 PubMed DOI

這篇論文全面介紹大型語言模型(LLMs)在臨床藥理學和轉譯醫學中的應用。內容涵蓋LLMs的基本原則及其在藥物發現和開發各階段的潛在用途,包括靶點識別、臨床前研究和臨床試驗分析。還會強調實際應用,如醫學寫作輔助和加速定量臨床藥理學的分析流程。目的是幫助臨床藥理學家和轉譯科學家有效利用LLMs,改善研究和開發過程。 PubMed DOI

四款大型語言模型用來產生多發性骨髓瘤和AL類澱粉沉積症治療的臨床摘要,Claude在正確性和完整性上表現最好,但沒有任何模型能完全正確。所有模型產出的內容都需要專家審查,目前還不適合單獨用於臨床摘要。 PubMed DOI

這項研究發現,ChatGPT 和 Claude 在協助藥物安全專家偵測藥物交互作用(DDIs)方面表現相近,且都優於 Gemini,尤其在簡單案例中。不過,三款大型語言模型的特異性都不高,容易誤判沒有交互作用的情況。總結來說,LLMs 可作為輔助工具,但專業藥師仍不可或缺,特別是在排除不存在的 DDIs 時。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現,所有模型在PRISMA 2020的判斷上都高估了合規情況,準確度不如人類專家;但在PRIOR指引上,ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究,未來還需更多探討AI在健康研究審查的應用。 PubMed DOI