原始文章

這項研究探討了名為DELSTAR的客製化大型語言模型,旨在協助臨床藥學研究,特別是針對藥物相關的譫妄問題。研究評估DELSTAR在回答複雜臨床問題上的能力與表現,結果顯示其提供的資訊比傳統文獻回顧更準確且全面。DELSTAR的基礎模型中,GPT-3.5和GPT-4o表現最佳,但仍需改進數據品質和性能。總體而言,DELSTAR在臨床藥學研究中展現潛力,建議進一步微調以提升效能。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT-4在社區藥局的表現,包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示,ChatGPT對藥物查詢的回應相當滿意,能引用正確的藥物數據,並成功識別標籤錯誤。在臨床情境中,其建議與藥師相當,特別是在藥物反應評估和健康建議方面。研究指出,ChatGPT可能成為社區藥局的有用工具,但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在藥物審查中的表現,特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM,發現ChatGPT在劑量方案上表現良好,但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用,但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議,而Gemini在基因組學上表現不錯。研究指出,LLM在藥物審查中有潛力,但整合進醫療系統對病人安全至關重要。 PubMed DOI

這項評估針對五種大型語言模型(LLMs)在重症護理藥物治療問題上的表現進行測試,結果顯示ChatGPT-4的準確性最高,達71.6%。LLMs在知識回憶問題上表現較好,但在知識應用問題上則不及藥學博士學生(學生準確性81%)。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練,以改善其應用能力,對於全面藥物管理的使用應謹慎。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs),如BART和GPT-4,從MedHelp論壇的用戶評論中識別藥物停用事件(DDEs)。DDEs對藥物依從性和病人結果至關重要,但研究仍不多。研究人員建立了一個靈活的框架,並發布了首個開源DDE數據集,以促進後續研究。結果顯示,GPT-4o在識別根本原因上表現優異,而BART在檢測DDEs方面最有效。這項研究顯示了LLMs在分析公開數據的潛力,並鼓勵進一步探索。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

這項研究探討了使用開源大型語言模型Llama 3,分析2018至2023年間去中心化臨床試驗(DCTs)的趨勢,並解決試驗登記中術語不標準的問題。研究人員從ClinicalTrials.gov獲取數據,使用三個不同版本的Llama 3模型進行DCT分類和提取去中心化元素。結果顯示,微調模型能提高敏感性,但正確預測值較低,需專注於DCT術語。最終識別出692個DCT,主要為第二期試驗,顯示大型語言模型在分析非結構化臨床數據的潛力,並強調管理模型偏見的重要性。 PubMed DOI

這項研究發現,用大型語言模型(像Llama3和Phi3)分析護理紀錄來偵測譫妄,比傳統的關鍵字比對更準確。特別是finetuning後的Phi3(3.8B)模型,準確率高達90.24%,AUROC也有96.07%,顯示AI有助於提升臨床譫妄偵測的效率和準確性。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI