原始文章

這項研究探討了名為DELSTAR的客製化大型語言模型,旨在協助臨床藥學研究,特別是針對藥物相關的譫妄問題。研究評估DELSTAR在回答複雜臨床問題上的能力與表現,結果顯示其提供的資訊比傳統文獻回顧更準確且全面。DELSTAR的基礎模型中,GPT-3.5和GPT-4o表現最佳,但仍需改進數據品質和性能。總體而言,DELSTAR在臨床藥學研究中展現潛力,建議進一步微調以提升效能。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT-4在社區藥局的表現,包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示,ChatGPT對藥物查詢的回應相當滿意,能引用正確的藥物數據,並成功識別標籤錯誤。在臨床情境中,其建議與藥師相當,特別是在藥物反應評估和健康建議方面。研究指出,ChatGPT可能成為社區藥局的有用工具,但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在藥物審查中的表現,特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM,發現ChatGPT在劑量方案上表現良好,但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用,但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議,而Gemini在基因組學上表現不錯。研究指出,LLM在藥物審查中有潛力,但整合進醫療系統對病人安全至關重要。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—GPT-3.5、GPT-4和Chatsonic—在北美藥師執照考試(NAPLEX)練習題上的表現。結果顯示,GPT-4的準確率最高,McGraw Hill題組達87%,RxPrep題組達83.5%。相比之下,GPT-3.5和Chatsonic的表現較差,尤其在選擇所有正確答案的問題上。GPT-4在不良藥物反應(ADR)問題上表現特別優異,顯示其在藥學教育中的潛在應用價值。 PubMed DOI

最近大型語言模型在醫療和製藥領域的進展顯著。本研究評估了六個主要模型在回答患者自我照護問題的表現,重點在準確性和上下文敏感性。結果顯示,這些模型通常能提供準確的健康資訊,但回應存在變異,有些建議可能不安全。影響答案質量的因素包括語言、問題結構和使用者背景。GPT 4.0 獲得最高分,研究強調需謹慎驗證資訊,以降低錯誤風險,並建立基準以改善人工智慧在自我照護中的應用。 PubMed DOI

這項研究評估大型語言模型(LLMs)在改善電子處方流程中的有效性,特別是針對用藥指示的清晰度和個人化。研究人員根據巴西的電子處方標準,開發了以病人為中心的指導方針,並測試了三種不同的提示。結果顯示,第三個提示顯著提升了輸出的適切性,達到94.3%的可接受性,且個人化評價也相當高。雖然封閉源LLM在前兩個提示中出現性別偏見,但第三個提示成功消除了這種偏見。整體而言,這項研究顯示LLMs在促進醫療溝通方面的潛力。 PubMed DOI

這項評估針對五種大型語言模型(LLMs)在重症護理藥物治療問題上的表現進行測試,結果顯示ChatGPT-4的準確性最高,達71.6%。LLMs在知識回憶問題上表現較好,但在知識應用問題上則不及藥學博士學生(學生準確性81%)。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練,以改善其應用能力,對於全面藥物管理的使用應謹慎。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

這項研究探討了使用開源大型語言模型Llama 3,分析2018至2023年間去中心化臨床試驗(DCTs)的趨勢,並解決試驗登記中術語不標準的問題。研究人員從ClinicalTrials.gov獲取數據,使用三個不同版本的Llama 3模型進行DCT分類和提取去中心化元素。結果顯示,微調模型能提高敏感性,但正確預測值較低,需專注於DCT術語。最終識別出692個DCT,主要為第二期試驗,顯示大型語言模型在分析非結構化臨床數據的潛力,並強調管理模型偏見的重要性。 PubMed DOI