Unlocking the potential of advanced large language models in medication review and reconciliation: A proof-of-concept investigation.
釋放先進大型語言模型在藥物審查和調解中的潛力：一項概念驗證研究。 Explor Res Clin Soc Pharm 2024-09-11

這項研究評估了大型語言模型（LLMs）在藥物審查中的表現，特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM，發現ChatGPT在劑量方案上表現良好，但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用，但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議，而Gemini在基因組學上表現不錯。研究指出，LLM在藥物審查中有潛力，但整合進醫療系統對病人安全至關重要。 PubMed DOI

Accuracy of Prospective Assessments of 4 Large Language Model Chatbot Responses to Patient Questions About Emergency Care: Experimental Comparative Study.
大型語言模型聊天機器人對患者急救問題的前瞻性評估準確性：實驗比較研究。 J Med Internet Res 2024-11-04

最近調查顯示，48%的消費者使用生成式AI查詢健康資訊，但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現，雖然它們在清晰度和可理解性上表現良好，但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間，且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範，並強調諮詢醫療專業人員的重要性，以避免潛在風險。 PubMed DOI

Let's Have a Chat: How Well Does an Artificial Intelligence Chatbot Answer Clinical Infectious Diseases Pharmacotherapy Questions?
讓我們聊聊：人工智慧聊天機器人對臨床傳染病藥物治療問題的回答能力如何？ Open Forum Infect Dis 2024-11-12

這項研究評估了ChatGPT 3.5在傳染病藥物治療問題上的回應質量，並由專家進行評估。結果顯示，只有41.8%的回應被認為有用，且雖然回應的正確性和安全性較高，但完整性不足。專家對回應的共識一般，對正確性和安全性則相當一致。總體來看，GPT-3.5的回應雖然正確且安全，但無法取代傳染病藥師的專業知識。 PubMed DOI

Evaluating Artificial Intelligence-Driven Responses to Acute Liver Failure Queries: A Comparative Analysis Across Accuracy, Clarity, and Relevance.
評估人工智慧驅動的急性肝衰竭問題回應：準確性、清晰度和相關性的比較分析。 Am J Gastroenterol 2024-12-17

最近的研究顯示，透過大型語言模型（LLMs）在急性肝衰竭（ALF）問題上的表現，特別是使用增強檢索生成（RAG）技術的ChatGPT 4，顯示出顯著的優勢。研究中評估了五個模型，結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳，得分分別為4.70、4.89和4.78。相比之下，其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力，但也指出其需持續進化以符合實際需求。 PubMed DOI

Comparative evaluation of artificial intelligence systems' accuracy in providing medical drug dosages: A methodological study.
人工智慧系統在提供醫療藥物劑量準確性之比較評估：一項方法學研究。 World J Methodol 2024-12-23

用藥錯誤，尤其是劑量計算，對醫療保健來說是一大問題。人工智慧（AI）系統如ChatGPT和Google Bard有潛力減少這些錯誤，但其準確性需進一步評估。研究顯示，ChatGPT 4在提供藥物劑量資訊上表現最佳，正確率達83.77%。不過，不同疾病的準確性差異明顯，顯示AI系統仍需改進。這強調了AI在醫療領域的潛力及持續發展的重要性，以確保在關鍵情境中的可靠性。 PubMed DOI

Assessing the accuracy and quality of artificial intelligence (AI) chatbot-generated responses in making patient-specific drug-therapy and healthcare-related decisions.
評估人工智慧 (AI) 聊天機器人生成的回應在制定患者特定藥物療法和醫療相關決策中的準確性和質量。 BMC Med Inform Decis Mak 2024-12-24

這項研究評估了ChatGPT在醫療查詢中的可靠性，透過18個開放式問題來檢視其回應的一致性、品質和準確性。結果顯示，ChatGPT在「什麼」問題上表現較好，但在「為什麼」和「如何」問題上則不理想，出現計算錯誤和不正確的單位等問題，甚至有些引用文獻是虛構的。研究結論認為，ChatGPT目前不適合用於醫療學習者或專業人士，因為其回應不一致且參考資料不可靠，可能影響臨床決策。 PubMed DOI

Evaluating accuracy and reproducibility of large language model performance on critical care assessments in pharmacy education.
評估大型語言模型在藥學教育中對重症護理評估的準確性和可重複性。 Front Artif Intell 2025-01-24

這項評估針對五種大型語言模型（LLMs）在重症護理藥物治療問題上的表現進行測試，結果顯示ChatGPT-4的準確性最高，達71.6%。LLMs在知識回憶問題上表現較好，但在知識應用問題上則不及藥學博士學生（學生準確性81%）。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練，以改善其應用能力，對於全面藥物管理的使用應謹慎。 PubMed DOI

ChatGPT versus physician-derived answers to drug-related questions.
ChatGPT 與醫師提供的藥物相關問題答案的比較。 Dan Med J 2025-02-12

這項研究評估了ChatGPT 3.5和4.0在藥物諮詢服務中的表現。結果顯示，ChatGPT 3.5在80%的案例中提供了不錯的答案，而ChatGPT 4.0的表現更佳，98%的回應與醫生的回答相似或更好。不過，兩者的回應都缺乏參考文獻，有時也未能充分解決臨床相關問題。雖然ChatGPT 4.0的答案品質相當高，但在提供參考和臨床解釋方面的不足，顯示它不太適合成為臨床環境中的主要資訊來源。 PubMed DOI

Artificial intelligence in healthcare education: evaluating the accuracy of ChatGPT, Copilot, and Google Gemini in cardiovascular pharmacology.
醫療教育中的人工智慧：評估 ChatGPT、Copilot 和 Google Gemini 在心血管藥理學中的準確性。 Front Med (Lausanne) 2025-03-06

這項研究分析了三種生成式人工智慧工具—ChatGPT-4、Copilot 和 Google Gemini—在心血管藥理學問題上的表現。研究使用了45道多選題和30道短答題，並由專家評估AI生成的答案準確性。結果顯示，這三種AI在簡單和中等難度的多選題上表現良好，但在高難度題目上表現不佳，特別是Gemini。ChatGPT-4在所有題型中表現最佳，Copilot次之，而Gemini則需改進。這些結果顯示AI在醫學教育中的潛力與挑戰。 PubMed DOI

Generative AI vs. human expertise: a comparative analysis of case-based rational pharmacotherapy question generation.
生成式人工智慧與人類專業知識：基於案例的合理藥物治療問題生成的比較分析。 Eur J Clin Pharmacol 2025-04-09

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示，這些模型生成了60個問題，並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題，結果顯示AI問題的正確率與專家問題相當，且AI生成問題的準備效率顯著提升。然而，仍有19個問題被認為無法使用，顯示專家審查的重要性。結合AI效率與專家驗證的方式，可能是改善醫學教育的最佳策略。 PubMed DOI

原始文章

站上相關主題文章列表