Performance of ChatGPT on Factual Knowledge Questions Regarding Clinical Pharmacy.
ChatGPT 在臨床藥學相關事實知識問題上的表現。 J Clin Pharmacol 2024-04-16

ChatGPT是經過在醫學文獻上訓練的語言模型，用來回答臨床藥學問題。它在準確性、一致性和證據品質方面表現優於藥劑師，準確率達79%，一致性達95%，且73%的問題證據品質為良好/優秀。ChatGPT對藥劑師可能是有幫助的資源，未來有潛力表現更出色。 PubMed DOI

Performance of the ChatGPT large language model for decision support in community pharmacy.
ChatGPT 大型語言模型在社區藥局決策支持中的表現。 Br J Clin Pharmacol 2024-08-27

這項研究評估了ChatGPT-4在社區藥局的表現，包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示，ChatGPT對藥物查詢的回應相當滿意，能引用正確的藥物數據，並成功識別標籤錯誤。在臨床情境中，其建議與藥師相當，特別是在藥物反應評估和健康建議方面。研究指出，ChatGPT可能成為社區藥局的有用工具，但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

Large Language Models and NAPLEX Practice Questions.
大型語言模型與 NAPLEX 練習題。 Am J Pharm Educ 2024-09-22

這項研究評估了三種大型語言模型（LLMs）—GPT-3.5、GPT-4和Chatsonic—在北美藥師執照考試（NAPLEX）練習題上的表現。結果顯示，GPT-4的準確率最高，McGraw Hill題組達87%，RxPrep題組達83.5%。相比之下，GPT-3.5和Chatsonic的表現較差，尤其在選擇所有正確答案的問題上。GPT-4在不良藥物反應（ADR）問題上表現特別優異，顯示其在藥學教育中的潛在應用價值。 PubMed DOI

Large language models (LLMs) in radiology exams for medical students: Performance and consequences.
放射科考試中大型語言模型（LLMs）對醫學生的影響與表現。 Rofo 2024-11-04

這項研究分析了大型語言模型（LLMs），特別是OpenAI的GPT-3.5和GPT-4，在醫學生放射學考試中的表現。使用151道選擇題，結果顯示GPT-3.5的正確率為67.6%，而GPT-4則達到88.1%（p<0.001），表現明顯優於前者。GPT-4在各類問題上都表現良好，顯示其在醫學教育中的潛力。不過，研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看，LLMs在放射學教育上有提升的可能性。 PubMed DOI

ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis.
ChatGPT-4 在 USMLE 學科和臨床技能中的表現：比較分析。 JMIR Med Educ 2024-11-06

最近的研究顯示，像 ChatGPT 這樣的大型語言模型（LLMs）能有效通過美國醫學執照考試（USMLE）。本研究評估了不同版本的 ChatGPT（GPT-3.5、GPT-4 和 GPT-4 Omni）在醫學學科及臨床技能方面的表現。結果顯示，GPT-4 Omni 的準確率最高，達到90.4%，明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力，但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

Performance of GPT-3.5 and GPT-4 on the Korean Pharmacist Licensing Examination: Comparison Study.
GPT-3.5 和 GPT-4 在韓國藥師執照考試中的表現：比較研究。 JMIR Med Educ 2024-12-04

這項研究評估了兩個版本的ChatGPT（GPT-3.5和GPT-4）在韓國藥師執照考試的表現，分析了960道選擇題。結果顯示，GPT-4的正確率為86.5%，明顯優於GPT-3.5的60.7%。GPT-4在生物藥學表現最佳，但在醫療健康法規方面最差。與人類藥學學生相比，GPT-3.5的表現較差，而GPT-4則與學生相當或更佳。研究指出大型語言模型在藥學教育中有潛力，但仍需進一步研究以確保其可靠性和安全性。 PubMed DOI

Aligning Large Language Models with Humans: A Comprehensive Survey of ChatGPT's Aptitude in Pharmacology.
與人類對齊的大型語言模型：ChatGPT 在藥理學中的能力綜合調查。 Drugs 2024-12-20

這項研究探討大型語言模型（LLMs）在藥理學中的挑戰，因為缺乏全面的測試集。研究團隊創建了一個包含藥物資訊檢索、先導化合物結構優化及研究趨勢分析的測試集，並評估了GPT-3.5和GPT-4的表現。結果顯示這兩個模型在藥物特性、動力學及毒性預測等方面表現優異，但在藥物識別和互動資訊檢索上仍有不足。研究建議透過檢索增強生成（RAG）方法，整合專業知識庫，以提升LLMs在藥理學的應用效果。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4 in the Taiwan National Pharmacist Licensing Examination: Comparative Evaluation Study.
ChatGPT-3.5 和 ChatGPT-4 在台灣國家藥師執照考試中的表現：比較評估研究。 JMIR Med Educ 2025-01-26

這項研究評估了OpenAI的ChatGPT-3.5和GPT-4在台灣國家藥師執照考試的表現。結果顯示，GPT-4的準確率為72.9%，明顯優於GPT-3.5的59.1%。在基礎科目中，GPT-4得分更高，顯示其在臨床藥學和教育上的潛力。不過，研究也提醒使用者需謹慎，因為模型仍有局限性。未來應著重改進模型的穩定性和問題設計，以更有效評估學生能力。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

原始文章

站上相關主題文章列表