Performance of Language Models on the Family Medicine In-Training Exam.
家庭醫學在職考試中語言模型的表現。 Fam Med 2024-08-29

這項研究評估了三個大型語言模型（LLMs）在家庭醫學住院醫師訓練考試中的表現，使用了2022年的193道選擇題。結果顯示，ChatGPT 4.0 獲得167分（86.5%），標準化分數730，顯示出100%通過專科考試的機會。相比之下，ChatGPT 3.5 和 Google Bard 的得分較低，分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示，ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

Large Language Models and NAPLEX Practice Questions.
大型語言模型與 NAPLEX 練習題。 Am J Pharm Educ 2024-09-22

這項研究評估了三種大型語言模型（LLMs）—GPT-3.5、GPT-4和Chatsonic—在北美藥師執照考試（NAPLEX）練習題上的表現。結果顯示，GPT-4的準確率最高，McGraw Hill題組達87%，RxPrep題組達83.5%。相比之下，GPT-3.5和Chatsonic的表現較差，尤其在選擇所有正確答案的問題上。GPT-4在不良藥物反應（ADR）問題上表現特別優異，顯示其在藥學教育中的潛在應用價值。 PubMed DOI

Aligning Large Language Models with Humans: A Comprehensive Survey of ChatGPT's Aptitude in Pharmacology.
與人類對齊的大型語言模型：ChatGPT 在藥理學中的能力綜合調查。 Drugs 2024-12-20

這項研究探討大型語言模型（LLMs）在藥理學中的挑戰，因為缺乏全面的測試集。研究團隊創建了一個包含藥物資訊檢索、先導化合物結構優化及研究趨勢分析的測試集，並評估了GPT-3.5和GPT-4的表現。結果顯示這兩個模型在藥物特性、動力學及毒性預測等方面表現優異，但在藥物識別和互動資訊檢索上仍有不足。研究建議透過檢索增強生成（RAG）方法，整合專業知識庫，以提升LLMs在藥理學的應用效果。 PubMed DOI

Evaluating accuracy and reproducibility of large language model performance on critical care assessments in pharmacy education.
評估大型語言模型在藥學教育中對重症護理評估的準確性和可重複性。 Front Artif Intell 2025-01-24

這項評估針對五種大型語言模型（LLMs）在重症護理藥物治療問題上的表現進行測試，結果顯示ChatGPT-4的準確性最高，達71.6%。LLMs在知識回憶問題上表現較好，但在知識應用問題上則不及藥學博士學生（學生準確性81%）。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練，以改善其應用能力，對於全面藥物管理的使用應謹慎。 PubMed DOI

Comparison of Large Language Models' Performance on 600 Nuclear Medicine Technology Board Examination-Style Questions.
大型語言模型在600題核醫技術師國家考試題型上的表現比較 J Nucl Med Technol 2025-05-09

這項研究比較多款大型語言模型（LLM）在核子醫學題目的表現，發現結合檢索增強生成（RAG）的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力，但對複雜指引和影像題還不夠理想，未來還需再優化才能安心用於醫療領域。 PubMed DOI

Performance of large language models on Thailand's national medical licensing examination: a cross-sectional study.
大型語言模型在泰國國家醫師執照考試中的表現：一項橫斷面研究 J Educ Eval Health Prof 2025-05-12

這項研究讓四款大型語言模型參加泰國醫師執照模擬考，發現它們分數都超過及格線，GPT-4表現最好，正確率高達88.9%。雖然大多數醫學主題都答得不錯，但在遺傳學和心血管題目上較弱。圖片題有進步空間，純文字題表現較佳。整體來說，LLMs對泰國醫學生準備考試很有幫助，但還需加強某些主題和圖片題的能力。 PubMed DOI

Comparison of a generative large language model to pharmacy student performance on therapeutics examinations.
生成式大型語言模型與藥學系學生在治療學考試表現之比較 Curr Pharm Teach Learn 2025-05-23

ChatGPT-3.5 在治療學考試的表現明顯不如藥學系學生，分數只有 53%，學生平均則有 82%。它在需要應用和案例分析的題目上特別吃力，只有在記憶型題目表現較好，顯示生成式 AI 在複雜醫學教育任務上還有不少限制。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Performance of large language models on family medicine licensing exams.
大型語言模型在家庭醫學執照考試中的表現 Fam Pract 2025-06-09

這項研究發現，多款主流大型語言模型在以色列基層醫療執照考試中表現不錯，尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%，解釋也多半正確有邏輯，但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力，但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI

Evaluating Large Language Models on American Board of Anesthesiology-style Anesthesiology Questions: Accuracy, Domain Consistency, and Clinical Implications.
以美國麻醉科醫學會（American Board of Anesthesiology）風格麻醉學試題評估大型語言模型：準確性、領域一致性與臨床意涵 J Cardiothorac Vasc Anesth 2025-06-15

五款主流大型語言模型（如ChatGPT-4、Gemini等）在麻醉學考題測試中都拿到高分，彼此表現差不多，顯示未來有望協助醫學教育和臨床決策。不過，還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI

原始文章

站上相關主題文章列表