Evaluating accuracy and reproducibility of large language model performance on critical care assessments in pharmacy education.
評估大型語言模型在藥學教育中對重症護理評估的準確性和可重複性。 Front Artif Intell 2025-01-24

這項評估針對五種大型語言模型（LLMs）在重症護理藥物治療問題上的表現進行測試，結果顯示ChatGPT-4的準確性最高，達71.6%。LLMs在知識回憶問題上表現較好，但在知識應用問題上則不及藥學博士學生（學生準確性81%）。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練，以改善其應用能力，對於全面藥物管理的使用應謹慎。 PubMed DOI

ChatGPT (GPT-4V) Performance on the Healthcare Information Technologist Examination in Japan.
ChatGPT (GPT-4V) 在日本醫療資訊技術人員考試中的表現。 Cureus 2025-02-03

本研究評估了ChatGPT（GPT-4V）在日本醫療資訊技術人員（HCIT）認證考試中的表現。經過三年，分析了476道考題，結果顯示ChatGPT的正確回答率達84%，成功通過考試。簡單選擇題的表現優於多選題，且帶圖片的問題和需要計算的題目正確率較低。總體而言，ChatGPT具備HCIT認證所需的基本知識和技能，顯示其在醫療資訊領域的潛力。 PubMed DOI

A comparative analysis of GPT-3.5 and GPT-4.0 on a multiple-choice ophthalmology question bank: A study on artificial intelligence developments.
GPT-3.5 與 GPT-4.0 在多選眼科題庫上的比較分析：人工智慧發展的研究。 Rom J Ophthalmol 2025-02-12

這項研究評估了ChatGPT-4.0和ChatGPT-3.5在回答眼科問題準備庫中的多選題表現。隨機選取520道問題，結果顯示GPT-4.0正確率為78.46%（408道），而GPT-3.5為64.15%（333道），兩者差異具統計意義（p=0.0195）。GPT-4.0在所有子群分析中均優於GPT-3.5，顯示其在處理複雜醫學數據的能力更強。研究強調AI在醫學領域的潛力，並建議需有監考等措施以確保線上測試的完整性。呼籲進一步研究AI在臨床決策中的應用。 PubMed DOI

Can ChatGPT-4 perform as a competent physician based on the Chinese critical care examination?
ChatGPT-4 能否根據中國重症醫學考試表現出色的醫生能力？ J Crit Care 2025-03-01

這項研究評估了ChatGPT-4在重症醫學的表現，使用的數據來自中國的健康專業技術考試。ChatGPT-4回答了600個問題，成功率達73.5%，超過60%的及格標準，基礎知識的準確率最高，達81.94%。單選題表現（76.72%）優於多選題（51.32%）。雖然它在臨床決策和醫學教育上顯示潛力，但仍需醫療專業人員的監督，以確保準確性和病人安全。 PubMed DOI

ChatGPT's Performance on Portuguese Medical Examination Questions: Comparative Analysis of ChatGPT-3.5 Turbo and ChatGPT-4o Mini.
ChatGPT 在葡萄牙語醫學考試問題上的表現：ChatGPT-3.5 Turbo 與 ChatGPT-4o Mini 的比較分析。 JMIR Med Educ 2025-03-05

ChatGPT的進步對醫學教育產生了顯著影響，透過創新的評估和學習工具，提升醫生的評估效果。一項研究評估了ChatGPT-3.5 Turbo和ChatGPT-4o mini在2023年葡萄牙語專科訓練入學考試中的表現。結果顯示，ChatGPT-4o mini的準確率達65%，超越了ChatGPT-3.5 Turbo及部分醫學考生的表現。這強調了ChatGPT在醫學教育中的潛力，但也提醒需在教師監督下謹慎使用，並需進一步研究。 PubMed DOI

While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試，但 GPT-4 成功符合標準。 J Chin Med Assoc 2025-03-14

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現，特別關注繁體中文的能力。結果顯示，ChatGPT-3.5在基礎醫學科學的準確率為67.7%，臨床醫學為53.2%；而ChatGPT-4的表現明顯優於前者，準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大，但ChatGPT-4在所有科目中均表現良好，顯示AI在醫學教育中的潛力，實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

Performance of ChatGPT-4 on Taiwanese Traditional Chinese Medicine Licensing Examinations: Cross-Sectional Study.
ChatGPT-4 在台灣傳統中醫執照考試中的表現：橫斷面研究。 JMIR Med Educ 2025-03-19

本研究探討了ChatGPT（特別是GPT-4模型）在台灣傳統中醫執照考試中的表現。測試結果顯示，ChatGPT的準確率僅43.9%，遠低於兩位持證中醫師的70%和78.4%。大部分錯誤來自對中醫概念的誤解，顯示其在中醫知識和推理上的局限性。雖然ChatGPT在教育資源方面有潛力，但目前在TCM考試中的表現仍不理想。研究建議需改進專門的中醫AI模型，並對其在中醫教育中的應用保持謹慎，未來應專注於提升模型及開發專屬的學習工具。 PubMed DOI

Evaluating the performance of GPT-3.5, GPT-4, and GPT-4o in the Chinese National Medical Licensing Examination.
GPT-3.5、GPT-4 與 GPT-4o 在中國國家醫師執照考試中的表現評估 Sci Rep 2025-04-24

這項研究發現，GPT-4o在中國醫師執照考試的表現最好，正確率明顯高於GPT-4和GPT-3.5，尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強，未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

Comparison of a generative large language model to pharmacy student performance on therapeutics examinations.
生成式大型語言模型與藥學系學生在治療學考試表現之比較 Curr Pharm Teach Learn 2025-05-23

ChatGPT-3.5 在治療學考試的表現明顯不如藥學系學生，分數只有 53%，學生平均則有 82%。它在需要應用和案例分析的題目上特別吃力，只有在記憶型題目表現較好，顯示生成式 AI 在複雜醫學教育任務上還有不少限制。 PubMed DOI

Advancing medical AI: GPT-4 and GPT-4o surpass GPT-3.5 in Taiwanese medical licensing exams.
推進醫療 AI：GPT-4 與 GPT-4o 在台灣醫師國考中表現超越 GPT-3.5 PLoS One 2025-06-04

這項研究發現，GPT-4和GPT-4o在台灣SPTEMD醫學考題（不含圖片題）上的正確率都超過95%，明顯優於GPT-3.5的66%。兩者在中英文題目表現都很穩定，且已達醫學考試標準。未來建議進一步探討AI在醫學教育和考試上的應用方式。 PubMed DOI

原始文章

站上相關主題文章列表