Performance of ChatGPT-3.5 and ChatGPT-4 in the Taiwan National Pharmacist Licensing Examination: Comparative Evaluation Study.
ChatGPT-3.5 和 ChatGPT-4 在台灣國家藥師執照考試中的表現：比較評估研究。 JMIR Med Educ 2025-01-26

這項研究評估了OpenAI的ChatGPT-3.5和GPT-4在台灣國家藥師執照考試的表現。結果顯示，GPT-4的準確率為72.9%，明顯優於GPT-3.5的59.1%。在基礎科目中，GPT-4得分更高，顯示其在臨床藥學和教育上的潛力。不過，研究也提醒使用者需謹慎，因為模型仍有局限性。未來應著重改進模型的穩定性和問題設計，以更有效評估學生能力。 PubMed DOI

An Evaluation of the Performance of OpenAI-o1 and GPT-4o in the Japanese National Examination for Physical Therapists.
對於 OpenAI-o1 和 GPT-4o 在日本物理治療師國家考試中的表現評估。 Cureus 2025-02-06

最近大型語言模型（LLMs）在醫療領域的應用逐漸增加，特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示，OpenAI-o1的正確率達97.0%，解釋準確率為86.4%；而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性，未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試，但 GPT-4 成功符合標準。 J Chin Med Assoc 2025-03-14

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現，特別關注繁體中文的能力。結果顯示，ChatGPT-3.5在基礎醫學科學的準確率為67.7%，臨床醫學為53.2%；而ChatGPT-4的表現明顯優於前者，準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大，但ChatGPT-4在所有科目中均表現良好，顯示AI在醫學教育中的潛力，實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

Exploratory Assessment of GPT-4's Effectiveness in Generating Valid Exam Items in Pharmacy Education.
GPT-4 在產生有效藥學教育考題之成效的初步評估 Am J Pharm Educ 2025-04-17

研究發現，GPT-4雖能協助產生藥學多選題，但品質參差不齊，僅少數題目可直接使用，大多仍需專家審查和修改。考題難度分布不均，部分題目也不夠合適。整體來說，AI可輔助出題，但還不能完全取代專業審核。 PubMed DOI

Evaluating Chat Generative Pretrained Transformer (GPT-4o) Problem-Solving Performance in the Japan Certificate Examination for Biomedical Engineering Class 1.
在日本生物醫學工程一級認證考試中評估 Chat Generative Pretrained Transformer (GPT-4o) 的問題解決表現 Cureus 2025-04-23

這項研究發現，ChatGPT（GPT-4o）在日本生物醫學工程一級認證考試的答對率約為58%到68%，只有一年有及格。主要錯誤來自知識不足、理解錯誤或亂編答案。雖然有一定表現，但目前還不夠穩定，無法完全信賴。 PubMed DOI

Evaluating the performance of GPT-3.5, GPT-4, and GPT-4o in the Chinese National Medical Licensing Examination.
GPT-3.5、GPT-4 與 GPT-4o 在中國國家醫師執照考試中的表現評估 Sci Rep 2025-04-24

這項研究發現，GPT-4o在中國醫師執照考試的表現最好，正確率明顯高於GPT-4和GPT-3.5，尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強，未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

Performance of GPT-4 Turbo and GPT-4o in Korean Society of Radiology In-Training Examinations.
GPT-4 Turbo 與 GPT-4o 在韓國放射線醫學會住院醫師訓練考試中的表現 Korean J Radiol 2025-04-27

這項研究發現，GPT-4o在放射科考題（含純文字和影像題）表現比GPT-4 Turbo更好。影像題方面，兩者和一年級住院醫師差不多，但不如資深住院醫師；純文字題則都勝過所有住院醫師。不論題目是韓文還是英文，兩款模型表現都很穩定。 PubMed DOI

Can ChatGPT-4o Really Pass Medical Science Exams? A Pragmatic Analysis Using Novel Questions.
ChatGPT-4o 真的能通過醫學科學考試嗎？以新穎試題進行的實用性分析 Med Sci Educ 2025-05-12

ChatGPT-4o 在英美醫師執照考試表現亮眼，即使遇到全新題目也能高分，證明不是只靠背題庫。不過，遇到圖片型選項時表現就變差。這說明單靠出新題或圖片題，無法完全防堵 AI 作弊，還是得有嚴格監考和安全措施，才能確保考試公平。 PubMed DOI

Advancing medical AI: GPT-4 and GPT-4o surpass GPT-3.5 in Taiwanese medical licensing exams.
推進醫療 AI：GPT-4 與 GPT-4o 在台灣醫師國考中表現超越 GPT-3.5 PLoS One 2025-06-04

這項研究發現，GPT-4和GPT-4o在台灣SPTEMD醫學考題（不含圖片題）上的正確率都超過95%，明顯優於GPT-3.5的66%。兩者在中英文題目表現都很穩定，且已達醫學考試標準。未來建議進一步探討AI在醫學教育和考試上的應用方式。 PubMed DOI

Evaluating the Accuracy and Performance of ChatGPT-4o in Solving Japanese National Dental Technician Examination.
ChatGPT-4o 在解答日本國家牙科技術師考試中的準確性與表現評估 Int Dent J 2025-06-10

這項研究發現，ChatGPT-4o在日本牙體技術師考試的基礎知識題表現不錯，但遇到專業、需要看圖或操作的題目就比較不行。它在牙科材料題的正確率最高，但在矯正和兒童牙科技術題表現較差。整體來說，ChatGPT-4o適合當牙科學習輔助工具，但影像辨識和操作模擬能力還要再加強。 PubMed DOI

原始文章

站上相關主題文章列表