Evaluating the application of ChatGPT in China's residency training education: An exploratory study.
評估 ChatGPT 在中國住院醫師培訓教育中的應用：一項探索性研究。 Med Teach 2024-07-12

研究發現，在中國醫師教育中使用ChatGPT有正面效果。ChatGPT能回答45.1%考試問題，生成優質臨床案例，並受到醫師肯定。研究指出，ChatGPT在中國可望發揮個人化醫學教育的潛力。 PubMed DOI

Qwen-2.5 Outperforms Other Large Language Models in the Chinese National Nursing Licensing Examination: Retrospective Cross-Sectional Comparative Study.
Qwen-2.5 在中國國家護理執照考試中表現優於其他大型語言模型：回顧性橫斷面比較研究。 JMIR Med Inform 2025-01-10

這項研究評估了七個大型語言模型（LLMs）在中國國家護理執照考試（CNNLE）上的表現，涵蓋了2019至2023年的1200道多選題。結果顯示，Qwen-2.5的準確率最高，達88.9%，接著是GPT-4o（80.7%）和ERNIE Bot-3.5（78.1%）。研究還探討了結合機器學習技術的潛力，使用XGBoost模型後準確率提升至90.8%。這是首個針對CNNLE評估LLMs的研究，顯示它們在醫療教育中的潛力，建議進一步研究以提升考試準備和專業訓練的有效性。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4 in the Taiwan National Pharmacist Licensing Examination: Comparative Evaluation Study.
ChatGPT-3.5 和 ChatGPT-4 在台灣國家藥師執照考試中的表現：比較評估研究。 JMIR Med Educ 2025-01-26

這項研究評估了OpenAI的ChatGPT-3.5和GPT-4在台灣國家藥師執照考試的表現。結果顯示，GPT-4的準確率為72.9%，明顯優於GPT-3.5的59.1%。在基礎科目中，GPT-4得分更高，顯示其在臨床藥學和教育上的潛力。不過，研究也提醒使用者需謹慎，因為模型仍有局限性。未來應著重改進模型的穩定性和問題設計，以更有效評估學生能力。 PubMed DOI

Accuracy, satisfaction, and impact of custom GPT in acquiring clinical knowledge: Potential for AI-assisted medical education.
自訂 GPT 在獲取臨床知識中的準確性、滿意度及影響：AI 輔助醫學教育的潛力。 Med Teach 2025-02-02

最近的人工智慧進展讓大型語言模型能針對特定領域進行客製化，像是醫學教育。本研究評估了一個專為提升醫學生和醫師臨床知識的客製化GPT模型，結果顯示其準確率達83.6%，高於一般AI模型。住院醫師對此模型的滿意度高，特別是它能促進學習獨立性和信心。這些發現顯示，客製化GPT有潛力改善醫學教育，但學習者和教育者仍需批判性地評估AI生成的內容。 PubMed DOI

Evaluation and practical application of prompt-driven ChatGPTs for EMR generation.
基於提示驅動的 ChatGPT 在電子病歷生成中的評估與實際應用。 NPJ Digit Med 2025-02-02

這項研究探討如何透過提示工程提升ChatGPT在肺結節篩檢中生成電子病歷的能力。研究評估了ChatGPT在患者與醫療提供者口頭諮詢中創建電子病歷的表現，並將這技術整合到像微信小程序等實用工具中，方便患者就醫前使用。結果顯示，ChatGPT顯著提升了臨床環境中的工作流程效率和診斷過程。 PubMed DOI

Can ChatGPT-4 perform as a competent physician based on the Chinese critical care examination?
ChatGPT-4 能否根據中國重症醫學考試表現出色的醫生能力？ J Crit Care 2025-03-01

這項研究評估了ChatGPT-4在重症醫學的表現，使用的數據來自中國的健康專業技術考試。ChatGPT-4回答了600個問題，成功率達73.5%，超過60%的及格標準，基礎知識的準確率最高，達81.94%。單選題表現（76.72%）優於多選題（51.32%）。雖然它在臨床決策和醫學教育上顯示潛力，但仍需醫療專業人員的監督，以確保準確性和病人安全。 PubMed DOI

While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試，但 GPT-4 成功符合標準。 J Chin Med Assoc 2025-03-14

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現，特別關注繁體中文的能力。結果顯示，ChatGPT-3.5在基礎醫學科學的準確率為67.7%，臨床醫學為53.2%；而ChatGPT-4的表現明顯優於前者，準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大，但ChatGPT-4在所有科目中均表現良好，顯示AI在醫學教育中的潛力，實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

Performance of ChatGPT-4 on Taiwanese Traditional Chinese Medicine Licensing Examinations: Cross-Sectional Study.
ChatGPT-4 在台灣傳統中醫執照考試中的表現：橫斷面研究。 JMIR Med Educ 2025-03-19

本研究探討了ChatGPT（特別是GPT-4模型）在台灣傳統中醫執照考試中的表現。測試結果顯示，ChatGPT的準確率僅43.9%，遠低於兩位持證中醫師的70%和78.4%。大部分錯誤來自對中醫概念的誤解，顯示其在中醫知識和推理上的局限性。雖然ChatGPT在教育資源方面有潛力，但目前在TCM考試中的表現仍不理想。研究建議需改進專門的中醫AI模型，並對其在中醫教育中的應用保持謹慎，未來應專注於提升模型及開發專屬的學習工具。 PubMed DOI

Evaluating the performance of GPT-3.5, GPT-4, and GPT-4o in the Chinese National Medical Licensing Examination.
GPT-3.5、GPT-4 與 GPT-4o 在中國國家醫師執照考試中的表現評估 Sci Rep 2025-04-24

這項研究發現，GPT-4o在中國醫師執照考試的表現最好，正確率明顯高於GPT-4和GPT-3.5，尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強，未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

Performance of DeepSeek-R1 and ChatGPT-4o on the Chinese National Medical Licensing Examination: A Comparative Study.
DeepSeek-R1 與 ChatGPT-4o 在中國國家醫師執照考試的表現：一項比較研究 J Med Syst 2025-06-03

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示，DeepSeek-R1 的正確率（92.0%）明顯高於 ChatGPT-4o（87.2%），尤其在簡單題目上表現更好，但在難題或特定科目上兩者差異不大。整體來說，DeepSeek-R1 表現較優。 PubMed DOI

原始文章

站上相關主題文章列表