Performance of large language models in the National Dental Licensing Examination in China: a comparative analysis of ChatGPT, GPT-4, and New Bing.
中國國家牙科執照考試中大型語言模型的表現：ChatGPT、GPT-4 和 New Bing 的比較分析。 Int J Comput Dent 2024-12-09

這項研究評估了大型語言模型（LLMs）如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試（NDLE）的表現。研究使用2020至2022年的考題，結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異，明顯超越其他兩者。不過，GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足，顯示出改進的空間。整體來看，這些模型在NDLE中展現出強大能力，但仍需加強某些領域。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

Evaluating the Performance of Large Language Models (LLMs) in Answering and Analysing the Chinese Dental Licensing Examination.
評估大型語言模型 (LLMs) 在回答和分析中國牙科執照考試中的表現。 Eur J Dent Educ 2025-01-31

這項研究評估了多種大型語言模型（LLMs）在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題，並在三種情境下測試七個高效能的LLMs。結果顯示，Doubao-pro 32k和Qwen2-72b的準確性最高，分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異，但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試，但 GPT-4 成功符合標準。 J Chin Med Assoc 2025-03-14

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現，特別關注繁體中文的能力。結果顯示，ChatGPT-3.5在基礎醫學科學的準確率為67.7%，臨床醫學為53.2%；而ChatGPT-4的表現明顯優於前者，準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大，但ChatGPT-4在所有科目中均表現良好，顯示AI在醫學教育中的潛力，實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

Performance of ChatGPT-4 on Taiwanese Traditional Chinese Medicine Licensing Examinations: Cross-Sectional Study.
ChatGPT-4 在台灣傳統中醫執照考試中的表現：橫斷面研究。 JMIR Med Educ 2025-03-19

本研究探討了ChatGPT（特別是GPT-4模型）在台灣傳統中醫執照考試中的表現。測試結果顯示，ChatGPT的準確率僅43.9%，遠低於兩位持證中醫師的70%和78.4%。大部分錯誤來自對中醫概念的誤解，顯示其在中醫知識和推理上的局限性。雖然ChatGPT在教育資源方面有潛力，但目前在TCM考試中的表現仍不理想。研究建議需改進專門的中醫AI模型，並對其在中醫教育中的應用保持謹慎，未來應專注於提升模型及開發專屬的學習工具。 PubMed DOI

Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning.
DeepSeek 大型語言模型在醫學任務與臨床推理上的比較性基準評估 Nat Med 2025-04-23

DeepSeek-R1 是新推出的大型語言模型，醫學任務表現比 Llama 3.1-405B 好，USMLE 題目略輸 ChatGPT-o1，病例推理和腫瘤分類則差不多。診斷推理步驟準確度更高，但影像報告摘要品質還不如 ChatGPT-o1。整體來說，DeepSeek-R1 在醫療領域很有潛力，但還有進步空間。 PubMed DOI

Evaluating the performance of GPT-3.5, GPT-4, and GPT-4o in the Chinese National Medical Licensing Examination.
GPT-3.5、GPT-4 與 GPT-4o 在中國國家醫師執照考試中的表現評估 Sci Rep 2025-04-24

這項研究發現，GPT-4o在中國醫師執照考試的表現最好，正確率明顯高於GPT-4和GPT-3.5，尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強，未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

Large language model comparisons between English and Chinese query performance for cardiovascular prevention.
英語與中文查詢在心血管預防領域中大型語言模型表現之比較 Commun Med (Lond) 2025-05-16

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現，ChatGPT-4.0 英文答題最準確且自我覺察，中文則是 ERNIE 表現較好。不過，所有模型在中文表現都稍差，顯示有語言偏差。這提醒我們，AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

DeepSeek vs ChatGPT: a comparison study of their performance in answering prostate cancer radiotherapy questions in multiple languages.
DeepSeek 與 ChatGPT：多語言前列腺癌放射治療問答表現之比較研究 Am J Clin Exp Urol 2025-05-22

這項研究發現，DeepSeek 在用中文回答前列腺癌放射治療問題時，表現明顯優於 ChatGPT，尤其在基礎知識和治療照護方面更突出；但用英文時，兩者差異不大。這顯示選擇語言優化的 AI 模型很重要，但專家審查仍不可或缺。 PubMed DOI

A Comparative Analysis of GPT-4o and ERNIE Bot in a Chinese Radiation Oncology Exam.
GPT-4o 與 ERNIE Bot 在中國放射腫瘤學考試中的比較分析 J Cancer Educ 2025-05-26

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現，兩者都達及格分，GPT-4o得分79.3%，ERNIE Bot為76.9%，差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定，答題一致時正確率更高（84.5%）。結果顯示，這兩款AI有助於中文醫學教育，對非英語醫學訓練很有潛力。 PubMed DOI

原始文章

站上相關主題文章列表