Assessment Study of ChatGPT-3.5's Performance on the Final Polish Medical Examination: Accuracy in Answering 980 Questions.
ChatGPT-3.5 在波蘭醫學最終考試中的表現評估研究：回答 980 題問題的準確性。 Healthcare (Basel) 2024-08-29

這項研究調查了ChatGPT-3.5在波蘭醫學期末考試的表現，考試包含200道題目，評估醫學知識。分析980道題目後，發現ChatGPT的平均正確率約60%，顯著低於人類考生（p < 0.001）。不同科目表現差異大，血液學準確率最低（42.1%），內分泌學最高（78.6%）。研究顯示題目難度與正確性有顯著相關（p = 0.04），但題型對準確性影響不大（p = 0.46）。結果顯示ChatGPT-3.5可輔助考試準備，但需謹慎對待，建議與其他AI工具進行驗證。 PubMed DOI

Comparison of the Performance of Artificial Intelligence Versus Medical Professionals in the Polish Final Medical Examination.
人工智慧與醫療專業人員在波蘭最終醫學考試中的表現比較。 Cureus 2024-09-02

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現，特別是3.5和4.0版本。分析196道選擇題後，發現3.5版本的正確率為50.51%，而4.0版本提升至77.55%，超過及格線56%。值得注意的是，3.5版本對正確答案的信心較高，而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看，ChatGPT 4.0在醫學教育和評估中展現了潛力，未來版本如5.0預期會有更好表現。 PubMed DOI

GPT-4o vs. Human Candidates: Performance Analysis in the Polish Final Dentistry Examination.
GPT-4o 與人類考生：波蘭最終牙科考試的表現分析。 Cureus 2024-10-07

這項研究評估了OpenAI的GPT-4o在波蘭的牙科考試（LDEK）中的表現，並與人類考生進行比較。GPT-4o的正確率為70.85%，在保守牙科和假牙牙科表現較佳，但在兒童牙科和矯正牙科則較差。臨床案例問題的準確性明顯低於事實性問題。研究顯示，GPT-4o在牙科教育中有輔助潛力，但在臨床推理和批判性思維上仍不及人類考生，特別是在複雜情境中。 PubMed DOI

Assessing AI efficacy in medical knowledge tests: A study using Taiwan's internal medicine exam questions from 2020 to 2023.
評估人工智慧在醫學知識測試中的效能：以2020至2023年台灣內科考試題目為例。 Digit Health 2024-10-21

這項研究評估了生成式人工智慧模型在正式醫學考試中的表現，使用了台灣內科醫學會的考題。測試了三個AI模型：GPT-4o、Claude_3.5 Sonnet和Gemini Advanced。結果顯示，GPT-4o在2022年達到最高分86.25，Claude_3.5 Sonnet在精神科和腎臟科表現優異，最高分88.13，而Gemini Advanced的平均分較低。所有模型在文字題上表現較好，顯示AI在醫學教育中有潛力，但不同專科和問題類型的熟練程度仍有差異。 PubMed DOI

An investigative analysis - ChatGPT's capability to excel in the Polish speciality exam in pathology.
一項調查分析 - ChatGPT 在病理學波蘭專科考試中的卓越能力。 Pol J Pathol 2024-10-25

這項研究評估了ChatGPT-3.5在回答病理形態學問題的有效性，特別針對國家專業考試（PES）。研究中，ChatGPT-3.5對119道考題的得分僅為45.38%，遠低於及格標準。它在需要理解和批判性思考的問題上表現較佳，但在記憶性問題上則較弱。結果顯示，雖然ChatGPT-3.5可作為教育工具，但在病理形態學的準確性上仍無法與人類專家相比，顯示出進一步提升AI模型的必要性。 PubMed DOI

Comparitive performance of artificial intelligence-based large language models on the orthopedic in-training examination.
人工智慧大型語言模型在骨科訓練考試中的比較表現。 J Orthop Surg (Hong Kong) 2025-03-03

這項研究評估了三個大型語言模型（LLMs）—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試（OITE）中的表現。結果顯示，GPT-4的表現超過及格門檻，與高年級住院醫師相當，明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格，且在影像相關問題上，GPT-3.5表現顯著下降。整體來看，GPT-4在各類問題上展現出強大的能力，超越了考試的最低要求。 PubMed DOI

Evaluating the performance of GPT-3.5, GPT-4, and GPT-4o in the Chinese National Medical Licensing Examination.
GPT-3.5、GPT-4 與 GPT-4o 在中國國家醫師執照考試中的表現評估 Sci Rep 2025-04-24

這項研究發現，GPT-4o在中國醫師執照考試的表現最好，正確率明顯高於GPT-4和GPT-3.5，尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強，未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

A Comparative Analysis of GPT-4o and ERNIE Bot in a Chinese Radiation Oncology Exam.
GPT-4o 與 ERNIE Bot 在中國放射腫瘤學考試中的比較分析 J Cancer Educ 2025-05-26

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現，兩者都達及格分，GPT-4o得分79.3%，ERNIE Bot為76.9%，差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定，答題一致時正確率更高（84.5%）。結果顯示，這兩款AI有助於中文醫學教育，對非英語醫學訓練很有潛力。 PubMed DOI

Performance of DeepSeek-R1 and ChatGPT-4o on the Chinese National Medical Licensing Examination: A Comparative Study.
DeepSeek-R1 與 ChatGPT-4o 在中國國家醫師執照考試的表現：一項比較研究 J Med Syst 2025-06-03

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示，DeepSeek-R1 的正確率（92.0%）明顯高於 ChatGPT-4o（87.2%），尤其在簡單題目上表現更好，但在難題或特定科目上兩者差異不大。整體來說，DeepSeek-R1 表現較優。 PubMed DOI

Advancing medical AI: GPT-4 and GPT-4o surpass GPT-3.5 in Taiwanese medical licensing exams.
推進醫療 AI：GPT-4 與 GPT-4o 在台灣醫師國考中表現超越 GPT-3.5 PLoS One 2025-06-04

這項研究發現，GPT-4和GPT-4o在台灣SPTEMD醫學考題（不含圖片題）上的正確率都超過95%，明顯優於GPT-3.5的66%。兩者在中英文題目表現都很穩定，且已達醫學考試標準。未來建議進一步探討AI在醫學教育和考試上的應用方式。 PubMed DOI

原始文章

站上相關主題文章列表