Evaluation of the performance of GPT-3.5 and GPT-4 on the Polish Medical Final Examination.
評估 GPT-3.5 和 GPT-4 在波蘭醫學期末考試上的表現。 Sci Rep 2023-12-20

研究比較了ChatGPT（GPT-3.5）和GPT-4在波蘭醫學期末考試（MFE）的表現。結果顯示，GPT-4在所有MFE版本中表現優於GPT-3.5，兩者平均準確率達79.7％。雖然準確率仍不盡理想，但顯示語言模型在醫學教育上有應用潛力，但仍需進一步改進。 PubMed DOI

Pure Wisdom or Potemkin Villages? A Comparison of ChatGPT 3.5 and ChatGPT 4 on USMLE Step 3 Style Questions: Quantitative Analysis.
ChatGPT 3.5 和 ChatGPT 4 在美國醫師執照考試第三步驟題目上的比較：量化分析。 JMIR Med Educ 2024-01-22

研究指出ChatGPT 4在USMLE Step 3模擬測驗中表現優異，準確率高達84.7%，比3.5版本的56.9%好很多。雖然在各難度等級上表現不錯，但在應用理論概念的問題上稍嫌不足，尤其是在心臟病學和神經學領域。研究指出AI在醫學教育和診斷上有潛力，也提到了防止AI作弊的重要性。 PubMed DOI

Comparison of the Performance of GPT-3.5 and GPT-4 With That of Medical Students on the Written German Medical Licensing Examination: Observational Study.
GPT-3.5和GPT-4在德國醫學筆試考試上表現與醫學生比較的觀察性研究。 JMIR Med Educ 2024-02-25

研究比較GPT-3.5和GPT-4在德國醫學執照考試的結果，發現GPT-4平均得分85%，比GPT-3.5表現更好。GPT-4在內外科表現優秀，但在學術研究方面稍微弱一些。研究指出，像ChatGPT這樣的人工智慧模型可以提升醫學教育和病人護理，但也提醒醫學訓練者需要具備批判性評估能力。未來需要進一步研究ChatGPT對大眾安全和準確性的影響。 PubMed DOI

ChatGPT-3.5 passes Poland's medical final examination-Is it possible for ChatGPT to become a doctor in Poland?
ChatGPT-3.5 通過波蘭的醫學終極考試-ChatGPT 可能成為波蘭的醫生嗎？ SAGE Open Med 2024-06-19

這項研究評估了ChatGPT在波蘭醫學期末考試問題上的表現，發現它的正確率為53.4%至64.9%，在11次考試中有8次通過。它在精神病學方面表現比人類更好，但整體上仍不及人類畢業生。雖然ChatGPT在各種醫學領域顯示出潛力，但仍存在限制，無法完全取代人類專業知識。 PubMed DOI

Appraisal of ChatGPT's Aptitude for Medical Education: Comparative Analysis With Third-Year Medical Students in a Pulmonology Examination.
ChatGPT 在醫學教育中的能力評估：與三年級醫學生在肺病學考試中的比較分析。 JMIR Med Educ 2024-07-23

這項研究評估了ChatGPT-3.5在肺病學考試中的表現，並與三年級醫學生進行比較。研究分為兩組：244名法語醫學生和ChatGPT，後者以無上下文（V1）和有上下文（V2）兩種格式測試。結果顯示，V1在放射學和胸外科表現佳，但在病理學和藥理學上不理想；V2則在所有類別中表現更準確，並在開放式問題上優於學生。V2通過考試的比例超過62.1%，而V1未能通過。總體而言，ChatGPT的表現與醫學生相似，受問題格式和複雜度影響，尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

Performance of ChatGPT Across Different Versions in Medical Licensing Examinations Worldwide: Systematic Review and Meta-Analysis.
ChatGPT 在全球醫學執照考試中不同版本的表現：系統性回顧與統合分析。 J Med Internet Res 2024-07-25

這項研究回顧了ChatGPT在醫學執照考試的表現，分析了2022年1月到2024年3月間的45項研究。結果顯示，GPT-4的準確率達81%，優於GPT-3.5的58%。GPT-4在29項考試中通過26項，並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現，但對GPT-4無影響。兩者在問題類型上表現不同，GPT-3.5在短文本問題上較佳，而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力，但也指出準確性不一致及各國知識差異的挑戰，旨在提供教育者和政策制定者相關資訊。 PubMed DOI

The potential of ChatGPT in medicine: an example analysis of nephrology specialty exams in Poland.
ChatGPT 在醫學中的潛力：波蘭腎臟科專業考試的範例分析。 Clin Kidney J 2024-08-05

2022年11月，OpenAI推出的ChatGPT引起了醫學界的關注。最近研究顯示，ChatGPT-4.0在腎臟科考試中表現優於ChatGPT-3.5，正確率分別為69.84%和45.70%。研究使用了1,560個問題進行比較，結果顯示ChatGPT-4.0在13次測試中通過了11次，超過60%及格率，甚至超越了人類醫生的平均得分85.73%。雖然ChatGPT-4.0表現強勁，但人類醫生的表現仍然更佳。 PubMed DOI

Performance of ChatGPT in Solving Questions From the Progress Test (Brazilian National Medical Exam): A Potential Artificial Intelligence Tool in Medical Practice.
ChatGPT 在解答巴西國家醫學考試進步測試問題中的表現：潛在的人工智慧工具在醫學實踐中的應用。 Cureus 2024-08-19

這項研究探討了ChatGPT在2021至2023年間進行的進步測試中回答醫學問題的表現。研究人員將測試問題給ChatGPT 3.5，並與來自120多所巴西大學的醫學生進行比較。結果顯示，ChatGPT在三年的平均準確率分別為69.7%、68.3%和67.2%，均超過醫學生。特別是在公共衛生方面，ChatGPT的平均得分達77.8%。這顯示出ChatGPT在醫學問題的回答準確性上超越了人類學生，包括即將畢業的醫學生。 PubMed DOI

Assessment Study of ChatGPT-3.5's Performance on the Final Polish Medical Examination: Accuracy in Answering 980 Questions.
ChatGPT-3.5 在波蘭醫學最終考試中的表現評估研究：回答 980 題問題的準確性。 Healthcare (Basel) 2024-08-29

這項研究調查了ChatGPT-3.5在波蘭醫學期末考試的表現，考試包含200道題目，評估醫學知識。分析980道題目後，發現ChatGPT的平均正確率約60%，顯著低於人類考生（p < 0.001）。不同科目表現差異大，血液學準確率最低（42.1%），內分泌學最高（78.6%）。研究顯示題目難度與正確性有顯著相關（p = 0.04），但題型對準確性影響不大（p = 0.46）。結果顯示ChatGPT-3.5可輔助考試準備，但需謹慎對待，建議與其他AI工具進行驗證。 PubMed DOI

A Comparative Analysis of ChatGPT and Medical Faculty Graduates in Medical Specialization Exams: Uncovering the Potential of Artificial Intelligence in Medical Education.
ChatGPT 與醫學院畢業生在醫學專業考試中的比較分析：揭示人工智慧在醫學教育中的潛力。 Cureus 2024-09-09

這項研究評估了ChatGPT在醫學專業考試中的表現，並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題，結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面，ChatGPT的表現相當優異，但在解剖學上則不如畢業生。研究指出，像ChatGPT這樣的AI模型能顯著提升醫學教育，提供互動支持和個性化學習，最終改善教育質量和學生成功率。 PubMed DOI

原始文章

站上相關主題文章列表