Performance of ChatGPT incorporated chain-of-thought method in bilingual nuclear medicine physician board examinations.
ChatGPT在雙語核子醫學醫師考試中應用連貫思維方法的表現。 Digit Health 2024-01-09

研究發現ChatGPT在台灣核子醫學專業考試中表現優異，尤其在理論知識和臨床醫學方面。然而，在醫學法規問題上稍嫌不足。研究使用GPT-4和思維鏈方法提升人工智慧表現，建議問題適中且含較多英文單詞可提高準確性。人工智慧可協助評估考試難度，確保公平性，在醫療教育和多語環境中展現潛力，未來進步將提升其在醫學領域的實用性。 PubMed DOI

Exploring the proficiency of ChatGPT-4: An evaluation of its performance in the Taiwan advanced medical licensing examination.
探討 ChatGPT-4 的熟練度：評估其在台灣高級醫學執照考試中的表現。 Digit Health 2024-03-08

台灣醫療好，2022和2023年醫師考試數據顯示ChatGPT-4準確率介於63.75%到93.75%，最高93.75%在2022年2月。眼科、乳房外科、整形外科、骨科和普通外科表現較差。透過“思維鏈”方法，ChatGPT-4準確率提升至90%以上，在台灣醫師考試表現優異。 PubMed DOI

Performance of ChatGPT Across Different Versions in Medical Licensing Examinations Worldwide: Systematic Review and Meta-Analysis.
ChatGPT 在全球醫學執照考試中不同版本的表現：系統性回顧與統合分析。 J Med Internet Res 2024-07-25

這項研究回顧了ChatGPT在醫學執照考試的表現，分析了2022年1月到2024年3月間的45項研究。結果顯示，GPT-4的準確率達81%，優於GPT-3.5的58%。GPT-4在29項考試中通過26項，並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現，但對GPT-4無影響。兩者在問題類型上表現不同，GPT-3.5在短文本問題上較佳，而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力，但也指出準確性不一致及各國知識差異的挑戰，旨在提供教育者和政策制定者相關資訊。 PubMed DOI

Influence of Model Evolution and System Roles on ChatGPT's Performance in Chinese Medical Licensing Exams: Comparative Study.
模型演變與系統角色對 ChatGPT 在中國醫學執照考試中表現的影響：比較研究。 JMIR Med Educ 2024-08-14

這項研究評估了ChatGPT在中國國家醫學執照考試中的表現，特別是GPT-3.5和GPT-4.0版本。研究發現，GPT-4.0的及格率為72.7%，明顯高於GPT-3.5的54%。此外，GPT-4.0的回答變異性較低，且在15個醫學子專科中有14個超過準確性門檻，顯示其在醫學教育和臨床實踐中的潛在應用價值。總體而言，GPT-4.0在準確性和一致性上表現更佳，值得進一步探索。 PubMed DOI

Evaluating the performance of ChatGPT-3.5 and ChatGPT-4 on the Taiwan plastic surgery board examination.
評估 ChatGPT-3.5 和 ChatGPT-4 在台灣整形外科考試中的表現。 Heliyon 2024-08-16

這項研究評估了ChatGPT-3.5和ChatGPT-4在台灣整形外科考試的表現，分析了過去八年的1,375道題目。結果顯示，ChatGPT-4的正確回答率為59%，明顯優於ChatGPT-3.5的41%。ChatGPT-4通過了五年的考試，而ChatGPT-3.5則未通過任何一年。具體來說，ChatGPT-4在單選題得分66%，多選題43%；而ChatGPT-3.5的單選題和多選題得分分別為48%和23%。研究建議隨著AI模型的進步，應考慮改革考試方式，並利用AI提升考試準備和評估。 PubMed DOI

The performance of AI in medical examinations: an exploration of ChatGPT in ultrasound medical education.
AI 在醫學考試中的表現：探索 ChatGPT 在超聲醫學教育中的應用。 Front Med (Lausanne) 2024-11-20

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性，並探討其在超聲醫學教育中的應用潛力。共選取100道題目，包含70道單選題和30道多選題，涵蓋基礎知識、臨床知識、專業知識及實踐。測試結果顯示，ChatGPT 3.5版本在單選題準確率為35.7%，多選題30.0%；而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步，但仍未達及格標準，且在專業實踐方面表現不佳。儘管如此，ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4 in the Taiwan National Pharmacist Licensing Examination: Comparative Evaluation Study.
ChatGPT-3.5 和 ChatGPT-4 在台灣國家藥師執照考試中的表現：比較評估研究。 JMIR Med Educ 2025-01-26

這項研究評估了OpenAI的ChatGPT-3.5和GPT-4在台灣國家藥師執照考試的表現。結果顯示，GPT-4的準確率為72.9%，明顯優於GPT-3.5的59.1%。在基礎科目中，GPT-4得分更高，顯示其在臨床藥學和教育上的潛力。不過，研究也提醒使用者需謹慎，因為模型仍有局限性。未來應著重改進模型的穩定性和問題設計，以更有效評估學生能力。 PubMed DOI

Can ChatGPT-4 perform as a competent physician based on the Chinese critical care examination?
ChatGPT-4 能否根據中國重症醫學考試表現出色的醫生能力？ J Crit Care 2025-03-01

這項研究評估了ChatGPT-4在重症醫學的表現，使用的數據來自中國的健康專業技術考試。ChatGPT-4回答了600個問題，成功率達73.5%，超過60%的及格標準，基礎知識的準確率最高，達81.94%。單選題表現（76.72%）優於多選題（51.32%）。雖然它在臨床決策和醫學教育上顯示潛力，但仍需醫療專業人員的監督，以確保準確性和病人安全。 PubMed DOI

Performance of ChatGPT-4 on Taiwanese Traditional Chinese Medicine Licensing Examinations: Cross-Sectional Study.
ChatGPT-4 在台灣傳統中醫執照考試中的表現：橫斷面研究。 JMIR Med Educ 2025-03-19

本研究探討了ChatGPT（特別是GPT-4模型）在台灣傳統中醫執照考試中的表現。測試結果顯示，ChatGPT的準確率僅43.9%，遠低於兩位持證中醫師的70%和78.4%。大部分錯誤來自對中醫概念的誤解，顯示其在中醫知識和推理上的局限性。雖然ChatGPT在教育資源方面有潛力，但目前在TCM考試中的表現仍不理想。研究建議需改進專門的中醫AI模型，並對其在中醫教育中的應用保持謹慎，未來應專注於提升模型及開發專屬的學習工具。 PubMed DOI

原始文章

站上相關主題文章列表