原始文章

這項研究評估了OpenAI的ChatGPT-3.5和GPT-4在台灣國家藥師執照考試的表現。結果顯示,GPT-4的準確率為72.9%,明顯優於GPT-3.5的59.1%。在基礎科目中,GPT-4得分更高,顯示其在臨床藥學和教育上的潛力。不過,研究也提醒使用者需謹慎,因為模型仍有局限性。未來應著重改進模型的穩定性和問題設計,以更有效評估學生能力。 PubMed DOI


站上相關主題文章列表

研究比較GPT-3.5和GPT-4在德國醫學執照考試的結果,發現GPT-4平均得分85%,比GPT-3.5表現更好。GPT-4在內外科表現優秀,但在學術研究方面稍微弱一些。研究指出,像ChatGPT這樣的人工智慧模型可以提升醫學教育和病人護理,但也提醒醫學訓練者需要具備批判性評估能力。未來需要進一步研究ChatGPT對大眾安全和準確性的影響。 PubMed DOI

台灣醫療好,2022和2023年醫師考試數據顯示ChatGPT-4準確率介於63.75%到93.75%,最高93.75%在2022年2月。眼科、乳房外科、整形外科、骨科和普通外科表現較差。透過“思維鏈”方法,ChatGPT-4準確率提升至90%以上,在台灣醫師考試表現優異。 PubMed DOI

這項研究回顧了ChatGPT在醫學執照考試的表現,分析了2022年1月到2024年3月間的45項研究。結果顯示,GPT-4的準確率達81%,優於GPT-3.5的58%。GPT-4在29項考試中通過26項,並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現,但對GPT-4無影響。兩者在問題類型上表現不同,GPT-3.5在短文本問題上較佳,而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力,但也指出準確性不一致及各國知識差異的挑戰,旨在提供教育者和政策制定者相關資訊。 PubMed DOI

這項研究評估了ChatGPT在中國國家醫學執照考試中的表現,特別是GPT-3.5和GPT-4.0版本。研究發現,GPT-4.0的及格率為72.7%,明顯高於GPT-3.5的54%。此外,GPT-4.0的回答變異性較低,且在15個醫學子專科中有14個超過準確性門檻,顯示其在醫學教育和臨床實踐中的潛在應用價值。總體而言,GPT-4.0在準確性和一致性上表現更佳,值得進一步探索。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在台灣整形外科考試的表現,分析了過去八年的1,375道題目。結果顯示,ChatGPT-4的正確回答率為59%,明顯優於ChatGPT-3.5的41%。ChatGPT-4通過了五年的考試,而ChatGPT-3.5則未通過任何一年。具體來說,ChatGPT-4在單選題得分66%,多選題43%;而ChatGPT-3.5的單選題和多選題得分分別為48%和23%。研究建議隨著AI模型的進步,應考慮改革考試方式,並利用AI提升考試準備和評估。 PubMed DOI

這項研究評估了ChatGPT模型(ChatGPT-3.5和GPT-4)在醫學、藥學、牙醫學和護理學的健康執照考試表現。分析了23項研究後發現,ChatGPT-3.5的準確率介於36%到77%,而GPT-4則在64.4%到100%之間,整體準確率為70.1%。GPT-4的表現優於ChatGPT-3.5,藥學的準確率最高,其次是醫學、牙醫學和護理學。研究指出問題集範圍狹窄及研究間變異性大,建議未來需進一步研究以擴展問題類型及提升AI模型。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—GPT-3.5、GPT-4和Chatsonic—在北美藥師執照考試(NAPLEX)練習題上的表現。結果顯示,GPT-4的準確率最高,McGraw Hill題組達87%,RxPrep題組達83.5%。相比之下,GPT-3.5和Chatsonic的表現較差,尤其在選擇所有正確答案的問題上。GPT-4在不良藥物反應(ADR)問題上表現特別優異,顯示其在藥學教育中的潛在應用價值。 PubMed DOI

這項研究評估了兩個版本的ChatGPT(GPT-3.5和GPT-4)在韓國藥師執照考試的表現,分析了960道選擇題。結果顯示,GPT-4的正確率為86.5%,明顯優於GPT-3.5的60.7%。GPT-4在生物藥學表現最佳,但在醫療健康法規方面最差。與人類藥學學生相比,GPT-3.5的表現較差,而GPT-4則與學生相當或更佳。研究指出大型語言模型在藥學教育中有潛力,但仍需進一步研究以確保其可靠性和安全性。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現,特別關注繁體中文的能力。結果顯示,ChatGPT-3.5在基礎醫學科學的準確率為67.7%,臨床醫學為53.2%;而ChatGPT-4的表現明顯優於前者,準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大,但ChatGPT-4在所有科目中均表現良好,顯示AI在醫學教育中的潛力,實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

本研究探討了ChatGPT(特別是GPT-4模型)在台灣傳統中醫執照考試中的表現。測試結果顯示,ChatGPT的準確率僅43.9%,遠低於兩位持證中醫師的70%和78.4%。大部分錯誤來自對中醫概念的誤解,顯示其在中醫知識和推理上的局限性。雖然ChatGPT在教育資源方面有潛力,但目前在TCM考試中的表現仍不理想。研究建議需改進專門的中醫AI模型,並對其在中醫教育中的應用保持謹慎,未來應專注於提升模型及開發專屬的學習工具。 PubMed DOI