原始文章

這項研究比較GPT-4o和DeepSeek-R1兩款AI在波蘭感染科專科考試的表現,兩者都順利通過,DeepSeek-R1(73.85%)稍勝GPT-4o(71.43%)。在不同題型上沒明顯差異,答對時信心都高。結果顯示,這兩款AI都有潛力成為醫學教育工具,且DeepSeek-R1雖然較新、成本較低,表現已經追上GPT-4o。 PubMed DOI


站上相關主題文章列表

這項研究調查了ChatGPT-3.5在波蘭醫學期末考試的表現,考試包含200道題目,評估醫學知識。分析980道題目後,發現ChatGPT的平均正確率約60%,顯著低於人類考生(p < 0.001)。不同科目表現差異大,血液學準確率最低(42.1%),內分泌學最高(78.6%)。研究顯示題目難度與正確性有顯著相關(p = 0.04),但題型對準確性影響不大(p = 0.46)。結果顯示ChatGPT-3.5可輔助考試準備,但需謹慎對待,建議與其他AI工具進行驗證。 PubMed DOI

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現,特別是3.5和4.0版本。分析196道選擇題後,發現3.5版本的正確率為50.51%,而4.0版本提升至77.55%,超過及格線56%。值得注意的是,3.5版本對正確答案的信心較高,而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看,ChatGPT 4.0在醫學教育和評估中展現了潛力,未來版本如5.0預期會有更好表現。 PubMed DOI

這項研究評估了OpenAI的GPT-4o在波蘭的牙科考試(LDEK)中的表現,並與人類考生進行比較。GPT-4o的正確率為70.85%,在保守牙科和假牙牙科表現較佳,但在兒童牙科和矯正牙科則較差。臨床案例問題的準確性明顯低於事實性問題。研究顯示,GPT-4o在牙科教育中有輔助潛力,但在臨床推理和批判性思維上仍不及人類考生,特別是在複雜情境中。 PubMed DOI

這項研究評估了生成式人工智慧模型在正式醫學考試中的表現,使用了台灣內科醫學會的考題。測試了三個AI模型:GPT-4o、Claude_3.5 Sonnet和Gemini Advanced。結果顯示,GPT-4o在2022年達到最高分86.25,Claude_3.5 Sonnet在精神科和腎臟科表現優異,最高分88.13,而Gemini Advanced的平均分較低。所有模型在文字題上表現較好,顯示AI在醫學教育中有潛力,但不同專科和問題類型的熟練程度仍有差異。 PubMed DOI

這項研究評估了ChatGPT-3.5在回答病理形態學問題的有效性,特別針對國家專業考試(PES)。研究中,ChatGPT-3.5對119道考題的得分僅為45.38%,遠低於及格標準。它在需要理解和批判性思考的問題上表現較佳,但在記憶性問題上則較弱。結果顯示,雖然ChatGPT-3.5可作為教育工具,但在病理形態學的準確性上仍無法與人類專家相比,顯示出進一步提升AI模型的必要性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試(OITE)中的表現。結果顯示,GPT-4的表現超過及格門檻,與高年級住院醫師相當,明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格,且在影像相關問題上,GPT-3.5表現顯著下降。整體來看,GPT-4在各類問題上展現出強大的能力,超越了考試的最低要求。 PubMed DOI

這項研究發現,GPT-4o在中國醫師執照考試的表現最好,正確率明顯高於GPT-4和GPT-3.5,尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強,未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現,兩者都達及格分,GPT-4o得分79.3%,ERNIE Bot為76.9%,差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定,答題一致時正確率更高(84.5%)。結果顯示,這兩款AI有助於中文醫學教育,對非英語醫學訓練很有潛力。 PubMed DOI

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示,DeepSeek-R1 的正確率(92.0%)明顯高於 ChatGPT-4o(87.2%),尤其在簡單題目上表現更好,但在難題或特定科目上兩者差異不大。整體來說,DeepSeek-R1 表現較優。 PubMed DOI

這項研究發現,GPT-4和GPT-4o在台灣SPTEMD醫學考題(不含圖片題)上的正確率都超過95%,明顯優於GPT-3.5的66%。兩者在中英文題目表現都很穩定,且已達醫學考試標準。未來建議進一步探討AI在醫學教育和考試上的應用方式。 PubMed DOI