原始文章

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示,DeepSeek-R1 的正確率(92.0%)明顯高於 ChatGPT-4o(87.2%),尤其在簡單題目上表現更好,但在難題或特定科目上兩者差異不大。整體來說,DeepSeek-R1 表現較優。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT在中國國家醫學執照考試中的表現,特別是GPT-3.5和GPT-4.0版本。研究發現,GPT-4.0的及格率為72.7%,明顯高於GPT-3.5的54%。此外,GPT-4.0的回答變異性較低,且在15個醫學子專科中有14個超過準確性門檻,顯示其在醫學教育和臨床實踐中的潛在應用價值。總體而言,GPT-4.0在準確性和一致性上表現更佳,值得進一步探索。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)在家庭醫學住院醫師訓練考試中的表現,使用了2022年的193道選擇題。結果顯示,ChatGPT 4.0 獲得167分(86.5%),標準化分數730,顯示出100%通過專科考試的機會。相比之下,ChatGPT 3.5 和 Google Bard 的得分較低,分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示,ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在多項醫學執照考試中的表現,包括美國、英國、香港及國家醫學執照考試。結果顯示,GPT-4o在所有測試中表現最佳,USMLE Step 1準確率達91.5%,Step 2 CK為94.2%,Step 3為92.7%。相比之下,GPT-4的準確率稍低,而GPT-3.5和Google Bard則明顯較低。在其他考試中,GPT-4o同樣領先,顯示出各模型之間的準確率差異,特別是在NMLE中仍需改進。 PubMed DOI

這項研究評估了大型語言模型(LLMs)如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試(NDLE)的表現。研究使用2020至2022年的考題,結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異,明顯超越其他兩者。不過,GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足,顯示出改進的空間。整體來看,這些模型在NDLE中展現出強大能力,但仍需加強某些領域。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題,並在三種情境下測試七個高效能的LLMs。結果顯示,Doubao-pro 32k和Qwen2-72b的準確性最高,分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異,但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現,特別關注繁體中文的能力。結果顯示,ChatGPT-3.5在基礎醫學科學的準確率為67.7%,臨床醫學為53.2%;而ChatGPT-4的表現明顯優於前者,準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大,但ChatGPT-4在所有科目中均表現良好,顯示AI在醫學教育中的潛力,實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

這項研究發現,GPT-4o在中國醫師執照考試的表現最好,正確率明顯高於GPT-4和GPT-3.5,尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強,未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現,ChatGPT-4.0 英文答題最準確且自我覺察,中文則是 ERNIE 表現較好。不過,所有模型在中文表現都稍差,顯示有語言偏差。這提醒我們,AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

這項研究發現,DeepSeek 在用中文回答前列腺癌放射治療問題時,表現明顯優於 ChatGPT,尤其在基礎知識和治療照護方面更突出;但用英文時,兩者差異不大。這顯示選擇語言優化的 AI 模型很重要,但專家審查仍不可或缺。 PubMed DOI

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現,兩者都達及格分,GPT-4o得分79.3%,ERNIE Bot為76.9%,差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定,答題一致時正確率更高(84.5%)。結果顯示,這兩款AI有助於中文醫學教育,對非英語醫學訓練很有潛力。 PubMed DOI