原始文章

這項研究評估了七個大型語言模型(LLMs)在中國國家護理執照考試(CNNLE)上的表現,涵蓋了2019至2023年的1200道多選題。結果顯示,Qwen-2.5的準確率最高,達88.9%,接著是GPT-4o(80.7%)和ERNIE Bot-3.5(78.1%)。研究還探討了結合機器學習技術的潛力,使用XGBoost模型後準確率提升至90.8%。這是首個針對CNNLE評估LLMs的研究,顯示它們在醫療教育中的潛力,建議進一步研究以提升考試準備和專業訓練的有效性。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試(NDLE)的表現。研究使用2020至2022年的考題,結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異,明顯超越其他兩者。不過,GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足,顯示出改進的空間。整體來看,這些模型在NDLE中展現出強大能力,但仍需加強某些領域。 PubMed DOI

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題,並在三種情境下測試七個高效能的LLMs。結果顯示,Doubao-pro 32k和Qwen2-72b的準確性最高,分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異,但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究發現,GPT-4o在中國醫師執照考試的表現最好,正確率明顯高於GPT-4和GPT-3.5,尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強,未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現,兩者都達及格分,GPT-4o得分79.3%,ERNIE Bot為76.9%,差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定,答題一致時正確率更高(84.5%)。結果顯示,這兩款AI有助於中文醫學教育,對非英語醫學訓練很有潛力。 PubMed DOI

這項研究發現,ChatGPT-4 和 Copilot 在日本護理師國考題目上表現及格,ChatGPT-3.5 則沒過關。三款模型在涉及日本特有法律和社會保障制度的題目上表現最差,顯示需要在地知識時,LLMs 容易出錯。整體來說,較新版本的 LLMs 準確度較高。 PubMed DOI

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示,DeepSeek-R1 的正確率(92.0%)明顯高於 ChatGPT-4o(87.2%),尤其在簡單題目上表現更好,但在難題或特定科目上兩者差異不大。整體來說,DeepSeek-R1 表現較優。 PubMed DOI

這項研究比較多款大型語言模型在中國中醫師考試的表現,ERNIE-4.0正確率最高(81.7%),勝過其他模型。所有模型在西醫內科題目表現都不錯。結果顯示,訓練資料的文化背景對模型在專業醫學考試的表現很關鍵。 PubMed DOI

這項研究比較多種大型語言模型在回答眼瞼下垂相關問題的表現,發現GPT-4o在英文回答最優,Qwen2.5則在中文表現突出。雖然AI有助於病人衛教和醫師諮詢,但臨床應用前還需更多驗證和調整,顯示AI有提升多語言醫療溝通的潛力。 PubMed DOI