原始文章

這項研究評估了七個大型語言模型(LLMs)在中國國家護理執照考試(CNNLE)上的表現,涵蓋了2019至2023年的1200道多選題。結果顯示,Qwen-2.5的準確率最高,達88.9%,接著是GPT-4o(80.7%)和ERNIE Bot-3.5(78.1%)。研究還探討了結合機器學習技術的潛力,使用XGBoost模型後準確率提升至90.8%。這是首個針對CNNLE評估LLMs的研究,顯示它們在醫療教育中的潛力,建議進一步研究以提升考試準備和專業訓練的有效性。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現,結果發現GPT-4得分最高,達100%,Claude次之,接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力,呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

研究評估了GPT-4在中國護理考試中的表現,發現在多重選擇題上有71.0%的正確率。在開放式問題方面,表現一般。雖然在基礎知識問題上表現不錯,但回答開放式問題有限制。護理教育者應該評估GPT-4在教學中的利弊。 PubMed DOI

這項研究評估了ChatGPT在中國國家醫學執照考試中的表現,特別是GPT-3.5和GPT-4.0版本。研究發現,GPT-4.0的及格率為72.7%,明顯高於GPT-3.5的54%。此外,GPT-4.0的回答變異性較低,且在15個醫學子專科中有14個超過準確性門檻,顯示其在醫學教育和臨床實踐中的潛在應用價值。總體而言,GPT-4.0在準確性和一致性上表現更佳,值得進一步探索。 PubMed DOI

這項研究評估了四個國內語言模型—ERNIE Bot、ChatGLM2、Spark Desk 和 Qwen-14B-Chat—在提供根治性前列腺切除術(PCa)患者的圍手術護理和健康教育諮詢的效率。結果顯示,所有模型的回應品質都很高,且沒有誤導性資訊。Qwen-14B-Chat在各項評估中表現最佳,特別穩定;ChatGLM2在案例分析上也表現不錯。Spark Desk在可理解性上優秀,但全面性和人文關懷稍顯不足,而ERNIE Bot的表現最差。總體來看,Qwen-14B-Chat是提升PCa患者教育和遵從性的最佳工具。 PubMed DOI

這項研究評估了ChatGPT在中國和美國的護理執照考試(NNLE)中的表現,特別是NCLEX-RN。研究編輯了150道NCLEX-RN的實務題、240道NNLE的理論題和240道實務題,並使用ChatGPT 3.5進行中英文翻譯,接著評估了ChatGPT 4.0、3.5和Google Bard的回答。 主要發現顯示,ChatGPT 4.0在NCLEX-RN實務題的英語準確率為88.7%,翻譯版本為79.3%;在NNLE理論和實務題中,準確率分別為71.9%和69.1%。整體而言,ChatGPT 4.0在護理教育和臨床決策中展現出良好的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs)如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試(NDLE)的表現。研究使用2020至2022年的考題,結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異,明顯超越其他兩者。不過,GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足,顯示出改進的空間。整體來看,這些模型在NDLE中展現出強大能力,但仍需加強某些領域。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題,並在三種情境下測試七個高效能的LLMs。結果顯示,Doubao-pro 32k和Qwen2-72b的準確性最高,分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異,但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI