Comparing the Performance of Popular Large Language Models on the National Board of Medical Examiners Sample Questions.
比較流行的大型語言模型在國家醫學考試委員會樣本問題上的表現。 Cureus 2024-04-12

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現，結果發現GPT-4得分最高，達100%，Claude次之，接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力，呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

Performance of GPT-4 on Chinese Nursing Examination: Potentials for AI-Assisted Nursing Education Using Large Language Models.
GPT-4在中文護理考試中的表現：利用大型語言模型進行AI輔助護理教育的潛力。 Nurse Educ 2024-07-09

研究評估了GPT-4在中國護理考試中的表現，發現在多重選擇題上有71.0%的正確率。在開放式問題方面，表現一般。雖然在基礎知識問題上表現不錯，但回答開放式問題有限制。護理教育者應該評估GPT-4在教學中的利弊。 PubMed DOI

Influence of Model Evolution and System Roles on ChatGPT's Performance in Chinese Medical Licensing Exams: Comparative Study.
模型演變與系統角色對 ChatGPT 在中國醫學執照考試中表現的影響：比較研究。 JMIR Med Educ 2024-08-14

這項研究評估了ChatGPT在中國國家醫學執照考試中的表現，特別是GPT-3.5和GPT-4.0版本。研究發現，GPT-4.0的及格率為72.7%，明顯高於GPT-3.5的54%。此外，GPT-4.0的回答變異性較低，且在15個醫學子專科中有14個超過準確性門檻，顯示其在醫學教育和臨床實踐中的潛在應用價值。總體而言，GPT-4.0在準確性和一致性上表現更佳，值得進一步探索。 PubMed DOI

[Efficiency of different large language models in China in response to consultations about PCa-related perioperative nursing and health education].
「中國不同大型語言模型在前列腺癌相關圍手術護理和健康教育諮詢中的效率」 Zhonghua Nan Ke Xue 2024-08-23

這項研究評估了四個國內語言模型—ERNIE Bot、ChatGLM2、Spark Desk 和 Qwen-14B-Chat—在提供根治性前列腺切除術（PCa）患者的圍手術護理和健康教育諮詢的效率。結果顯示，所有模型的回應品質都很高，且沒有誤導性資訊。Qwen-14B-Chat在各項評估中表現最佳，特別穩定；ChatGLM2在案例分析上也表現不錯。Spark Desk在可理解性上優秀，但全面性和人文關懷稍顯不足，而ERNIE Bot的表現最差。總體來看，Qwen-14B-Chat是提升PCa患者教育和遵從性的最佳工具。 PubMed DOI

Performance of ChatGPT on Nursing Licensure Examinations in the United States and China: Cross-Sectional Study.
ChatGPT 在美國和中國護理執照考試中的表現：橫斷面研究。 JMIR Med Educ 2024-10-04

這項研究評估了ChatGPT在中國和美國的護理執照考試（NNLE）中的表現，特別是NCLEX-RN。研究編輯了150道NCLEX-RN的實務題、240道NNLE的理論題和240道實務題，並使用ChatGPT 3.5進行中英文翻譯，接著評估了ChatGPT 4.0、3.5和Google Bard的回答。主要發現顯示，ChatGPT 4.0在NCLEX-RN實務題的英語準確率為88.7%，翻譯版本為79.3%；在NNLE理論和實務題中，準確率分別為71.9%和69.1%。整體而言，ChatGPT 4.0在護理教育和臨床決策中展現出良好的潛力。 PubMed DOI

Performance of large language models in the National Dental Licensing Examination in China: a comparative analysis of ChatGPT, GPT-4, and New Bing.
中國國家牙科執照考試中大型語言模型的表現：ChatGPT、GPT-4 和 New Bing 的比較分析。 Int J Comput Dent 2024-12-09

這項研究評估了大型語言模型（LLMs）如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試（NDLE）的表現。研究使用2020至2022年的考題，結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異，明顯超越其他兩者。不過，GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足，顯示出改進的空間。整體來看，這些模型在NDLE中展現出強大能力，但仍需加強某些領域。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

Evaluating the Performance of Large Language Models (LLMs) in Answering and Analysing the Chinese Dental Licensing Examination.
評估大型語言模型 (LLMs) 在回答和分析中國牙科執照考試中的表現。 Eur J Dent Educ 2025-01-31

這項研究評估了多種大型語言模型（LLMs）在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題，並在三種情境下測試七個高效能的LLMs。結果顯示，Doubao-pro 32k和Qwen2-72b的準確性最高，分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異，但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

原始文章

站上相關主題文章列表