Performance of ChatGPT and GPT-4 on Neurosurgery Written Board Examinations.
ChatGPT 和 GPT-4 在神經外科筆試考試中的表現。 Neurosurgery 2024-02-22

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高，未來可能應用在醫學考試上。研究發現，GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好，得分更高且答對問題更多。ChatGPT在處理複雜問題時受限，但GPT-4則表現穩定。總體而言，兩者在考試中表現不錯，GPT-4明顯比ChatGPT進步。 PubMed DOI

Artificial Intelligence in Medical Education: Comparative Analysis of ChatGPT, Bing, and Medical Students in Germany.
人工智慧在醫學教育中的應用：對比分析 ChatGPT、Bing 和德國醫學生。 JMIR Med Educ 2023-09-21

2022年德國醫學州考試研究指出，GPT-4在630題中表現最佳，超越學生和其他模型。Bing在排除媒體問題後也表現優異。然而，秋季考試時GPT-4和Bing表現下滑，或許是因為媒體問題增加。研究建議LLMs，特別是GPT-4和Bing，在醫學教育和考試準備領域有潛力，值得進一步研發並應用於教育和臨床實務。 PubMed DOI

Comparative Performance of ChatGPT 3.5 and GPT4 on Rhinology Standardized Board Examination Questions.
ChatGPT 3.5 和 GPT4 在鼻科標準化考試問題上的比較表現。 OTO Open 2024-06-28

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現，並與住院醫師做了對比。結果顯示，GPT4在文本和圖像問題上表現優異，而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力，展現了人工智慧未來在這領域的重要性。 PubMed DOI

Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Advancing Medical Education: Performance of Generative Artificial Intelligence Models on Otolaryngology Board Preparation Questions With Image Analysis Insights.
推進醫學教育：生成式人工智慧模型在耳鼻喉科考試準備問題上的表現及影像分析見解。 Cureus 2024-08-12

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現，分析了1,077道文字題和60道圖片題。結果顯示，GPT-4的表現最佳，得分78.7%，而ChatGPT和Bard分別為55.3%和61.7%（p<0.001）。所有模型在簡單問題上表現較好，GPT-4在各子專科得分也較高，僅過敏科差異不顯著。雖然GPT-4表現良好，但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

Performance of Language Models on the Family Medicine In-Training Exam.
家庭醫學在職考試中語言模型的表現。 Fam Med 2024-08-29

這項研究評估了三個大型語言模型（LLMs）在家庭醫學住院醫師訓練考試中的表現，使用了2022年的193道選擇題。結果顯示，ChatGPT 4.0 獲得167分（86.5%），標準化分數730，顯示出100%通過專科考試的機會。相比之下，ChatGPT 3.5 和 Google Bard 的得分較低，分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示，ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

Comparative Assessment of Otolaryngology Knowledge Among Large Language Models.
大型語言模型之間耳鼻喉科知識的比較評估。 Laryngoscope 2024-09-21

這項研究評估了多個大型語言模型（LLMs）在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集，結果顯示GPT-4表現最佳，正確率達77.1%，其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性，GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異，但GPT-4在教育上仍具潛力，需注意其局限性。 PubMed DOI

Is ChatGPT 3.5 smarter than Otolaryngology trainees? A comparison study of board style exam questions.
ChatGPT 3.5 是否比耳鼻喉科實習生更聰明？一項關於考試題型的比較研究。 PLoS One 2024-09-26

這項研究評估了ChatGPT在考試中的表現，並與耳鼻喉科的實習生進行比較。31名醫學生和17名住院醫師回答了30道問題，結果顯示ChatGPT的表現超過了第一到第三年的醫學生，但不及第四和第五年的住院醫師。第四年醫學生和第一到第三年住院醫師的表現與ChatGPT相似。這顯示ChatGPT在死記硬背方面表現良好，但在臨床推理和解決複雜問題的能力上，仍無法與高年級實習生相比，顯示其臨床應用的限制。 PubMed DOI

Comparison of Gemini Advanced and ChatGPT 4.0's Performances on the Ophthalmology Resident Ophthalmic Knowledge Assessment Program (OKAP) Examination Review Question Banks.
Gemini Advanced 與 ChatGPT 4.0 在眼科住院醫師眼科知識評估計畫 (OKAP) 考試複習題庫上的表現比較。 Cureus 2024-10-18

這項研究系統性評估了兩個語言學習模型，ChatGPT-4.0 和 Google Bard 的 Gemini Advanced，在眼科問題的回答表現。使用眼科知識評估計畫的題庫，測試了260道選擇題。結果顯示，ChatGPT-4.0 在文字問題上的準確率為57.14%，高於 Gemini Advanced 的46.72%；在簡單問題上，ChatGPT-4.0 得分68.99%，而 Gemini Advanced 為49.61%。在圖像問題上，ChatGPT-4.0 的正確率為39.58%，Gemini Advanced 為33.33%。研究結論認為，ChatGPT-4.0 在眼科選擇題上表現較佳，顯示其在醫學教育中的潛力，但仍需進一步評估其可靠性。 PubMed DOI

ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis.
ChatGPT-4 在 USMLE 學科和臨床技能中的表現：比較分析。 JMIR Med Educ 2024-11-06

最近的研究顯示，像 ChatGPT 這樣的大型語言模型（LLMs）能有效通過美國醫學執照考試（USMLE）。本研究評估了不同版本的 ChatGPT（GPT-3.5、GPT-4 和 GPT-4 Omni）在醫學學科及臨床技能方面的表現。結果顯示，GPT-4 Omni 的準確率最高，達到90.4%，明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力，但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

原始文章

站上相關主題文章列表