Performance of ChatGPT, GPT-4, and Google Bard on a Neurosurgery Oral Boards Preparation Question Bank.
ChatGPT、GPT-4 和 Google Bard 在神經外科口試準備問題庫上的表現。 Neurosurgery 2024-02-21

研究比較了GPT-3.5、GPT-4和Google Bard在神經外科口試考題上的表現，結果發現GPT-4準確率最高達82.6%，明顯優於其他兩者。GPT-4在特定類別及影像相關問題上表現較佳，且較少出現"幻覺"情況。研究強調了LLM表現中問題特性和解決方式的重要性。 PubMed DOI

GPT-4 Artificial Intelligence Model Outperforms ChatGPT, Medical Students, and Neurosurgery Residents on Neurosurgery Written Board-Like Questions.
GPT-4人工智慧模型在神經外科筆試題上表現優於ChatGPT、醫學生和神經外科住院醫師。 World Neurosurg 2023-12-16

人工智慧和機器學習對醫療保健產生了巨大影響，特別是在神經外科領域。一項研究發現，GPT-4在神經外科委員會風格問題上表現優異，準確率高於醫學生和住院醫師。這顯示GPT-4在醫學教育和臨床決策上有潛力，能夠超越人類在神經外科專業領域的表現。 PubMed DOI

Artificial Intelligence in Medical Education: Comparative Analysis of ChatGPT, Bing, and Medical Students in Germany.
人工智慧在醫學教育中的應用：對比分析 ChatGPT、Bing 和德國醫學生。 JMIR Med Educ 2023-09-21

2022年德國醫學州考試研究指出，GPT-4在630題中表現最佳，超越學生和其他模型。Bing在排除媒體問題後也表現優異。然而，秋季考試時GPT-4和Bing表現下滑，或許是因為媒體問題增加。研究建議LLMs，特別是GPT-4和Bing，在醫學教育和考試準備領域有潛力，值得進一步研發並應用於教育和臨床實務。 PubMed DOI

Performance of artificial intelligence chatbots in sleep medicine certification board exams: ChatGPT versus Google Bard.
人工智慧聊天機器人在睡眠醫學認證考試中的表現：ChatGPT 對 Google Bard 的比較。 Eur Arch Otorhinolaryngol 2024-04-02

比較了GPT-3.5、GPT-4和Google Bard在回答類似美國睡眠醫學認證委員會考試的問題時的表現。結果顯示，GPT-4在十個考試類別中有五個類別的通過率達到80%以上，比其他兩個模型表現更好。這強調了在耳鼻喉科和睡眠醫學領域持續進行研究的重要性，以確保AI聊天機器人的安全和負責任發展。 PubMed DOI

Comprehensive analysis of the performance of GPT-3.5 and GPT-4 on the American Urological Association self-assessment study program exams from 2012-2023.
2012年至2023年美國泌尿學會自我評估研究計畫考試中GPT-3.5和GPT-4表現的全面分析。 Can Urol Assoc J 2024-02-21

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現，結果顯示GPT-4在大多數年份和泌尿學主題中表現優異，得分超過50%。GPT-4的總分為55%，顯著高於GPT-3.5的33%。研究結果指出，像GPT-4這樣的AI語言模型在回答臨床問題上有進步，但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

ChatGPT-4 Performance on USMLE Step 1 Style Questions and Its Implications for Medical Education: A Comparative Study Across Systems and Disciplines.
ChatGPT-4 在美國醫師執照考試Step 1類型問題上的表現及其對醫學教育的影響：跨系統和學科的比較研究。 Med Sci Educ 2024-03-22

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀，回答正確率高達86%，超過60%及格分數，且在臨床領域也表現不錯。這個新版本改進許多，各主題展現熟練度，可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導，有助於提升臨床前階段學習成果。 PubMed DOI

Performance of GPT-4V in Answering the Japanese Otolaryngology Board Certification Examination Questions: Evaluation Study.
GPT-4V在回答日本耳鼻喉科醫師專科醫師認證考試問題中的表現：評估研究。 JMIR Med Educ 2024-03-29

研究發現，ChatGPT-4 Vision (GPT-4V)在回答耳鼻喉科醫學委員會認證考試的表現，加入英文翻譯和提示有助提高正確率。圖像問題表現較差，但加入文字與圖像輸入後有改善。研究指出人工智慧在醫學領域的潛力與限制，GPT-4V在處理圖像問題上仍有進步空間。 PubMed DOI

Comparative Performance of ChatGPT 3.5 and GPT4 on Rhinology Standardized Board Examination Questions.
ChatGPT 3.5 和 GPT4 在鼻科標準化考試問題上的比較表現。 OTO Open 2024-06-28

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現，並與住院醫師做了對比。結果顯示，GPT4在文本和圖像問題上表現優異，而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力，展現了人工智慧未來在這領域的重要性。 PubMed DOI

Comparative performance of artificial ıntelligence models in physical medicine and rehabilitation board-level questions.
人工智慧模型在物理醫學與復健專業考試問題中的比較表現。 Rev Assoc Med Bras (1992) 2024-07-24

這項研究評估了三個人工智慧模型—ChatGPT-3.5、ChatGPT-4 和 Google Bard—在物理醫學與復健考試題目的表現。使用美國物理醫學與復健委員會的 PMR100 題庫，結果顯示 ChatGPT-4 表現最佳，成功率達 74%，其次是 Google Bard 的 66% 和 ChatGPT-3.5 的 63.8%。Bard 在回答一致性方面表現良好，僅有 1% 的回答改變。研究強調了人工智慧在醫學教育和臨床應用中的潛力，並指出需對其回答進行仔細監督，以確保病人安全。 PubMed DOI

Comparative Assessment of Otolaryngology Knowledge Among Large Language Models.
大型語言模型之間耳鼻喉科知識的比較評估。 Laryngoscope 2024-09-21

這項研究評估了多個大型語言模型（LLMs）在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集，結果顯示GPT-4表現最佳，正確率達77.1%，其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性，GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異，但GPT-4在教育上仍具潛力，需注意其局限性。 PubMed DOI

原始文章

站上相關主題文章列表