Investigating the impact of innovative AI chatbot on post-pandemic medical education and clinical assistance: a comprehensive analysis.
探討創新人工智慧聊天機器人對後疫情醫學教育和臨床協助的影響：全面分析。 ANZ J Surg 2024-02-27

研究發現三款大型語言模型在醫療決策上的表現，ChatGPT最優，其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議，對初級醫生學習和臨床決策有潛力，但還需更多整合到教育中。 PubMed DOI

Artificial Intelligence in Medical Education: Comparative Analysis of ChatGPT, Bing, and Medical Students in Germany.
人工智慧在醫學教育中的應用：對比分析 ChatGPT、Bing 和德國醫學生。 JMIR Med Educ 2023-09-21

2022年德國醫學州考試研究指出，GPT-4在630題中表現最佳，超越學生和其他模型。Bing在排除媒體問題後也表現優異。然而，秋季考試時GPT-4和Bing表現下滑，或許是因為媒體問題增加。研究建議LLMs，特別是GPT-4和Bing，在醫學教育和考試準備領域有潛力，值得進一步研發並應用於教育和臨床實務。 PubMed DOI

The Significance of Artificial Intelligence Platforms in Anatomy Education: An Experience With ChatGPT and Google Bard.
人工智慧平台在解剖教育中的重要性：ChatGPT 和 Google Bard 的經驗。 Cureus 2023-10-20

研究比較ChatGPT和Google Bard在解剖學教育上的應用，發現兩者在回答問題和出題方面表現相似，但在寫文章方面還有改進空間。結果顯示使用語言模型需謹慎，以免提供不正確或誤導性資訊。雖然大型語言模型在解剖學教學有潛力，但還需進一步研究提升其在教育上的效果。 PubMed DOI

Performance of large language models at the MRCS Part A: a tool for medical education?
大型語言模型在 MRCS Part A 考試的表現：醫學教育的工具？ Ann R Coll Surg Engl 2023-12-01

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀，回答更有深度。兩者一致性高，對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識，但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確，在醫療領域有重要價值需受到監督。 PubMed DOI

Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

The Comparative Performance of Large Language Models on the Hand Surgery Self-Assessment Examination.
大型語言模型在手外科自我評估考試中的比較表現。 Hand (N Y) 2024-09-26

這項研究評估了生成式人工智慧模型，特別是 ChatGPT 4.0 和 Bing AI，在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題，結果顯示 ChatGPT 4.0 平均得分66.5%，而 Bing AI 則為75.3%，超過 ChatGPT 8.8%。兩者均超過最低及格分數50%，但在涉及圖片和視頻的問題上表現較差。整體來看，這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

Evaluating the Performance of ChatGPT, Gemini, and Bing Compared with Resident Surgeons in the Otorhinolaryngology In-service Training Examination.
評估 ChatGPT、Gemini 和 Bing 在耳鼻喉科住院醫師在職訓練考試中的表現。 Turk Arch Otorhinolaryngol 2024-10-28

大型語言模型（LLMs）如ChatGPT（GPT-4）、Gemini和Bing在醫學教育上展現潛力，特別是在臨床管理和住院醫師考試準備方面。一項針對耳鼻喉科住院醫師的研究顯示，GPT-4的準確率為54.75%，優於Gemini（40.50%）和Bing（37.00%）。高年級住院醫師的準確率達75.5%，明顯高於LLMs。雖然LLMs能與準高年級住院醫師相當，但仍未達到更有經驗的住院醫師的準確性，顯示在醫學教育中有潛在應用價值。 PubMed DOI

Large language models (LLMs) in radiology exams for medical students: Performance and consequences.
放射科考試中大型語言模型（LLMs）對醫學生的影響與表現。 Rofo 2024-11-04

這項研究分析了大型語言模型（LLMs），特別是OpenAI的GPT-3.5和GPT-4，在醫學生放射學考試中的表現。使用151道選擇題，結果顯示GPT-3.5的正確率為67.6%，而GPT-4則達到88.1%（p<0.001），表現明顯優於前者。GPT-4在各類問題上都表現良好，顯示其在醫學教育中的潛力。不過，研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看，LLMs在放射學教育上有提升的可能性。 PubMed DOI

ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis.
ChatGPT-4 在 USMLE 學科和臨床技能中的表現：比較分析。 JMIR Med Educ 2024-11-06

最近的研究顯示，像 ChatGPT 這樣的大型語言模型（LLMs）能有效通過美國醫學執照考試（USMLE）。本研究評估了不同版本的 ChatGPT（GPT-3.5、GPT-4 和 GPT-4 Omni）在醫學學科及臨床技能方面的表現。結果顯示，GPT-4 Omni 的準確率最高，達到90.4%，明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力，但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

Large language models in pathology: A comparative study of ChatGPT and Bard with pathology trainees on multiple-choice questions.
病理學中的大型語言模型：ChatGPT 和 Bard 與病理學實習生在多選題上的比較研究。 Ann Diagn Pathol 2024-11-08

這項研究評估了大型語言模型（LLMs），特別是ChatGPT和Bard在病理學的表現，並與病理學實習生的回答進行比較。研究使用了150道選擇題，結果顯示ChatGPT的平均得分為82.2%，明顯優於Bard的49.5%和實習生的45.1%。在困難問題上，ChatGPT表現特別突出，而在簡單問題上，ChatGPT和實習生的表現相近。分析顯示，ChatGPT的一致性率高達80%-85%，而Bard僅54%-61%。這顯示ChatGPT在病理學教育中有潛力，但仍需持續發展和人類監督。 PubMed DOI

原始文章

站上相關主題文章列表