ChatGPT takes on the European Exam in Core Cardiology: an artificial intelligence success story?
ChatGPT挑戰歐洲心臟核心醫學考試：一個人工智慧的成功故事？ Eur Heart J Digit Health 2023-08-04

ChatGPT 是熱門話題，討論了它的預測能力、應用和影響。研究指出，ChatGPT 能回答像美國醫師執照考試這樣的大學生考試問題。最新研究測試了它在歐洲心臟核心醫學考試（EECC）問題上的表現，結果顯示表現優異。 PubMed DOI

ChatGPT in medical school: how successful is AI in progress testing?
ChatGPT在醫學院：人工智慧在進步測試中有多成功？ Med Educ Online 2023-09-29

ChatGPT是個AI，通過回答400道進度測驗的問題來接受醫學知識測試。它65.5%正確率，回答速度與正確性無關，但問題難度與正確性有關。ChatGPT比大多數醫學院1-3年級學生表現好，與後期學生相當。 PubMed DOI

Performance of a large language model on Japanese emergency medicine board certification examinations.
大型語言模型在日本急診醫學委員會認證考試中的表現。 J Nippon Med Sch 2024-03-03

一個名叫ChatGPT的AI模型參加了日本急診醫學協會的考試，回答了475題中的465題正確。對文字問題比圖像問題表現更好，整體正確率為62.3%。錯誤主要是因為事實不準確。雖然有潛力，但在急診醫學中使用大型語言模型仍需醫師監督。 PubMed DOI

The scientific knowledge of three large language models in cardiology: multiple-choice questions examination-based performance.
心臟病學中三個大型語言模型的科學知識：基於多重選擇問題考試表現。 Ann Med Surg (Lond) 2024-06-07

研究比較了AI聊天機器人在心臟病學領域的表現，發現ChatGPT 4.0的準確率最高，Bing次之，Bard最低。ChatGPT在各個心臟病學主題上表現都很好。研究指出ChatGPT 4.0可作為心臟病學教育的重要資源，但也提醒要持續評估和改進Bard等機器人，確保醫學知識的準確性。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Comparison of the Performance of Artificial Intelligence Versus Medical Professionals in the Polish Final Medical Examination.
人工智慧與醫療專業人員在波蘭最終醫學考試中的表現比較。 Cureus 2024-09-02

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現，特別是3.5和4.0版本。分析196道選擇題後，發現3.5版本的正確率為50.51%，而4.0版本提升至77.55%，超過及格線56%。值得注意的是，3.5版本對正確答案的信心較高，而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看，ChatGPT 4.0在醫學教育和評估中展現了潛力，未來版本如5.0預期會有更好表現。 PubMed DOI

Human versus Artificial Intelligence: ChatGPT-4 Outperforming Bing, Bard, ChatGPT-3.5 and Humans in Clinical Chemistry Multiple-Choice Questions.
人類與人工智慧：ChatGPT-4 在臨床化學多選題中超越 Bing、Bard、ChatGPT-3.5 及人類。 Adv Med Educ Pract 2024-09-25

這項研究比較了AI聊天機器人（如ChatGPT-4、Bing和Bard）與醫學研究生在臨床化學多選題的表現。結果顯示，ChatGPT-4的平均得分為0.90，超過學生的0.68，其他AI的得分分別為0.77、0.73和0.67。研究指出，AI在記憶和理解的表現較佳，但在應用和分析上則較弱。雖然ChatGPT-4表現優秀，但也引發了對學術誠信及多選題使用的擔憂，值得重新思考其在高等教育中的適用性。 PubMed DOI

Assessment of ChatGPT-4 in Family Medicine Board Examinations Using Advanced AI Learning and Analytical Methods: Observational Study.
使用先進的 AI 學習和分析方法評估 ChatGPT-4 在家庭醫學考試中的表現：觀察性研究。 JMIR Med Educ 2024-10-08

這項研究探討了ChatGPT-4在美國家庭醫學委員會（ABFM）認證考試中的表現，目的是評估其是否能達到及格標準。研究中，ChatGPT-4在模擬考試環境下，使用300道練習題進行測試，結果顯示其正確回答率為88.67%（自訂版本）和87.33%（常規版本），兩者差異不大。這顯示ChatGPT-4在處理醫學問題上具備高效能，並強調了AI在醫學教育中的潛力及持續改進的必要性。 PubMed DOI

How Soon Will Surgeons Become Mere Technicians? Chatbot Performance in Managing Clinical Scenarios.
外科醫生何時會成為單純的技術人員？聊天機器人在管理臨床情境中的表現。 J Thorac Cardiovasc Surg 2024-11-13

這項研究評估了四款熱門聊天機器人（ChatGPT-4、Bard、Perplexity 和 Claude 2）在與認證胸腔外科醫生進行考試的表現。結果顯示，聊天機器人的中位得分為1.06，而外科醫生為1.88，差異顯著（p=0.019）。外科醫生在大多數情境中表現優於聊天機器人，且聊天機器人的重大失誤率較高（0.50對0.19；p=0.016）。總體來看，研究認為聊天機器人的表現顯著不如外科醫生，提醒在臨床決策中應謹慎使用人工智慧。 PubMed DOI

The performance of AI in medical examinations: an exploration of ChatGPT in ultrasound medical education.
AI 在醫學考試中的表現：探索 ChatGPT 在超聲醫學教育中的應用。 Front Med (Lausanne) 2024-11-20

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性，並探討其在超聲醫學教育中的應用潛力。共選取100道題目，包含70道單選題和30道多選題，涵蓋基礎知識、臨床知識、專業知識及實踐。測試結果顯示，ChatGPT 3.5版本在單選題準確率為35.7%，多選題30.0%；而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步，但仍未達及格標準，且在專業實踐方面表現不佳。儘管如此，ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

原始文章

站上相關主題文章列表