原始文章

這項研究評估了不同人工智慧聊天機器人在心臟科專科考試中的表現,並與人類研究員進行比較。研究使用了88道選擇題,結果顯示所有36名研究員都通過考試,且中位數準確率高達98%。相比之下,聊天機器人的表現參差不齊,只有Jasper quality達到最低通過率73%。大多數聊天機器人的Top-1準確率僅47%,Top-2為67%。只有Jasper quality和ChatGPT plus 4.0通過考試。結果顯示,現階段的聊天機器人在醫學考試中表現不佳,但未來可能會有改進的潛力。 PubMed DOI


站上相關主題文章列表

ChatGPT 是熱門話題,討論了它的預測能力、應用和影響。研究指出,ChatGPT 能回答像美國醫師執照考試這樣的大學生考試問題。最新研究測試了它在歐洲心臟核心醫學考試(EECC)問題上的表現,結果顯示表現優異。 PubMed DOI

ChatGPT是個AI,通過回答400道進度測驗的問題來接受醫學知識測試。它65.5%正確率,回答速度與正確性無關,但問題難度與正確性有關。ChatGPT比大多數醫學院1-3年級學生表現好,與後期學生相當。 PubMed DOI

一個名叫ChatGPT的AI模型參加了日本急診醫學協會的考試,回答了475題中的465題正確。對文字問題比圖像問題表現更好,整體正確率為62.3%。錯誤主要是因為事實不準確。雖然有潛力,但在急診醫學中使用大型語言模型仍需醫師監督。 PubMed DOI

研究比較了AI聊天機器人在心臟病學領域的表現,發現ChatGPT 4.0的準確率最高,Bing次之,Bard最低。ChatGPT在各個心臟病學主題上表現都很好。研究指出ChatGPT 4.0可作為心臟病學教育的重要資源,但也提醒要持續評估和改進Bard等機器人,確保醫學知識的準確性。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現,特別是3.5和4.0版本。分析196道選擇題後,發現3.5版本的正確率為50.51%,而4.0版本提升至77.55%,超過及格線56%。值得注意的是,3.5版本對正確答案的信心較高,而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看,ChatGPT 4.0在醫學教育和評估中展現了潛力,未來版本如5.0預期會有更好表現。 PubMed DOI

這項研究比較了AI聊天機器人(如ChatGPT-4、Bing和Bard)與醫學研究生在臨床化學多選題的表現。結果顯示,ChatGPT-4的平均得分為0.90,超過學生的0.68,其他AI的得分分別為0.77、0.73和0.67。研究指出,AI在記憶和理解的表現較佳,但在應用和分析上則較弱。雖然ChatGPT-4表現優秀,但也引發了對學術誠信及多選題使用的擔憂,值得重新思考其在高等教育中的適用性。 PubMed DOI

這項研究探討了ChatGPT-4在美國家庭醫學委員會(ABFM)認證考試中的表現,目的是評估其是否能達到及格標準。研究中,ChatGPT-4在模擬考試環境下,使用300道練習題進行測試,結果顯示其正確回答率為88.67%(自訂版本)和87.33%(常規版本),兩者差異不大。這顯示ChatGPT-4在處理醫學問題上具備高效能,並強調了AI在醫學教育中的潛力及持續改進的必要性。 PubMed DOI

這項研究評估了四款熱門聊天機器人(ChatGPT-4、Bard、Perplexity 和 Claude 2)在與認證胸腔外科醫生進行考試的表現。結果顯示,聊天機器人的中位得分為1.06,而外科醫生為1.88,差異顯著(p=0.019)。外科醫生在大多數情境中表現優於聊天機器人,且聊天機器人的重大失誤率較高(0.50對0.19;p=0.016)。總體來看,研究認為聊天機器人的表現顯著不如外科醫生,提醒在臨床決策中應謹慎使用人工智慧。 PubMed DOI

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性,並探討其在超聲醫學教育中的應用潛力。共選取100道題目,包含70道單選題和30道多選題,涵蓋基礎知識、臨床知識、專業知識及實踐。 測試結果顯示,ChatGPT 3.5版本在單選題準確率為35.7%,多選題30.0%;而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步,但仍未達及格標準,且在專業實踐方面表現不佳。儘管如此,ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI