原始文章

最新研究比較五款主流AI聊天機器人在歐洲放射學文憑考題上的表現,發現Claude 3.5 Sonnet在正確率、自信和一致性都拿下第一,ChatGPT-4o緊追在後。這些AI整體表現甚至超越人類考生,但各自的穩定度和自信還是有差異,提醒大家在臨床或教育等重要場合使用時要特別小心。 PubMed DOI


站上相關主題文章列表

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究比較了多種AI聊天機器人在醫學神經科學課程的多選題表現,並與醫學生進行對照。結果顯示,這些聊天機器人平均正確率為67.2%,低於學生的74.6%。其中,Claude和GPT-4表現最佳,準確率分別為83%和81.7%,超過學生平均分數。研究還發現,神經細胞學和胚胎學的準確率較高,而腦幹和小腦則較低。整體而言,Claude和GPT-4在醫學神經科學的測驗中展現出優於一般醫學生的能力,顯示AI在醫學教育中的潛力。 PubMed DOI

這項研究評估了多種人工智慧聊天機器人(如ChatGPT、Bard和Gemini)在醫學生病理學考試中的表現,考題範圍涵蓋2018至2022年。測試70道題目後發現,較新的聊天機器人在多選題上表現優於學生,但在高難度問題上,學生的表現則更佳。此外,聊天機器人的得分與學生的不同意見率有關,顯示提示設計影響回應。總體來看,雖然聊天機器人在複雜推理上表現中等,但也有生成不正確資訊的問題,顯示醫學教育中使用自然語言處理的挑戰。 PubMed DOI

這項研究評估了五款AI聊天機器人在歐洲泌尿學會的在職評估測試中的表現。596道問題來自2017至2022年的考試,分為知識型和數據解釋型。結果顯示,除了Claude 3.5外,其他四款聊天機器人均達到60%以上的及格分數,其中Copilot Pro表現最佳,得分71.6%。Claude 3.5則明顯落後,得分僅56.2%。雖然這些聊天機器人具備理論知識,但在分析和解釋能力上仍有待加強。 PubMed DOI

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現,並與人類考生進行比較。2024年10月,42名考生與26名使用GPT-4o的醫學生比較,結果顯示GPT-4o平均得分82.1%,遠高於考生的49.4%(p < 0.0001)。GPT-4o在放射學各子專科的真陽性率較高,假陽性率較低,僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美,而考生則中等。調查顯示參與者普遍使用複製和粘貼功能,73%的人尋求澄清。總體而言,GPT-4o在低階問題上表現優於人類考生,顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI

這項研究發現,ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好,尤其在影像型題目上較突出,但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯,但影像判讀還有進步空間,顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

研究發現,ChatGPT-4和Claude 3都能有效幫助超音波醫師提升考試成績,特別是在基礎知識題目上。資淺醫師用這兩款AI都能進步,ChatGPT-4還能加強專業題表現;資深醫師則是Claude 3的解釋在各類題型都很有幫助。整體來說,兩種AI對考試表現都有明顯助益。 PubMed DOI

這項研究發現,GPT-4o 和 Claude 在美國醫師執照考試胚胎學題目上表現最好,正確率約九成,兩者差異不大。Copilot、Gemini 和 GPT-3.5 分數較低。頂尖AI模型有助於胚胎學教學,但還是需要專業醫師把關。 PubMed DOI

這項研究發現,不同AI聊天機器人在幫醫學生出單一最佳答案題目時,品質和一致性都有差異,沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查,無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

這項研究比較多款AI聊天機器人在手外科考試的表現,發現大多數都能通過考試,其中以ChatGPT-4o1最優秀。雖然AI在專科醫學領域展現不錯的專業能力,但不同AI的準確度和可靠性還是有落差。 PubMed DOI