Large language models underperform in European general surgery board examinations: a comparative study with experts and surgical residents.

大型語言模型在歐洲一般外科專科考試中的表現不佳：與專家及外科住院醫師的比較研究

<think> 嗯，我需要分析這篇研究的標題和摘要。首先，標題提到大型語言模型在歐洲普通外科板試中表現不佳，與專家和住院醫師相比。這個研究看起來是在評估AI在醫學考試中的效果。摘要裡提到，AI如GPT-4在高風險考試中表現不一。這項研究比較了四個AI模型（Llama-3、Gemini、GPT-4o和Copilot）與專家和住院醫師在歐洲普通外科板試中的表現，關注準確率在不同題型、長度和難度上的差異。研究選取了120個多項選擇題，通過結構化隨機化協議從題庫中抽取，然後通過Google Forms分發給四個AI模型和30名外科醫師（15名專家，15名住院醫師），在限時的情況下完成。結果顯示，專家準確率最高，達81.6%，住院醫師69.9%，而AI模型中Llama-3表現最好，65.8%，Copilot最差，51.7%。AI的表現隨著題目難度和長度增加而下降，尤其是Copilot在短題上的表現還不錯，但長題就差很多。相比之下，人類參與者在不同難度下準確率相對穩定。這個研究的目的是評估AI在模擬真實考試環境下的表現，假設可能是AI模型在醫學考試中可能不如人類專家。研究設計合理，但可能存在樣本量小、題目覆蓋範圍有限等限制。數據支持假設，AI確實不如專家，但Llama-3接近住院醫師的水平。未來的臨床應用可能需要AI作為輔助工具，而非取代專家。研究的局限性包括題目數量和範圍，可能未能全面反映實際應用情境。此外，AI在面對需要高級醫學知識的題目時表現不足，強調了其作為補充工具的角色。其他可能的解釋可能包括AI模型的訓練數據是否涵蓋了足夠的外科知識，或者是否有更好的模型尚未被測試。未來研究可能需要更大規模的考試，或者針對特定知識領域進行優化。 </think> ### 1. 研究目的與假設這項研究主要探討了大型語言模型（LLMs）在歐洲普通外科板試中的表現，與專家和住院醫師進行比較。研究旨在評估AI模型在高風險醫學考試中的準確率，尤其是在不同題型、長度和難度下的表現。研究的假設是，AI模型在這些考試中可能不如人類專家，尤其是在需要高級醫學知識和判斷力的情況下。 ### 2. 方法與設計研究採用了比較研究設計，選取了四個AI模型（Llama-3、Gemini、GPT-4o和Copilot）以及30名外科醫師（15名專家和15名住院醫師），並使用了120個多項選擇題。題目從題庫中通過結構化隨機化協議抽取，分發給參與者，並在限時條件下完成。這種設計合理，因為它模擬了真實的考試環境，並控制了一些變量，如題目長度和難度。然而，樣本量相對較小，且題目可能未能涵蓋所有外科知識領域，可能存在選題偏差。 ### 3. 數據解釋與結果研究結果顯示，專家準確率最高（81.6%），住院醫師次之（69.9%），而AI模型中Llama-3表現最好（65.8%），Copilot最差（51.7%）。AI模型的準確率隨著題目難度和長度增加而下降，尤其是Copilot在長題上的表現差異顯著（68.3% vs. 36.4%）。相比之下，人類參與者的準確率在不同難度下相對穩定。這些結果支撐了研究假設，即AI模型在高難度和長題目中表現不佳，與專家相比存在顯著差距。 ### 4. 局限性與偏見研究可能存在以下局限性： - 樣本量較小，可能影響結果的普遍性。 - 試題可能未能全面覆蓋所有外科知識，存在選題偏差。 - AI模型的訓練數據可能未涵蓋足夠的外科專業知識，影響其表現。 - 研究未考慮AI模型的優化和調整，可能影響其準確率。 ### 5. 臨床及未來研究意涵研究結果表明，AI模型在外科教育中仍應作為補充工具，而非取代專家判斷。未來研究可探討如何優化AI模型的訓練數據，以提高其在醫學考試中的表現。此外，研究建議未來應進行更大規模的考試，以全面評估AI模型在不同醫學領域的應用潛力。 ### 6. 其他觀點其他可能的解釋包括： - AI模型的訓練數據可能未涵蓋足夠的外科知識，影響其準確率。 - AI模型在短題目中的表現較好，可能是因為其在簡短文本處理上更為高效，而在長題目中則需要更深入的理解和推理能力。 - 研究中使用的AI模型可能尚未經過針對外科考試的專門訓練，未來研究可探討針對特定領域的AI模型優化。這些結果強調了AI在醫學教育中的潛在應用，但也指出了其目前的限制，提醒未來研究需進一步探討AI模型在醫學考試中的角色和優化方向。