Can American Board of Surgery in Training Examinations be passed by Large Language Models? Comparative assessment of Gemini, Copilot, and ChatGPT.

大型語言模型能通過美國外科醫學會住院醫師訓練考試嗎？Gemini、Copilot 與 ChatGPT 的比較性評估

<think> 嗯，好的，我现在需要分析一下这个PubMed的研究，关于大型语言模型（LLMs）在美国外科培训考试（ABSITE）中的表现。首先，我得仔细阅读标题和摘要，理解研究的目的和方法，然后从多个角度进行分析。首先，研究的标题是“Can American Board of Surgery in Training Examinations be passed by Large Language Models? Comparative assessment of Gemini, Copilot, and ChatGPT.” 这说明研究目的是评估三个LLMs在ABSITE考试中的表现，特别是比较他们的正确率。摘要中提到，研究的目标是评估这些LLMs回答ABSITE问题的能力。方法部分，他们使用了170道2017到2022年的多项选择题，分为四个类别：定义、生物化学/药学、病例情景和治疗与手术程序。然后将这些问题作为提示输入到ChatGPT-4、Copilot和Gemini中，评估正确率。结果显示，ChatGPT的正确率最高，为79.4%，Copilot次之，为77.6%，而Gemini只有52.9%。在不同类别中，Gemini在定义和病例情景类别表现较差，但在生物化学/药学类别三者正确率相同。治疗与手术程序类别中，Copilot表现最好，但Gemini仍然较低，且差异不显著。现在，我需要从六个角度进行分析： 1. 研究目的与假设：研究主要探讨LLMs是否能通过ABSITE考试，比较三个模型的表现。假设可能是这些模型在不同类别有不同的表现，可能有些模型在某些领域更强。 2. 方法与设计：方法是将问题输入模型，评估正确率。优点是直接测试模型的能力，缺点是可能忽略了题目难度、模型版本更新等因素。 3. 數據解釋與結果：结果支持假设，ChatGPT和Copilot表现较好，尤其在定义和病例情景，Gemini则较弱。这可能是因为模型训练数据或算法差异。 4. 局限性與偏見：样本量可能有限，问题分布可能不均匀，模型版本可能已更新，且只测试了多项选择题，无法反映实际考试的综合能力。 5. 臨床及未來研究意涵：对于教育和考试，LLMs可能成为辅助工具，但需谨慎使用，未来的研究可以探讨更复杂的考试形式或模型改进。 6. 其他觀點：可能模型在特定领域的表现不同，或题目设计的差异影响结果，需要进一步分析模型的训练数据和算法差异。总的来说，这项研究提供了有价值的见解，但也有一些局限性，未来研究可以更深入地探讨LLMs在医学教育中的应用和改进方向。 </think> ### 1. 研究目的與假設這項研究的主要目的是評估大型語言模型（LLMs）在回答美國外科培训考試（ABSITE）問題中的表現。研究針對三種不同的LLMs：ChatGPT-4、Copilot和Gemini，比較它们在不同類別的問題上能否正確回答。研究的假設可能包括： - **假設一**：LLMs在某些特定類別的問題（如定義或生物化學）上表現更好，而在其他類別（如病例情景或治療與手術程序）上表現較差。 - **假設二**：不同LLMs在整體表現上存在差異，可能是因為其訓練數據、演算法或其他因素的不同。摘要中提到，研究的目的是評估這些模型在ABSITE考試中的表現，尤其是它們在不同類別的正確率。這表明研究假設LLMs在不同類別的表現會有所差異，並且可能有一些模型在整體上表現優於其他模型。 ### 2. 方法與設計研究的方法是將170道ABSITE的多項選擇問題輸入到三種LLMs中，評估它们的正確率。這些問題分為四個類別：定義、生物化學/藥學、病例情景和治療與手術程序。研究的設計是合理的，因為它直接測試了LLMs在特定醫學考試中的表現。然而，研究方法也存在一些潛在的缺陷： - **優點**： - 研究針對特定的醫學考試，結果可能對醫學教育或考試設計有啟示。 - 四個類別的劃分有助於了解LLMs在不同類型問題上的強弱。 - **潛在缺陷**： - 研究的樣本量（170道問題）可能不夠大，尤其是分為四個類別後，每個類別的問題數量可能更少，可能影響結果的穩健性。 - 研究使用的問題是從2017年到2022年，這些問題可能不完全反映當前LLMs的能力，因為LLMs的訓練數據可能包括了更晚的資訊。 - 研究只測試了多項選擇題的形式，未能評估LLMs在開放式問題或臨床案例分析中的表現。 ### 3. 數據解釋與結果研究結果顯示，ChatGPT和Copilot在整體正確率上表現相近，分別為79.4%和77.6%，而Gemini的正確率顯著低於其他兩者，僅為52.9%。在定義類別中，ChatGPT和Copilot的正確率分別為93.5%和90.3%，而Gemini僅為64.5%。在生物化學/藥學類別，三者的正確率相同，均為83.3%。在病例情景類別，ChatGPT和Copilot的正確率分別為76.3%和72.8%，而Gemini僅為46.5%。在治療與手術程序類別，Copilot的正確率最高為84.6%，而ChatGPT和Gemini分別為69.2%和53.8%。這些結果部分支持研究的假設，即不同的LLMs在整體和特定類別上的表現存在差異。然而，Gemini在治療與手術程序類別的正確率雖然低於其他兩者，但差異並不顯著（P = 0.236），這可能表明在這一類別中，Gemini的表現並不如其他兩者差，或者樣本量不足以檢測差異。 ### 4. 局限性與偏見研究存在以下局限性和潛在偏見： - **樣本量**：雖然研究使用了170道問題，但這些問題分散在四個類別中，每個類別的問題數量可能不足，尤其是在治療與手術程序類別中，可能影響結果的穩健性。 - **問題選擇**：研究使用的問題是從2017年到2022年，這些問題可能不完全反映當前LLMs的能力，因為LLMs的訓練數據可能包括了更晚的資訊。 - **模型版本**：研究使用的LLMs版本可能不是最新的，例如Gemini的表現可能在更新後有所提升。 - **單一考試形式**：研究只測試了多項選擇題的形式，未能評估LLMs在開放式問題或臨床案例分析中的表現。 - **缺乏背景知識**：LLMs可能缺乏特定的醫學知識或臨床經驗，這可能影響它們在某些類別中的表現。 ### 5. 臨床及未來研究意涵這項研究對臨床和未來研究有以下啟示： - **臨床應用**：研究表明，LLMs在某些醫學考試中表現不錯，尤其是在定義和生物化學/藥學類別中。這可能意味著LLMs可以作為醫學教育的一種輔助工具，幫助學生準備考試或提供即時反饋。 - **未來研究**：未來的研究可以探討LLMs在其他醫學考試中的表現，或者評估LLMs在不同醫學專業領域中的應用潛力。此外，研究可以針對LLMs的局限性，例如在治療與手術程序類別中的表現不佳，進行改進。 - **考試設計**：研究結果可能對考試設計有啟示。例如，考試設計者可能需要考慮LLMs的能力，並設計更能測試人類專業知識和臨床判斷力的問題。 ### 6. 其他觀點除了研究提供的結果和解釋外，還有其他可能的觀點和推理過程： - **模型訓練數據**：Gemini的表現顯著低於其他兩者，可能是因為其訓練數據中醫學相關內容較少，或者其演算法在處理醫學問題時不如其他模型有效。 - **問題複雜性**：在治療與手術程序類別中，Copilot的正確率最高，可能是因為這些問題涉及更具決策性和實用性的內容，而Copilot在這類問題上有更好的表現。 - **人類與模型比較**：研究未涉及將LLMs的表現與人類的表現進行比較，這可能是一个未來研究的方向，以評估LLMs在醫學考試中的實用性和可靠性。總的來說，這項研究提供了有價值的見解，但也存在一些局限性和潛在偏見。未來的研究可以進一步探討LLMs在醫學考試中的應用，並針對其局限性進行改進。