AI's ability to interpret unlabeled anatomy images and supplement educational research as an AI rater.

AI 解讀未標註解剖影像及作為 AI 評分者輔助醫學教育研究之能力

<think> 嗯，我需要分析這篇關於AI解剖學圖像解讀能力的研究。首先，研究的目的是比較兩種AI系統，ChatGPT-4o和Claude 3.5 Sonnet，在解讀未標記解剖學圖片上的效果，以及評估ChatGPT o1-preview作為評分工具的可靠性。研究假設可能是自定義的chatbot比商業用的GenAI更好，或者至少在某些方面能夠勝任。摘要中提到證據表明自定義chatbot在文本解剖內容上更優，這可能支持了這個假設。方法方面，使用了兩種GenAI系統，分別是ChatGPT-4o和Claude 3.5 Sonnet，還有ChatGPT o1-preview用來評分。圖片包括肌肉骨骼和胸腔的，形式多樣，比如插圖、照片、MRI等。每個圖片加上識別標記，比如箭頭、圈圈。然後提交45個問題，分三個層次，每個時間點兩次，然後由專家評分準確性和冗余性，用三級Likert量表。數據解釋方面，ChatGPT-4o的準確性68%，Claude 61.5%，但差異不顯著，p=0.319。這可能意味著兩者差距不大，或者樣本量不夠大。作為評分工具，ChatGPT o1-preview與人類專家之間的協議度在0.545到0.755之間，屬於中等到實質性的協議，表明它在評分上有一定的可靠性。但研究可能有局限性，比如樣本量可能不夠大，只有10張圖片，45個問題可能還不夠多。另外，圖片來源可能不夠多樣，可能影響AI的泛化能力。還有，評分標準可能存在主觀性，不同專家可能有不同的評分標準，影響結果。未來研究可能需要更大規模的數據，更多樣化的圖片和問題，以及不同領域的評分標準來驗證結果。另外，AI在解剖學教育中的角色可能需要更多的探討，比如如何與傳統教學結合，提升學習效果。其他可能的解釋可能包括AI在不同類型的圖片上表現不同，比如MRI和插圖，可能需要分開分析。或者，AI的準確性可能取決於問題的難度，低階問題可能更容易，高階則更困難。這些都需要進一步的研究來探討。總之，這篇研究展示了AI在解剖學教育中的潛力，但還有很多改進空間和研究方向需要探索。 </think> ### 研究目的與假設這項研究旨在探討兩種商業性生成人工智慧（GenAI）系統——ChatGPT-4o和Claude 3.5 Sonnet——在解讀未標記解剖學圖片方面的能力。此外，研究還評估了ChatGPT o1-preview作為AI評分工具的可靠性和有效性。研究的假設是，這些AI系統在解剖學教育中的應用潛力，尤其是在解讀圖片和評分方面，可能提供可靠的結果。 ### 方法與設計研究採用了合理的方法，評估了兩種GenAI系統的圖片解讀能力，並使用ChatGPT o1-preview作為AI評分工具。優點包括使用多樣化的圖片類型和問題層次，以及評分工具的客觀性。然而，樣本量可能有限，圖片數量和問題數量可能不足以全面評估AI的能力。 ### 數據解釋與結果研究結果顯示，ChatGPT-4o的準確性（68%）高於Claude 3.5 Sonnet（61.5%），但差異不顯著（p=0.319）。ChatGPT o1-preview在評分上與人類專家達成中等至實質性協議（Cohen's kappa=0.545-0.755），表明其在評分上的可靠性。 ### 局限性與偏見研究可能存在樣本量小、圖片多樣性不足等局限性。評分標準的主觀性和AI系統在不同圖片類型上的表現差異可能引入偏見。 ### 臨床及未來研究意涵該研究表明，AI在解剖學教育中具有潛力，但仍需改進。未來研究應考慮更大規模的數據、多樣化的圖片和問題，以及標準化的評分標準，以提升AI的可靠性和泛化能力。 ### 其他觀點 AI在不同類型的圖片（如MRI與插圖）上可能表現不同，且問題難度可能影響準確性。這些方面需要進一步研究，以全面評估AI在解剖學教育中的應用潛力。總結來說，該研究展示了AI在解剖學教育中的潛力，但仍需更多研究來克服其局限性，並探索其在教育中的最佳應用方式。