AI's ability to interpret unlabeled anatomy images and supplement educational research as an AI rater.

AI 解讀未標註解剖影像及作為 AI 評分者輔助醫學教育研究之能力

<think> 嗯,我需要分析這篇關於AI解剖學圖像解讀能力的研究。首先,研究的目的是比較兩種AI系統,ChatGPT-4o和Claude 3.5 Sonnet,在解讀未標記解剖學圖片上的效果,以及評估ChatGPT o1-preview作為評分工具的可靠性。 研究假設可能是自定義的chatbot比商業用的GenAI更好,或者至少在某些方面能夠勝任。摘要中提到證據表明自定義chatbot在文本解剖內容上更優,這可能支持了這個假設。 方法方面,使用了兩種GenAI系統,分別是ChatGPT-4o和Claude 3.5 Sonnet,還有ChatGPT o1-preview用來評分。圖片包括肌肉骨骼和胸腔的,形式多樣,比如插圖、照片、MRI等。每個圖片加上識別標記,比如箭頭、圈圈。然後提交45個問題,分三個層次,每個時間點兩次,然後由專家評分準確性和冗余性,用三級Likert量表。 數據解釋方面,ChatGPT-4o的準確性68%,Claude 61.5%,但差異不顯著,p=0.319。這可能意味著兩者差距不大,或者樣本量不夠大。作為評分工具,ChatGPT o1-preview與人類專家之間的協議度在0.545到0.755之間,屬於中等到實質性的協議,表明它在評分上有一定的可靠性。 但研究可能有局限性,比如樣本量可能不夠大,只有10張圖片,45個問題可能還不夠多。另外,圖片來源可能不夠多樣,可能影響AI的泛化能力。還有,評分標準可能存在主觀性,不同專家可能有不同的評分標準,影響結果。 未來研究可能需要更大規模的數據,更多樣化的圖片和問題,以及不同領域的評分標準來驗證結果。另外,AI在解剖學教育中的角色可能需要更多的探討,比如如何與傳統教學結合,提升學習效果。 其他可能的解釋可能包括AI在不同類型的圖片上表現不同,比如MRI和插圖,可能需要分開分析。或者,AI的準確性可能取決於問題的難度,低階問題可能更容易,高階則更困難。這些都需要進一步的研究來探討。 總之,這篇研究展示了AI在解剖學教育中的潛力,但還有很多改進空間和研究方向需要探索。 </think> ### 研究目的與假設 這項研究旨在探討兩種商業性生成人工智慧(GenAI)系統——ChatGPT-4o和Claude 3.5 Sonnet——在解讀未標記解剖學圖片方面的能力。此外,研究還評估了ChatGPT o1-preview作為AI評分工具的可靠性和有效性。研究的假設是,這些AI系統在解剖學教育中的應用潛力,尤其是在解讀圖片和評分方面,可能提供可靠的結果。 ### 方法與設計 研究採用了合理的方法,評估了兩種GenAI系統的圖片解讀能力,並使用ChatGPT o1-preview作為AI評分工具。優點包括使用多樣化的圖片類型和問題層次,以及評分工具的客觀性。然而,樣本量可能有限,圖片數量和問題數量可能不足以全面評估AI的能力。 ### 數據解釋與結果 研究結果顯示,ChatGPT-4o的準確性(68%)高於Claude 3.5 Sonnet(61.5%),但差異不顯著(p=0.319)。ChatGPT o1-preview在評分上與人類專家達成中等至實質性協議(Cohen's kappa=0.545-0.755),表明其在評分上的可靠性。 ### 局限性與偏見 研究可能存在樣本量小、圖片多樣性不足等局限性。評分標準的主觀性和AI系統在不同圖片類型上的表現差異可能引入偏見。 ### 臨床及未來研究意涵 該研究表明,AI在解剖學教育中具有潛力,但仍需改進。未來研究應考慮更大規模的數據、多樣化的圖片和問題,以及標準化的評分標準,以提升AI的可靠性和泛化能力。 ### 其他觀點 AI在不同類型的圖片(如MRI與插圖)上可能表現不同,且問題難度可能影響準確性。這些方面需要進一步研究,以全面評估AI在解剖學教育中的應用潛力。 總結來說,該研究展示了AI在解剖學教育中的潛力,但仍需更多研究來克服其局限性,並探索其在教育中的最佳應用方式。