Interobserver agreement between artificial intelligence models in the thyroid imaging and reporting data system (TIRADS) assessment of thyroid nodules.

人工智慧模型在甲狀腺影像與報告資料系統（TIRADS）評估甲狀腺結節中的觀察者間一致性

<think> 嗯，我看到這篇研究的標題是關於人工智慧模型在甲狀腺結節TIRADS評估中的觀察者間協議一致性。摘要提到，超音波是評估甲狀腺結節惡性風險最準確的工具，因此國際學會發布了各種TIRADS系統。現在有了AI的出現，臨床醫生和研究人員應該思考AI如何解讀TIRADS的術語，以及AI是否在風險評估上達成一致。研究目的是分析AI在不同TIRADS類別中對甲狀腺結節惡性風險的評估間的一致性，使用的是ChatGPT、Google Gemini和Claude，評估ACR-TIRADS、EU-TIRADS和K-TIRADS。創建了90個案例，使用卡帕值評估一致性。結果表明，在ACR-TIRADS中，ChatGPT和Gemini的卡帕值是0.58，ChatGPT和Claude是0.53，Gemini和Claude是0.90。在EU-TIRADS中，分別是0.73、0.62和0.72。在K-TIRADS中，分別是0.88、0.70和0.61。研究發現三種AI之間的變異性不容忽視，臨床醫生和患者應該注意這些新發現。首先，我需要分析研究的目的和假設。研究主要探討AI模型在TIRADS評估中的一致性，想知道AI是否能夠一致地評估甲狀腺結節的惡性風險。假設可能是AI模型之間在評估上有一定的協議，但可能存在變異。接下來，方法和設計方面，研究使用了三種AI模型，並評估了三種不同的TIRADS系統。通過創建90個案例，讓AI進行評估，然後計算卡帕值。這種方法合理，因為卡帕值能夠衡量觀察者間的協議，超過0.7通常被視為良好協議。優點是比較了三種不同的AI和三種TIRADS，能夠全面了解其一致性。但潛在缺陷可能在於案例的創建是否全面，是否涵蓋了所有可能的TIRADS情境，還有AI模型的版本和訓練資料可能會影響結果。數據解釋和結果方面，卡帕值在不同的TIRADS和AI模型間有所不同。在ACR-TIRADS中，Gemini和Claude之間的協議很高（0.90），而ChatGPT和另外兩個模型的協議較低。在EU-TIRADS中，協議普遍較高，而在K-TIRADS中，ChatGPT和Gemini的協議最高。這可能意味著不同TIRADS系統的評估標準對AI的影響不同，或者AI模型在某些系統上訓練得更好。這些結果支撐了假設，即AI之間存在變異性，但部分模型間的協議仍然良好。局限性和偏見方面，研究可能存在的局限包括案例數量是否足夠，是否能夠代表所有臨床情境。另外，AI模型的訓練資料和演算法可能會影響結果，如果不同AI有不同的訓練資料，可能會導致評估上的差異。此外，研究可能只評估了特定的TIRADS版本，未考慮其他可能的變數，如醫生經驗或其他診斷工具的使用。臨床和未來研究意涵方面，這項研究提醒臨床醫生在使用AI評估TIRADS時，應該注意到不同AI模型之間可能存在評估差異，可能需要醫生進行最終的判斷。未來研究可以考慮更多AI模型，或者不同版本的TIRADS，或者探討AI模型在不同臨床環境中的表現。其他觀點方面，可能還有其他因素影響AI的評估結果，比如AI模型的更新版本，或者不同的超音波設備對圖像的解讀。另外，醫生的主觀判斷和經驗也可能影響AI的評估結果，未來可以研究AI與醫生之間的協議性。總的來說，這篇研究提供了有價值的見解，幫助臨床醫生了解AI在TIRADS評估中的局限性和變異性，但仍需更多的研究來驗證和改進AI在這一領域的應用。 </think> ### 研究目的與假設該研究旨在探討三種人工智慧（AI）模型在不同甲狀腺結節評估系統（TIRADS）中的觀察者間一致性。研究假設AI模型在評估甲狀腺結節的惡性風險時可能存在一定的協議，但也可能有變異。 ### 方法與設計研究選用了ChatGPT、Google Gemini和Claude三種AI模型，並評估了ACR-TIRADS、EU-TIRADS和K-TIRADS三種系統。通過創建90個案例，計算卡帕值（κ）以衡量一致性。方法合理，優點是比較了多種AI和TIRADS，但案例可能不夠全面，且AI訓練資料可能影響結果。 ### 數據解釋與結果結果顯示AI模型間的協議性存在差異。在ACR-TIRADS中，Gemini和Claude協議高（κ=0.90），而ChatGPT與其他模型協議較低。EU-TIRADS的協議性普遍較高，而在K-TIRADS中，ChatGPT和Gemini協議最佳。這些結果支撐了假設，確認AI模型間存在變異，但部分模型間協議良好。 ### 局限性與偏見研究可能的局限包括案例數量和代表性不足，AI模型的訓練資料差異可能影響結果。未考慮其他變數如醫生經驗或診斷工具，且只評估特定TIRADS版本。 ### 臨床及未來研究意涵臨床上，醫生應注意AI模型間的評估差異，需進行最終判斷。未來研究建議考慮更多AI模型、TIRADS版本，或探討AI在不同臨床環境中的表現。 ### 其他觀點其他因素如AI模型更新版本、超音波設備差異及醫生主觀判斷可能影響評估結果。未來可研究AI與醫生之間的協議性，以提升評估的一致性。 --- 這項研究提供了有價值的見解，幫助臨床醫生了解AI在TIRADS評估中的局限性和變異性，建議未來進行更深入的研究以改進AI應用。