GPT-4 vs. Radiologists: who advances mediastinal tumor classification better across report quality levels? A cohort study.

GPT-4 vs. 放射科醫師：誰能在不同報告品質層級下更好地推進縱膈腫瘤分類？一項世代研究

<think> 嗯，首先我看到这个研究的标题是关于GPT-4和放射科医生的中纵腔肿瘤分类比较。摘要里说他们评估了GPT-4在不同报告质量水平下的诊断准确性，和不同经验的放射科医生进行比较。研究目的应该是想看看GPT-4在分类中纵腔肿瘤方面如何表现，特别是在不同质量的报告下。他们假设GPT-4可能在某些情况下和医生相当，甚至更好，特别是在低质量报告时。方法上，他们用回顾性队列研究，收集了1494个患者的胸部CT报告，分成低、中、高质量。然后让六个放射科医生（住院医师、主治医生和副主任医生）和GPT-4来评估这些报告，最后分析诊断性能。看起来方法还不错，但可能有局限性。比如，报告质量是怎么评判的？标准是不是统一？另外，GPT-4可能在处理结构化报告上有优势，但实际临床报告可能更复杂。数据解读方面，GPT-4整体准确率73.3%，和副主任医生相当。低质量报告下GPT-4更好，但高质量报告下和主治医生差不多。还有不同肿瘤类型的表现不一，这可能和模型训练数据有关。局限性的话，样本可能不够多样化，都是三级医院的数据，可能不代表所有情况。另外，GPT-4可能在某些特定类型的肿瘤上有偏好，这可能影响结果。临床应用方面，GPT-4可以作为辅助工具，特别是在报告质量差的情况下，帮助提高诊断准确率。未来研究可以考虑更多类型的数据，或者让GPT-4和医生一起工作，看看效果如何。其他观点的话，可能GPT-4在处理语言模式上有优势，但实际诊断还需要结合影像和临床信息，单独用报告可能不够全面。 </think> ### 研究目的與假設該研究旨在探討GPT-4在分類中纵腔腫瘤方面的診斷準確性，並將其與不同經驗水平的放射科醫生進行比較。研究假設GPT-4在某些情境下可能與醫生具有相當或更好的表現，特別是在報告質量較低的情況下。 ### 方法與設計研究採用回顧性隊列研究，收集了1,494名患者的胸部CT報告，並根據預設準則將報告分為低、中、高質量。隨後，由六名放射科醫生（包括住院醫師、主治醫生和副主任醫生）及GPT-4評估這些報告，最後分析診斷性能。該方法設計合理，但報告質量的評判標準可能存在主觀性，且GPT-4在處理結構化報告上可能具有優勢，而現實臨床報告可能更為複雜。 ### 數據解釋與結果研究結果顯示，GPT-4整體診斷準確率為73.3%，與副主任醫生接近。在低質量報告中，GPT-4表現優於副主任醫生，而在高質量報告中，GPT-4則與主治醫生差不多。不同腫瘤類型的診斷表現不一，這可能與模型訓練數據的相關性有關。 ### 局限性與偏見研究可能存在樣本多樣性不足的问题，所有數據均來自於三級醫院，可能不代表所有情況。此外，GPT-4在某些特定腫瘤類型上可能存在偏好，這可能影響結果的客觀性。 ### 臨床及未來研究意涵該研究表明GPT-4在輔助診斷方面具有潛力，特別是在報告質量較低的情況下。未來研究可考慮更多類型的數據，或者探討GPT-4與醫生協同工作的效果。 ### 其他觀點 GPT-4在處理語言模式上具有優勢，但實際診斷仍需結合影像和臨床信息，單獨依賴報告可能不夠全面。