Can ChatGPT and Gemini justify brain CT referrals? A comparative study with human experts and a custom prediction model.

ChatGPT 和 Gemini 能否為腦部 CT 轉診提供合理依據？與人類專家及自訂預測模型的比較研究。

<think> 嗯，我现在要分析这篇关于ChatGPT和Gemini是否能为脑部CT扫描转介提供依据的研究。首先，我得仔细阅读标题和摘要，理解研究的目的和假设。标题提到这是一项比较研究，比较了ChatGPT和Gemini与人类专家以及定制预测模型在脑部CT转介方面的表现。摘要中提到，欧洲影像转介指南的采用率不高，导致了很多不恰当的CT扫描。研究者想探讨这两种聊天机器人是否能作为替代方案来证明转介的合理性。首先，研究目的应该是评估AI工具在判断脑部CT转介是否恰当方面的效果，以及它们与人类专家和定制模型的比较。假设可能是AI工具能够准确地处理这些转介，甚至可能与人类专家相当，或者定制模型更优。接下来，看看方法。他们使用了143个真实的脑部CT转介案例，两名放射技师和放射科医生进行分析，还有ChatGPT-4、Gemini和一个预测模型。比较它们的建议和病理猜测，评估一致性。使用kappa统计来衡量一致性。方法上看，使用真实案例和多评估者是好的，但样本量可能不够大。另外，是否所有转介都是脑部CT，可能会影响结果的广泛适用性。数据解释方面，结果显示聊天机器人在完整转介上的表现不错，但整体kappa值较低，仅为0.3，说明它们在处理不完整或模糊转介时效果有限。预测模型表现更好，kappa达0.853，说明模型在分类上更可靠。聊天机器人在处理完整转介时的一致性很高，但在模糊的情况下表现不佳，甚至错误率高达一半。这可能是因为AI工具依赖于输入的质量，完整的信息能让它们更好地应用指南，而模糊的信息则让它们难以准确判断。此外，预测模型可能是因为被设计来处理这些特定指南，所以表现更好。局限性方面，样本量可能不足，且仅限于脑部CT，未知是否适用于其他部位或类型的扫描。另外，转介的质量差异可能影响结果，未来的研究需要更大的样本和多样化的数据。临床意义方面，虽然AI工具显示潜力，但目前还不够可靠，特别是在处理模糊转介时。定制模型可能更适合作为临床决策的工具，但需要进一步验证。未来的研究可能需要改进AI工具，使其更好地处理各种质量的转介。其他观点方面，可能AI工具在特定条件下表现更好，比如当转介包含详细的临床信息时，它们可能成为有用的工具。但在当前状态下，它们可能无法完全替代人类专家，特别是在处理复杂或模糊的情况时。总结一下，这项研究显示AI工具在处理完整的转介时效果不错，但在处理模糊的情况下表现有限，而定制模型则更优。未来的研究需要扩展样本范围，并改进AI工具以处理更多样化和质量不同的转介。 </think> ### 研究目的與假設這項研究主要探討了兩個主要問題：第一，評估ChatGPT和Gemini這兩種公開聊天機器人是否能夠為腦部CT掃描的轉介提供合理的依據；第二，將這些聊天機器人的表現與人類專家以及一個定製預測模型進行比較。研究假設這些聊天機器人能夠有效地分析和解釋腦部CT轉介的依據，並且其表現可能與人類專家或定製模型相媲美。 ### 方法與設計研究方法包括了以下幾個步驟： 1. **資料收集**：研究人員收集了143個真實的腦部CT轉介案例，並評估這些轉介是否符合歐洲放射學會（European Society of Radiology, ESR）iGuide指南。 2. **評估工具**：研究比較了ChatGPT-4、Gemini、人類專家（兩名放射技師和放射科醫生）以及一個定製預測模型在解釋和分析這些轉介時的表現。 3. **評估標準**：研究人員評估了這些工具在解釋轉介、提出替代影像建議以及懷疑病理條件方面的能力，並使用κ統計（kappa statistics）來衡量各實體間的一致性。研究方法合理，因為它直接比較了人工智慧工具、人類專家和定製模型的表現，從而評估這些工具在臨床應用中的可行性。然而，研究設計可能存在一些潛在缺陷，例如樣本量是否足夠大，或者是否涵蓋了足夠多樣化的轉介案例。 ### 數據解釋與結果研究結果顯示： 1. **聊天機器人表現**：ChatGPT-4和Gemini在解釋完整轉介時的表現相當一致（94.2%），但在整體表現上有限制（κ = 0.3），這表明它們在處理不完整或模糊的轉介時效果不佳。 2. **定製預測模型**：定製預測模型在解釋轉介時的表現遠超過聊天機器人（κ = 0.853），這表明定製模型在分析轉介時更加可靠。 3. **替代影像建議**：聊天機器人在建議替代影像時的表現也相當高（ChatGPT：86.5%，Gemini：84.4%），但在分析轉介的合理性時，聊天機器人錯誤率仍然相當高（近一半）。這些結果部分支持了研究假設，即聊天機器人在某些情況下能夠有效地解釋和分析轉介，但在整體表現上仍有不足，尤其是在處理模糊或不完整的轉介時。 ### 局限性與偏見研究可能存在以下局限性： 1. **樣本量**：雖然研究使用了143個真實案例，但樣本量是否足夠大仍有待商榷，尤其是在評估複雜的臨床應用時。 2. **案例多樣性**：研究僅限於腦部CT掳掃，未知這些結果是否能推廣到其他類型的CT掳掃或影像模態。 3. **轉介質量**：研究結果顯示聊天機器人的表現在處理完整轉介時更好，但在現實世界中，轉介的質量可能各異，這可能影響聊天機器人的實用性。 4. **未考慮的變數**：研究可能未考慮到其他可能影響轉介合理性的因素，例如患者的病史或其他臨床資訊。 ### 臨床及未來研究意涵這項研究對臨床和未來研究有以下幾點啟示： 1. **聊天機器人的潛力**：ChatGPT和Gemini在解釋完整轉介時展現出一定的潛力，尤其是在建議替代影像時。但在處理模糊或不完整的轉介時，其表現有限，仍需進一步改進。 2. **定製模型的優勢**：定製預測模型在分析轉介時的表現遠超過聊天機器人，表明針對特定任務的定製模型可能更適合用於臨床決策。 3. **未來研究方向**：未來研究應該擴展到其他類型的CT掳掃和影像模態，並探討如何改進聊天機器人在處理模糊或不完整轉介方面的能力。 ### 其他觀點 1. **聊天機器人的應用場景**：雖然聊天機器人在某些情況下表現有限，但它們仍然可以在特定場景中發揮作用，例如作為初步篩查工具或提供基本建議。 2. **人類專家的角色**：人類專家在解釋和分析轉介時仍然是不可或缺的，尤其是在處理複雜或模糊的案例時。 3. **定製模型的優勢**：定製模型在特定任務上的優勢表明，未來研究應該更多地聚焦於開發針對特定臨床需求的工具，而非僅僅依賴於通用的人工智慧模型。 ### 總結這項研究展示了聊天機器人在解釋和分析腦部CT轉介時的潛力，但也揭示了其在處理模糊或不完整轉介時的局限性。未來研究應該致力於改進聊天機器人在這些方面的能力，並探討如何將這些工具更有效地整合到臨床決策中。