Evaluation of generative AI assistance in clinical nephrology: Assessing GPT-4, GPT-4o, Gemini 1.0 Ultra, and PaLM 2 in patient interaction and renal biopsy interpretation.

臨床腎臟科中生成式 AI 協助的評估：評估 GPT-4、GPT-4o、Gemini 1.0 Ultra 與 PaLM 2 在病患互動與腎臟切片判讀的表現

<think> 嗯，我现在要分析这个关于生成式AI在肾脏病学中应用的研究。首先，我得仔细阅读标题和摘要，了解研究的主要内容。标题提到了四个AI模型：GPT-4、GPT-4o、Gemini 1.0 Ultra和PaLM 2，评估它们在临床肾脏病学中的表现，特别是在患者互动和肾脏活检解释方面。研究目的部分，摘要里说他们比较了四个AI模型对常见肾脏病学问题的回答，目的是评估生成式AI在提升肾脏病学患者沟通和教育方面的效果。所以研究假设应该是这些AI模型能够有效地帮助临床医生与患者沟通，并且在解释肾脏活检报告方面有所贡献。他们可能假设不同的模型在不同的任务上表现不同，比如GPT-4o可能在某些方面更优，而PaLM 2在其他方面更好。接下来是方法和设计。他们让IT工程师在2023年12月8-12日和2024年10月21-23日期间向每个模型提出了21个肾脏病学问题和三个肾脏活检报告，重复询问以确保一致性。然后有15名肾脏病学家和一名研究人员评估回答的适当性、有用性、一致性和人性化同理心，评分范围是1到4分。他们使用了Shapiro-Wilk和Mann-Whitney U测试，以及TF-IDF、BertScore和ROUGE评估方法。看起来研究设计还不错，采用了多模型比较和多评分维度，但可能存在一些缺陷。比如，评估者都是IT工程师，而不是临床医生，这可能影响结果的相关性。另外，样本量可能不够大，时间跨度有点长，可能影响一致性。数據解釋部分，GPT-4o在適當性和有用性上得分很高，PaLM 2在一致性上最好，GPT-4在同理心方面最強。Gemini在生成肾脏活检报告的连贯性上表现最好。所有参考资料的准确性也很高，尤其是GPT-4的参考全部准确。这些结果支持了研究假设，即不同的AI模型在不同任务上有不同的优势。关于局限性，研究可能没有考虑到模型在实际临床环境中的表现，评估者可能不是临床医生，可能忽略了某些实际应用中的挑战。此外，研究可能没有涵盖足够多样的病例，导致结果的局限性。临床和未来研究的意义在于，AI模型可以辅助医生在患者沟通和教育中，提高效率，尤其是在解释复杂的医学报告时。未来的研究可以考虑更大规模的样本，涉及更多的临床场景，并由临床医生直接评估AI的表现。其他可能的观点，可能AI在某些情况下无法替代人类医生的判断，特别是在复杂或罕见病例中，需要更多的训练数据和实践检验。此外，不同模型的优缺点可能需要根据具体的临床需求来选择，最优模型可能因任务而异。 </think> ### 研究目的與假設本研究旨在比較四種生成式AI模型（GPT-4、GPT-4o、Gemini 1.0 Ultra和PaLM 2）在臨床腎臟病學中的表現，特別是在患者互動和腎臟活檢解釋方面。研究假設這些AI模型能夠有效地幫助臨床醫生與患者溝通，並在解釋腎臟活檢報告方面提供有用資訊。 ### 方法與設計研究採用了實驗設計，邀請IT工程師在2023年12月8-12日和2024年10月21-23日期間向每個模型提出21個腎臟病學問題和三個腎臟活檢報告，並重複詢問以確保一致性。然後，由15名腎臟病學家和一名研究人員評估回答的適當性、有用性、一致性和人性化同理心，評分範圍為1到4分。研究還使用了Shapiro-Wilk和Mann-Whitney U測試，以及TF-IDF、BertScore和ROUGE評估方法。 ### 優點與潛在缺陷 - **優點**：研究設計涵蓋了多個AI模型，並評估了多個維度，包括適當性、有用性、一致性和人性化同理心。此外，研究還使用了多種統計方法和評估指標，增加了結果的可信度。 - **潛在缺陷**：評估者主要是IT工程師，而非臨床醫生，可能影響結果的臨床相關性。此外，樣本量可能不夠大，且時間跨度較長，可能影響一致性。 ### 數據解釋與結果研究結果顯示，GPT-4o在適當性和有用性上得分很高，PaLM 2在一致性上表現最佳，GPT-4在人性化同理心方面表現最好。Gemini 1.0 Ultra在生成腎臟活檢報告的連貫性上表現最佳。所有参考資料的準確性也很高，尤其是GPT-4的参考全部準確。這些結果支持了研究假設，即不同的AI模型在不同任務上有不同的優勢。 ### 局限性與偏見 - **局限性**：研究可能未能考慮到模型在實際臨床環境中的表現，評估者可能不是臨床醫生，可能忽略了某些實際應用中的挑戰。此外，研究可能未涵蓋足夠多樣的病例，導致結果的局限性。 - **偏見**：研究可能存在評估者偏見，因為評估者主要是IT工程師，而非臨床醫生，可能影響評估結果。 ### 臨床及未來研究意涵本研究對臨床應用有重要意涵，表明AI模型可以輔助醫生在患者溝通和教育中提高效率，尤其是在解釋複雜的醫學報告時。未來研究建議考慮更大規模的樣本，涉及更多的臨床場景，並由臨床醫生直接評估AI的表現。 ### 其他觀點可能還存在其他解釋或觀點，例如： - AI模型在某些情況下無法替代人類醫生的判斷，特別是在複雜或罕見病例中，可能需要更多的訓練數據和實際檢驗。 - 不同模型的優缺點可能需要根據具體的臨床需求來選擇，最優模型可能因任務而異。