Evaluating Artificial Intelligence in Patient Education: DeepSeek-V3 Versus ChatGPT-4o in Answering Common Questions on Laparoscopic Cholecystectomy.

人工智慧於病患衛教中的評估：DeepSeek-V3 與 ChatGPT-4o 在回答腹腔鏡膽囊切除術常見問題之比較

<think> 嗯，我需要分析這篇關於人工智慧在病人教育中應用的研究。首先，研究目的是比較DeepSeek-V3和ChatGPT-4o在回答腹腔鏡膽囊切除術常見問題上的表適合度、準確性和可讀性。研究假設可能是這兩種AI模型在這方面有差異。研究方法是用20個常見問題，讓兩個AI回答，每次回答前清除搜索記錄。然後由兩位經驗豐富的外科醫生評分，用Likert量表評估回答的全面性。統計方法包括配對樣本t檢測和Wilcoxon符號秩檢測，評價者之間的一致性用Cohen's Kappa檢測。研究結果顯示DeepSeek-V3在19個問題上得到了5分，而ChatGPT-4o只有13個，差異 статистично значимі. 這意味著DeepSeek-V3的回答更適合用於病人教育。但研究可能有局限性，比如評分的主觀性和樣本量小。另外，AI模型的更新可能影響結果，且研究可能集中在特定文化或地區背景。在未來的研究中，可能需要更多樣化的評估標準和更大的樣本量，以及考慮不同文化背景的差異。臨床上，這項研究表明DeepSeek-V3可能是更好的工具，但仍需進一步驗證其在不同情境下的效果。其他可能的解釋包括AI模型的訓練資料差異，或者DeepSeek-V3在特定醫療領域上有更好的優化。總的來說，研究結果支持DeepSeek-V3在病人教育中的優勢，但仍需謹慎考慮其應用範圍和局限性。 </think> ### 1. 研究目的與假設這項研究旨在比較兩種基於人工智慧的大型語言模型（LLMs），DeepSeek-V3 和 ChatGPT-4o，在回答與腹腔鏡膽囊切除術（LC）相關的常見病人問題上的表適合度、準確性和可讀性。研究假設可能是這兩種模型在回答這些問題時會有差異，特別是在適合用於病人教育方面。 ### 2. 方法與設計研究方法是選取20個最常見的病人問題，分別讓兩種AI模型回答。每次回答前會清除搜索記錄，以確保回答的獨立性。回答的全面性由兩位具有肝膽外科經驗的外科醫生評估，使用Likert量表。統計方法包括配對樣本t檢測和Wilcoxon符號秩檢測，評價者之間的一致性則使用Cohen's Kappa檢測。 **優點**：這種方法系統地比較了兩種AI模型的表現，評估標準明確，且使用醫生評分增加了專業性。 **潛在缺陷**：評分的主觀性可能導致偏差，樣本量只有20個問題，可能不足以全面代表所有病人問題。 ### 3. 數據解釋與結果研究結果顯示，DeepSeek-V3在19個問題上得到5分，而ChatGPT-4o只有13個，差異具有統計學意義（p=0.033）。這表明DeepSeek-V3的回答更適合用於病人教育，支持了研究假設。 ### 4. 局限性與偏見研究可能存在以下局限性： - **樣本量小**：只有20個問題，可能不夠全面。 - **主觀評分**：醫生的評分可能存在主觀偏差。 - **文化或地區背景**：研究可能集中在特定背景，結果可能不適用於其他地區。 - **AI模型更新**：AI模型的更新可能影響結果，研究結果可能不適用於未來版本。 ### 5. 臨床及未來研究意涵這項研究表明DeepSeek-V3在病人教育中可能更具優勢，但需要進一步研究其在不同情境下的效果。未來研究建議增加樣本量，考慮不同文化背景，並使用更客觀的評估標準。 ### 6. 其他觀點其他可能的解釋包括AI模型的訓練資料差異，或DeepSeek-V3在特定醫療領域上更好的優化。這些差異可能導致其在LC問題上的優勢，但仍需進一步研究以確認。 ### 總結研究結果支持DeepSeek-V3在病人教育中的優勢，但需謹慎考慮其應用範圍和局限性。未來研究需更全面地評估AI模型的效果，以確保其在臨床應用中的可靠性和準確性。