Human-AI collaboration in large language model-assisted brain MRI differential diagnosis: a usability study.

大型語言模型輔助腦部 MRI 鑑別診斷中的人類與 AI 協作：一項可用性研究。

<think> 嗯，我要分析一下这个PubMed的研究。首先看标题，是关于人工智能协作在脑部MRI的诊断分析。摘要里说，他们研究了人类和大型语言模型（LLM）在协作下，对脑部MRI的鉴别诊断的影响，特别是准确性和效率。研究目的和假设应该是想看看LLM如何帮助放射科医生提高诊断的准确性和效率。他们可能假设LLM能够提供更准确的建议，从而改善诊断结果。方法和设计方面，他们选了40个MRI病例，分成两组，每组20个。六个住院医生，每人平均有6.3个月的经验，用两种方法各评估一组，一种是传统的互联网搜索，另一种是LLM基于的搜索引擎和混合聊天机器人。交叉设计确保每个病例都用两种工作流评估。每个病例都要确定三个最可能的鉴别诊断。LLM的回答由放射科专家小组分析。然后观察和反馈得到了人机协作的好处和挑战。数据解释和结果显示，LLM辅助组的正确诊断率更高，61.4%对46.5%，p=0.033，有显著差异。但解读时间和信心水平没有差异。LLM正确的建议在82.1%的情况下转化为正确的读者响应。挑战包括读者的病例描述不准确，LLM产生的幻觉，以及上下文不够充分。局限性可能包括样本量小，住院医生的经验较少，可能影响结果。另外，LLM的训练数据可能不包括最新的研究，可能影响准确性。临床意义是LLM有潜力提高诊断准确性，但需要解决协作中的挑战。未来的研究可能需要更大规模的样本，更有经验的医生，以及改进LLM的上下文理解。其他观点可能包括LLM在其他医疗领域的应用，或者不同类型的LLM对结果的影响。也许还需要考虑伦理问题，比如责任归属。总的来说，这个研究表明LLM可以帮助提高诊断准确性，但需要解决一些协作中的问题才能更好地应用在临床中。 </think> ### 研究目的與假設該研究主要探討了人工智慧語言模型（LLM）在腦部MRI的鑑別診斷中的應用，評估其對診斷準確性和效率的影響。研究假設LLM能夠通過提供更準確的建議來改善診斷結果。 ### 方法與設計研究採用了回顧性設計，選取40個具有挑戰性的腦部MRI病例，分為兩組，各20個病例。六名放射科住院醫生（平均經驗6.3個月）使用兩種方法評估病例：傳統的互聯網搜索和基於LLM的搜索引擎及聊天機器人。交叉設計確保每個病例都使用兩種工作流進行評估。每個病例需提供三個最可能的鑑別診斷，LLM的回應由放射科專家小組分析，並通過觀察和參與者反饋來評估人機協作的優缺點。 ### 數據解釋與結果結果顯示，LLM輔助組的診斷準確率（61.4%）顯著高於傳統方法（46.5%），p值為0.033。然而，解讀時間和信心水平沒有差異。LLM正確建議在82.1%的情況下被正確應用，但存在挑戰，如住院醫生的病例描述不準確、LLM的幻覺及不足的上下文化。 ### 局限性與偏見研究可能局限於樣本量小、住院醫生經驗不足，以及LLM的訓練資料可能不包含最新研究。這些因素可能影響結果的準確性和普適性。 ### 臨床及未來研究意涵研究結果表明LLM在提高診斷準確性方面具有潛力，但需解決協作挑戰以確保有效採用。未來研究建議增加樣本量、涉及更有經驗的醫生，並改進LLM的上下文理解能力。 ### 其他觀點 LLM在其他醫療領域的應用、不同LLM類型對結果的影響，以及倫理問題（如責任歸屬）亦為值得探討的方向。這些考量將有助於全面評估LLM在醫療診斷中的潛力與挑戰。