Artificial Intelligence Language Models to Translate Professional Radiology Mammography Reports Into Plain Language - Impact on Interpretability and Perception by Patients.

人工智慧語言模型將專業放射線乳房攝影報告翻譯為淺顯語言——對病患可理解性與感受的影響

<think> 嗯，好的，我现在要分析一下这个PubMed研究的标题和摘要。首先，标题是“Artificial Intelligence Language Models to Translate Professional Radiology Mammography Reports Into Plain Language - Impact on Interpretability and Perception by Patients.” 看起来是关于用AI语言模型把专业的乳腺X光检查报告翻译成白话文，研究患者对这种翻译的理解和感知。好的，先从研究目的和假设开始。摘要里说，这个研究的目的是评估AI翻译的乳腺X光和超声报告在可解释性和患者感知方面的效果，关注可懂性、随访建议和传达的同理心。他们用了调查问卷的方法。所以研究的主要问题应该是：AI翻译后的报告在患者理解度、建议的明确性以及传达的同情心方面是否比传统报告更好？他们的假设可能是，AI翻译后的报告会更容易被患者理解，同时保持专业性和同理心。接下来是方法和设计。他们用了观察性研究，创建了三个虚构的乳腺X光和超声报告，分别对应BI-RADS分类3、4、5。然后用三个大型语言模型（ChatGPT-4、ChatGPT-4o、Google Gemini）多次将这些报告翻译成白话文。首先，两位乳腺成像专家从每个BI-RADS类别和每个LLM中选出最好的翻译，基于事实正确性、完整性和质量。然后，40名女性参与者比较并评分这些翻译报告，评估可懂性、随访建议、传达的同理心和额外价值。统计分析用了累积链接混合模型和Plackett-Luce模型来排序偏好。方法上看起来合理，因为他们用了多个模型和专家评审，确保翻译的质量。但可能有局限性，比如只用了三个模型，可能无法代表所有AI模型的情况。此外，虚构的报告可能不如真实报告复杂，影响结果。数據解釋與結果方面，研究顯示GPT-4和GPT-4o在所有類別中得分顯著高於Gemini（P<.001）。年齡在50歲以上的參與者評分顯著高於18-29歲的（P<.05）。高等教育程度預測較低評分（P=.02），而沒有進行過乳腺X光檢查的評分較高（P=.03），而AI經驗不影響評分（P=.88）。排序分析顯示GPT-4o最受歡迎，其次是GPT-4，Gemini最後。這些結果支持假設，AI翻譯報告在可懂性和同理心方面優於傳統報告，但有些結果可能有偏差，比如年齡和教育程度的影響可能來自樣本特徵，而非翻譯本身。局限性和偏見方面，樣本量只有40名女性，可能不夠大，影響結果的普遍性。報告是虛擬的，可能不具真實情境的複雜性。此外，研究只涉及女性，未考慮男性或其他群體的反應。教育程度和年齡的影響可能引入偏差，但研究嘗試控制這些變量，但仍需注意。臨床及未來研究意涵，這項研究顯示AI翻譯有潛力改善患者溝通，特別是在乳腺成像中。未來研究可以擴大樣本量，使用真實報告，考慮更多患者背景變量，探討不同AI模型的差異，以及長期效果。其他觀點，可能還有其他因素影響患者評分，比如報告的內容複雜度，或AI模型的訓練數據。另外，患者可能更偏好某些風格的翻譯，而不僅僅是模型本身的差異。未來研究可以考慮這些因素，以及文化差異對翻譯效果的影響。總結來說，這項研究展示了AI在翻譯醫療報告上的潛力，但仍需克服樣本限制和報告虛擬化的問題，未來研究需更全面考慮這些因素。 </think> ### 研究目的與假設該研究主要探討了人工智慧（AI）語言模型在將專業的乳腺X光報告翻譯成白話文對患者理解度和感知的影響。研究假設AI翻譯的報告在可懂性、隨訪建議和傳達的同理心方面會比傳統報告更好。 ### 方法與設計研究採用了觀察性研究，使用了三種AI模型（ChatGPT-4、ChatGPT-4o、Google Gemini）翻譯虛擬的乳腺報告。專家評選出最佳翻譯，隨後由40名女性評分。方法合理，但樣本量小，報告虛擬可能影響結果。 ### 數據解釋與結果結果顯示GPT系列模型優於Gemini，年齡和教育程度影響評分，但AI經驗不影響。結果支持假設，但可能存在樣本偏差。 ### 局限性與偏見樣本量小，報告虛擬，缺乏真實情境，未考慮男性反應，教育和年齡可能引入偏差。 ### 臨床及未來研究意涵研究顯示AI翻譯有改善患者溝通的潛力。未來研究應擴大樣本，使用真實報告，考慮更多變量。 ### 其他觀點可能存在報告內容和AI訓練資料的影響，患者可能偏好特定風格，未來研究可探討文化差異。總結：研究展示AI在醫療報告翻譯的潛力，但需克服樣本和虛擬化的限制。