Evaluation of general-purpose large language models as diagnostic support tools in cervical cytology.

通用大型語言模型作為子宮頸細胞學診斷輔助工具之評估

<think> 嗯，我现在需要分析这篇关于大型语言模型在子宮頸細胞學檢查中作為診斷支持工具的研究。首先，我得仔细阅读标题和摘要，理解研究的目的和方法。研究的标题是“評估一般用途大型語言模型作為子宮頸細胞學診斷支持工具的效果”。摘要提到，這些模型包括自定義的ChatGPT-4、ChatGPT o3和Gemini 2.5 Pro。研究目的是評估這些模型在診斷準確性和一致性上的表現，是否適合作為診斷支持工具。首先，研究目的和假設。研究主要探討的是這些LLM在子宮頸細胞學中的準確性和一致性。假設可能是，這些模型能夠有效地區分正常和異常樣本，或者在某些特定類別上有良好的表現。接下來，方法與設計。研究使用了200張40倍放大倍數的圖像，分為100個正常和100個異常樣本，分為LSIL、HSIL、SCC、AIS和ADC各20個。然後，每個模型分別提交了5到10次，評估準確性和一致性。這種方法看似合理，因為多次提交可以測試模型的一致性，但可能缺乏真實臨床環境的多樣性，比如不同的掃描儀或樣本品質。數據解釋與結果。研究結果顯示，模型在區分正常和異常樣本時，敏感性在85.4%到100%之間，特異性在67.2%到92.7%之間。ChatGPT o3在識別正常樣本上更準確，但在LSIL、HSIL和ADC上準確性較低。這可能挑戰了假設，即模型在所有類別上都有良好的表現。局限性與偏見。研究可能缺乏多樣化的樣本，尤其是來自不同倫理背景或設備的樣本。此外，模型在某些類別如LSIL的準確性低，可能是因為這些類別本身的特徵不夠明顯，或者模型缺乏足夠的訓練數據。臨床及未來研究意涵。研究建議，這些模型在診斷支持方面效果不佳，可能不適合作為主要診斷工具。未來研究可能需要針對特定類別進行優化，或者結合其他技術來提高準確性。其他觀點。可能模型的表現受限於它們的訓練數據，未來可以嘗試使用更專門的醫學數據進行微調，或者與醫學專家合作，提升模型的診斷能力。總結來說，這篇研究指出了大型語言模型在子宮頸細胞學診斷中的潛在應用，但也暴露出準確性和一致性上的不足，需要進一步的改進和研究。 </think> ### 1. 研究目的與假設該研究旨在評估一般用途的大型語言模型（LLMs）在子宮頸細胞學診斷中的準確性和一致性。研究假設這些模型能夠有效地區分正常和異常樣本，特別是在不同類別的異常樣本上。 ### 2. 方法與設計研究使用了200張圖像，分為正常和異常樣本，分別提交給三個模型多次，評估準確性和一致性。這種方法合理，但缺乏多樣性和真實臨床環境的多樣性，可能限制結果的普適性。 ### 3. 數據解釋與結果結果顯示模型在區分正常和異常樣本上敏感性和特異性良好，但在某些異常類別如LSIL、HSIL和ADC上準確性較低，挑戰了假設。 ### 4. 局限性與偏見研究樣本可能缺乏多樣性，模型在某些類別上準確性低可能源於訓練數據不足或類別特徵不明顯。 ### 5. 臨床及未來研究意涵研究建議模型在診斷支持中效果不佳，未來研究可考慮專門醫學數據微調或結合其他技術提升準確性。 ### 6. 其他觀點模型的表現可能受限於訓練數據，未來可嘗試微調或與專家合作，提升診斷能力。總結來說，研究指出LLMs在子宮頸細胞學中的潛在應用，但準確性和一致性不足，需進一步改進。