診斷罕見兒科疾病相當具挑戰性,因為這些疾病的表現複雜。本研究評估了三種大型語言模型(LLMs)的診斷表現:GPT-4、Gemini Pro,以及一個整合Human Phenotype Ontology的自訂模型(GPT-4 HPO),針對61個罕見疾病進行分析。結果顯示,GPT-4的準確率為13.1%,而GPT-4 HPO和Gemini Pro均為8.2%。特別是GPT-4 HPO在鑑別診斷和疾病分類上表現較佳。這些結果顯示大型語言模型在診斷支持上有潛力,但仍需改進以便更好地融入臨床實踐。
PubMed
DOI