這項研究推出 RDguru 智慧診斷系統,專為罕見疾病設計,結合 GPT-4、醫學知識和診斷工具。實測 238 個案例,RDguru 前 10 答案有 69.1% 命中正確診斷,前 5 有 63.6%,第一個建議正確率為 41.9%,能有效協助臨床決策。 PubMed
這篇研究發現,就算只有少量高品質標註,只要用像 GPT-4o 這種高品質合成標註來微調 Llama 3.1-8B 這類輕量級語言模型,醫療任務表現也能大幅提升(micro F1 可達 0.91)。即使合成標註品質較差,微調後的模型表現還是能超越原本的雜訊標註,顯示模型很有韌性,合成資料在醫療 LLM 微調上很有潛力。 PubMed