近日,约翰斯·霍普金斯大学(Johns Hopkins University)的研究人与证明了从人体模型创建逼真的模拟图像是一种可行的替代方案,是对大规模原位数据收集的补充。在真实合成数据上训练 AI 图像分析模型,结合当代领域泛化技术,可以生成在真实数据上训练的机器学习模型,其性能与在精确匹配的真实数据训练集上训练的模型相当。
研究人员展示了被称为 SyntheX 的 X 射线图像分析模型传输范例,由于在更大的数据集上训练的有效性,甚至可以胜过真实数据训练的模型。SyntheX 提供了一个显著加速基于 X 射线的智能系统的概念、设计和评估的机会。
此外,SyntheX 提供了测试新仪器、设计互补手术方法和设想新技术的机会,这些技术可以改善结果、节省时间或减少人为错误,而无需考虑实时人类数据收集的伦理和实践考虑。
到目前为止,还没有研究使用跨领域精确匹配的数据集来隔离领域泛化的影响。这项工作还展示了一种可行且具有成本效益的方法来训练 AI 图像分析模型以对合成数据进行临床干预,其性能可与多种应用中的真实临床数据训练相媲美。另外,模型的性能随着合成训练样本数量的增加而大幅提高,这突出了 SyntheX 的关键优势:为模型训练或预训练提供大量注释良好的数据。
使用合成数据训练机器学习算法正受到越来越多的关注。在一般计算机视觉中,Sim2Real 问题已针对自动驾驶感知和机器人操作进行了广泛探索。在诊断医学图像分析中,基于 GAN 的新样本合成已被用于增强磁共振成像、超声、视网膜、皮肤病变和 CXR 图像的可用训练数据。在计算机辅助干预中,Sim2Real 问题的早期成功包括对内窥镜图像和术中 X 射线的分析。这里的对照研究表明 Sim2Real 优于 Real2Real 训练,从而在 X 射线领域验证了这种方法。