近日,亚马逊、SenseTime与香港中文大学的科研人员共同开发出了Web视频分类新框架OmniSource。该框架通过解决图像、短视频和未剪辑的长视频等数据格式之间的不兼容问题,并采用数据平衡等方法,在视频识别领域实现突破。相比于其他优秀的视频分类方法,该框架使用更少的数据集,取得更高的准确率。
研究人员指出,收集视频分类算法所需的训练数据通常既昂贵又费时,因为视频通常包含一个或多个主题的镜头,进行分类时必须看完这些视频并手动剪切成片段,再进行标注。而OmniSource以集成的方式利用各种来源数据,如搜索引擎和社交媒体中各种形式的Web数据,人工智能系统过滤掉低质量的数据样本,并对剩下的数据样本进行标记,对每个样本进行转换以使其适用于目标任务,同时提高分类模型训练的鲁棒性。研究人员从谷歌图片收集了200万张图像,从Instagram收集了150万张图像和50万条视频,从YouTube收集了17 000多条视频。结合目标数据集,将收集到的所有数据输入到视频分类模型中。
该框架以更简单、更轻巧的主干设计以及更小的输入量实现相同甚至更优的性能。此外,该框架可推广到各种视频任务中,例如:视频识别和细粒度分类等。未来,OmniSource还可以应用于私人和公共场所的安全摄像机。