近日,美国国家标准技术研究院(NIST)的一项新研究评估了一种软件的性能,该软件基于人脸照片中明显的身体特征来估计一个人的年龄。这种基于年龄估计和验证(AEV)的软件可能被用作有年龄限制的活动的“守门人”。
年龄估算已成为美国国内外立法和法规中最近纳入的年龄保证计划中的一项使能技术,这些计划是保护儿童上网的重要组成部分。
NIST的这项新的研究:《面部分析技术评估:年龄估计与验证(NIST IR 8525)》,评估了六种算法的性能,这些算法是开发者在2023年9月征集提交时自愿提供的。根据该研究的作者之一Kayee Hanaoka的说法,结果显示算法具有不同的能力。
“这些算法之间的性能差异很大,整体都有改进的空间,”NIST计算机科学家Hanaoka说。“这是2023年底年龄估计领域的部分快照,但由于AEV性能与人工智能的进步密切相关,我们预计该领域将迅速变化。”
这项新研究是NIST在过去十年中首次涉足AEV评估,并开启了该机构对这项技术进行频繁、定期测试的长期努力。NIST上一次评估AEV软件是在2014年。Hanaoka表示,当时对这项技术的兴趣要小得多,评估是一次性的努力。那次测试使用了来自签证申请的大约600万张照片的单一数据库,并仅要求算法在每张照片上提供年龄估计。
在过去的十年里,时代已经发生了变化。面部分析软件已经变得足够重要,以至于NIST将其面部识别计划分成了两个方向:一个评估算法识别人的能力(面部识别技术评估,或FRTE),另一个评估测量面部特征的能力(面部分析技术评估,或FATE)。新的测试是FATE方向的一部分,该方向还包括专门用于检测照片欺骗和测量图像质量的评估。
NIST的新测试扩展了其照片集合,包含来自四个不同数据库的约1150万张照片,所有这些照片都来自美国政府的资源:2014年使用的签证集合,另外增加了一组FBI的面部照片、一组在边境口岸获得的网络摄像头图像,以及一组来自100多个国家出生的人的移民申请照片。来自数据库的照片在图像质量和反映的年龄、性别和来源地区方面各不相同。所有数据都经过匿名处理,并且研究已经过审查,以保护被拍照对象的权利和隐私。
测试再次评估了算法在年龄估计方面的准确性,但应软件开发者的请求,测试还要求算法指定照片中的人是否超过21岁。该测试是一项“封闭盒子”研究,其中NIST研究人员仅分析了算法的最终性能,而不是它们的内部运作或它们如何得出结果。NIST不对软件是否适合特定用例做出推荐。
Hanaoka表示报告提供了一些初步发现:
·没有单一突出的算法,特定算法的准确性受到图像质量、性别、出生地区、照片中人的年龄以及这些因素之间的相互作用的影响。所有算法在某些特定人群上都有自己的敏感性;在某些群体上表现良好的算法在其他群体上可能表现不佳。
·自上一份报告以来的十年中,AEV软件有所改进。在使用共同的签证照片数据库(在2014年和当前研究中都使用了该数据库)进行年龄估计时,算法的平均绝对误差已从4.3年减少到3.1年。六种算法中有五种的性能超过了2014年提交的最准确算法。
·女性面部的错误率几乎总是高于男性。2014年评估的算法也是如此,但背后的原因尚不清楚。
这个测试项目设计为持续进行,研究作者们正在不断地接受新的算法提交。团队计划每四到六周在网站上发布第一轮结果的更新,Hanaoka表示。
她还表示:“我们预计AEV软件领域将迅速变化,我们打算在不久的将来更新和扩展我们的测试方法,”她说。“我们计划让算法回答更多问题,例如如果有同一个人之前的照片可用,是否可能有更好的性能。我们还计划扩大和多样化照片数据库,以更好地覆盖像在线安全这样的应用。”