2025年1月,Open Future与OSI联合发布《开源AI中的数据治理:实现负责任与系统性访问》白皮书。随着开源人工智能(Open Source AI)的发展,数据治理成为确保技术民主化、公平性和透明度的关键。文中探讨了数据治理和 AI 开发中的关键挑战,包括数据治理与道德使用、开放性标准和透明度、数据中的结构性偏差、环境可持续性以及利益相关方代表性(Stakeholder representation)等方面。
为了应对这些挑战,文中提出两个关键范式转变。一是采用数据共享方法,从开放数据框架转向更广泛的数据共享治理,其中包括各种形式的数据共享,保护权利并确保公平使用,这种方法承认数据的不同性质,从完全开放的数据集到受限的数据集,并促进创新的许可模式,例如数据信任和合作;二是扩大利益相关方范围,在 AI 生命周期中吸引更广泛的利益相关方,包括内容管理员、数据管理员和受影响的社区,通过促进 AI 开发人员和这些群体之间的合作伙伴关系,可以负责任地创建、管理和共享新的数据集。
最后,本文提出了六大行动领域,具体如下:
1.数据准备和溯源(Data preparation and provenance):为数据收集、分类、匿名化和元数据建立稳健的标准,以确保质量和可追溯性。
2.偏好信号与许可机制(Preference signaling and licensing):开发诸如退出框架(opt-out frameworks)和社会许可(social licenses)等机制,以使权利持有者和社区能够控制数据的使用。
3.数据管理员与保管员(Data stewards and custodians):强化数据管理的角色,包括作为中介机构促进数据共享,同时确保符合伦理治理。
4.环境可持续性:通过共享数据集和高效的训练方法,推广减少AI对环境影响的做法。
5.互惠与补偿((Reciprocity and compensation):实施确保从共享数据中产生的价值公平分配的机制,特别是向边缘化社区的分配。
6.政策干预:倡导实施公共政策,要求数据透明化,激励数据共享,并支持开放数据集的创建。
开源AI有潜力推动创新、增强透明度,并在AI领域促进公平。实现这一愿景需要从以数量为主导的数据实践转向以质量和治理为核心的方法,通过采用数据共享框架、扩大利益相关方参与并解决关键的治理挑战,开源AI社区可以培育一个更具包容性和可持续性的AI生态系统。