《亚马逊发布Web视频分类新框架OmniSource》

  • 来源专题:图书情报
  • 编译者: xuxue
  • 发布时间:2020-07-07
  • 近日,亚马逊、SenseTime与香港中文大学的科研人员共同开发出了Web视频分类新框架OmniSource。该框架通过解决图像、短视频和未剪辑的长视频等数据格式之间的不兼容问题,并采用数据平衡等方法,在视频识别领域实现突破。相比于其他优秀的视频分类方法,该框架使用更少的数据集,取得更高的准确率。

    研究人员指出,收集视频分类算法所需的训练数据通常既昂贵又费时,因为视频通常包含一个或多个主题的镜头,进行分类时必须看完这些视频并手动剪切成片段,再进行标注。而OmniSource以集成的方式利用各种来源数据,如搜索引擎和社交媒体中各种形式的Web数据,人工智能系统过滤掉低质量的数据样本,并对剩下的数据样本进行标记,对每个样本进行转换以使其适用于目标任务,同时提高分类模型训练的鲁棒性。研究人员从谷歌图片收集了200万张图像,从Instagram收集了150万张图像和50万条视频,从YouTube收集了17 000多条视频。结合目标数据集,将收集到的所有数据输入到视频分类模型中。

    该框架以更简单、更轻巧的主干设计以及更小的输入量实现相同甚至更优的性能。此外,该框架可推广到各种视频任务中,例如:视频识别和细粒度分类等。未来,OmniSource还可以应用于私人和公共场所的安全摄像机。

相关报告
  • 《开放科学框架发布新元数据:支持数据共享政策合规性》

    • 来源专题:科技期刊发展智库
    • 编译者:孟美任
    • 发布时间:2023-06-14
    • 元数据是开放科学框架(Open Science Framework,OSF)最重要的功能之一。所有OSF的项目、登记项目和预印本都带有元数据,用于记录OSF实例的信息,如标题、描述或关键词。元数据通常对于研究来说是不可或缺的,如果没有标题、描述或关键词,研究就很难被发现,甚至更难理解。 研究人员现在能够添加有关他们在OSF上共享的材料类型信息,以及资金或资助来源信息。随着在线资源数量的激增,不仅在OSF上,此类信息对于组织、发现和重用研究成果至关重要。 这种元数据非常重要,事实上,国际上的主要国家和其他资助、研究支持机构的许多新政策都有所涉及。NIH的新数据共享政策于2023年1月25日生效,要求共享一组通用的数据元素,包括我们最近更新的资助者和资源类型信息。除了这些具体指南外,其他机构也在支持创建更成熟的数据共享基础设施。白宫科技政策办公室最近的政策,以及联合国教科文组织关于开放科学的建议,都设想了一个需要增强元数据作用的研究生态系统。 1 元数据遵循FAIR原则 元数据使研究材料能够被发现、被理解和被重用,并确保数据和其他研究成果是可发现、可访问、可互操作和可重用 (Findable, Accessible, Interoperable, and Reusable, FAIR) 的。 (1)可发现 虽然文本材料支持检索,但其他材料却不容易被找到。元数据是理解和发现这些格式资源的关键。即使存在文本,元数据也会增强和简化这些信息。它可以描述不能立即被观察到的内容,如视频的长度、主题或相关研究领域,或者资助者的名字。 (2)可访问 一旦被发现,研究成果就需要元数据来指出资源的访问方式,以及可能的身份验证和授权方式。有关资源许可、资源语言和任何使用限制的元数据对于共享研究至关重要。 (3)可互操作 元数据使研究成果能够与其他资源和系统集成。在许多情况下,OSF公共内容的索引会自动发生,因为OSF有一个公共API,并向Datacite和Crossref注册持久标识符 (Persistent Identifiers,PIDs)。除了OSF项目、预印本和登记项目的DOI外,OSF还能够利用人(ORCID iDs)、地点(OSF机构成员隶属关系的ROR IDs和资助者的Crossref Funder IDs)和事物(将数据、出版物和资源的DOI与OSF登记项目、预印本进行关联)标识符。OSF内容页面还使用元标记,以便被其他服务(如Google学术搜索和数据集发现、Web of Science和其他工具)获取,以提高研究的可发现性和影响力。 (4)可重用 为了最大限度地增加对研究的资助,元数据能够确保它们可发现、可互操作和可理解,以进一步推进知识发现和创新,从而重用研究成果。元数据可以告诉其他人数据或资源的结构、资源中使用的语言或本体、他们是如何收集或生成的,以及应该如何被读取或使用。如果元数据中没有这些重要信息,研究就只能是一次性的。 OSF推出新的FAIR元数据功能,将使用户能够满足资助者的要求,并添加更多关于研究材料性质的信息,使资助者或合作者更容易找到、访问和利用研究成果。这些变化将使 OSF的可检索数据变得更加丰富,同时也符合新的数据政策。 2 OSF 元数据 元数据已经是OSF的一部分。OSF新推出的元数据增强功能能够使研究生产者和消费者能够以多种关键方式存储和共享元数据,如图1所示。为了进一步增强OSF内容的FAIR属性,目前正在为以下内容添加元数据字段: ●资源类型,描述您共享的研究材料类型(数据集、论文、图像等) ●所用语言 ●资助或支持研究的资助者的姓名 ●具体奖项名称 ●奖项的标识符 由我们现有的标题、描述、贡献者、许可协议、发布/修改日期的元数据作为补充。 此外,目前只能在登记项目和预印本上找到的学科或学科领域将在未来几周内添加到项目中。 另一个主要变化是新的元数据在文件级别可用,如图2所示。例如,虽然您可能想要描述项目或登记项目的总主题或资助者,但您现在可以将有关材料类型或语言的信息添加到特定文件中。这意味着如果您想要专门查找或共享数据集,您可以将该资源类型添加到那些特定文件中。 3 社区元数据工具 作为社区驱动的开源工具,OSF一直努力利用其他社区开发的开放标准和工具。OSF上的元数据旨在支持越来越多的社区开发的元数据模式和本体,已经实现了Datacite的元数据模式。这使得OSF与其他通用资源库保持一致,这也是我们在NIH通用资源库生态系统倡议(Generalist Repository Ecosystem Initiative, GREI)中合作开发一套通用元数据的一部分。OSF继续建立在重要的学术社区基础设施之上,如DOIs、ORCID iDs、ROR IDs、资助者IDs 以及内容和数据发现服务,以使OSF内容从研究计划一直到结果报告都尽可能FAIR化。开放科学中心(Center for Open Science, COS)也直接参与全球元数据工作组和委员会的工作,包括Datacite、Crossref和欧洲开放科学云(European Open Science Cloud, EOSC)。随着时间的推移,更多的元数据模式、本体和标准可以很容易地集成到OSF内容的元数据工作流中。计划纳入CEDAR等工具以支持更多特定领域的元数据,并纳入CREDiT等标准以使研究实践与激励措施保持一致,并希望能与期刊和其他平台合作,在各平台间拉动元数据,以提高研究人员的效率。 未来的元数据工作将包括改进OSF中的搜索和发现、创建具有更多字段的自定义元数据模板以及简化元数据创建工作流程。通过将这些新字段添加到OSF项目、登记项目和文件中,可以满足资助者的要求并提高研究的可发现性。
  • 《bioRxiv平台支持发布预印本的会议和研讨会视频》

    • 来源专题:科技期刊发展智库
    • 编译者:刘敬仪
    • 发布时间:2022-12-29
    •   bioRxiv 使科学家能够分享和发现新的科学研究和相关内容。几年来,读者已经能够从预印本页面查看与预印本相关的内容(现场评论和场外评论、博客文章和社交媒体参与),所有这些都可以从仪表板启动栏访问。为了扩展可与 bioRxiv 预印本一起查看的内容阵列,仪表板中添加了一个包含与预印本相关的视频的新选项卡。这些视频内容通常是作者与预印本直接相关的会议演讲或研讨会。   要打开视频选项卡,请单击作者列表下方启动栏中的视频图标(参见图5)。这些视频可以与预印本一起观看,托管在可公开访问的如 YouTube 或 Vimeo等大型平台上。视频只能由会议或研讨会组织者等实体上传,他们保证内容已经过审核,演讲侧重于预印本中的内容,并且作者同意将视频内容与预印本一起发布。个人作者不能直接上传视频,因为需要指定Hypothes.is账号,该账号必须由符合上述要求的实体管理。 图5操作示例 图片来源:https://connect.biorxiv.org/news/images/biorxiv_video.png 编译:刘敬仪、于世博