《广州健康院开发的scDIOR软件打通单细胞组学R/Python平台壁垒》

  • 来源专题:生物安全知识资源中心—领域情报网
  • 编译者: hujm
  • 发布时间:2022-02-21
  • 1月6日,中国科学院广州生物医药与健康研究院陈捷凯课题组开发的单细胞数据IO软件“scDIOR”于BMC Bioinformatics杂志在线发表。该软件统一了多种单细胞分析工具的数据结构,使单细胞数据能够在不同平台间快速转换,减少存储和内存消耗,将显著提升单细胞研究的效率。

      单细胞测序应用极广,其数据具有样本量大、信息量大、统计和挖掘极为复杂等特点,科学家往往需要不断切换不同软件,不同平台来满足分析需求。然而,单细胞数据在不同平台之间的传输存在技术障碍,导致科学家将大量的时间花费在数据转换上,严重影响研究效率。

      为了解决上述问题,陈捷凯课题组开发了软件scDIOR,统一了R和python平台的三种主流的数据结构,即Seurat,SingleCellExperiment和Scanpy。通过scDIOR,单细胞数据以统一的H5格式保存,无论从哪个平台开始,只需两行代码就可实现单细胞数据在不同工具包之间的快速转换,支持转录组和空间组等多种数据类型(可继续迭代增加),最大程度地保留了原始信息。因此,scDIOR可以快速比较一项分析任务在不同工具包的差异;依托H5文件格式的“组”,提供部分数据读取功能,大幅度减少内存消耗和时间消耗;设计了命令行指令,可实现批量数据转化。综上所述,scDIOR可以应用建立一个标准的单细胞数据结构,将不同工具的优势连接起来,帮助科学家更高效地完成单细胞的研究工作。

      本研究在陈捷凯研究员和林立惠博士指导下,由生物岛实验室实习研究员冯辉坚完成。软件已经过大量用户使用优化,可在GitHub下载(链接 https://github.com/JiekaiLab/scDIOR),也欢迎提出宝贵意见(可发至feng_huijian@grmh-gdl.cn)。

      

  • 原文来源:http://www.gibh.cas.cn/xwdt/kydt/202201/t20220115_6344347.html;https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04528-3
相关报告
  • 《广州健康院开发单细胞测序分析转座元件表达的工具包scTE》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:hujm
    • 发布时间:2021-03-08
    • 近日,中国科学院广州生物医药与健康研究院陈捷凯课题组、南方科技大学Andrew Hutchins课题组合作开发了单细胞测序分析转座元件表达的工具包scTE,相关研究成果于3月5日以“Identifying transposable element expression dynamics and heterogeneity during development at the single-cell level with a processing pipeline scTE”为题,发表在Nature Communications(《自然·通讯》)杂志上。   转座元件(TEs)是人类基因组中含量最多的遗传信息,是指一类能够在基因组内移动的DNA序列。TEs的插入和跳跃可以改变基因组遗传信息,是物种进化的重要原动力。尽管大部分TEs已经丧失了“跳跃”的能力,成为了基因组中的“分子化石”。但近年来研究发现,TEs可以通过影响染色质表观遗传修饰、转录因子结合、RNA编辑以及染色质构象等,对基因表达起着非常重要的调控作用。单细胞转录组测序(scRNA-seq)是研究细胞命运状态的绝佳技术,近年来,更多的单细胞测序技术以及相应的生物信息学分析方法也在不断改进,总体的目标是扩展能捕获的信息及挖掘能代表生物学功能的潜在维度。然而,目前从scRNA-seq数据分析的工具包都只定量基因的表达,分析TEs的表达还比较困难,缺乏相关研究需要的生物信息学分析的工具包,因而忽略了基因组中含量最多的TEs来源的遗传信息。   为填补这一研究的空白,研究团队开发了能够从scRNA-seq数据中同时定量基因和TEs的表达的生物信息学工具包——scTE。由于TEs为多拷贝重复序列,与常规基因不同,同一类TEs通常有成千上万个不同的拷贝遍布在全基因组,并且每个拷贝间的序列高度相似,因此,针对TEs的分析通常难以做到单位点准确定量。为解决这一问题,同时由于常规scRNA-seq只有较短的测序读长的因素,scTE采用了针对TEs家族层面的定量策略,这一策略忽略了基因组位置信息,提高了TEs的定量准确性。研究团队利用scTE,通过分析小鼠胚胎发育和人类疾病scRNA-seq数据,发现了一系列细胞命运、疾病状态特异性高表达的TEs,提示这些TEs的表达可能与胚胎发育或疾病的发生发展有关,也证明了通过scRNA-seq分析TEs的表达很有必要。   相对scRNA-seq研究转录组而言,单细胞ATAC-seq(scATAC-seq)等单细胞基因组技术研究的对象是染色质,染色质开放性与表观遗传修饰情况在很大程度上决定了基因表达丰度,以scATAC-seq为代表的单细胞基因组学技术的开发,让获得“高分辨率”的单细胞精度的染色质开放/修饰图谱变为可能,有利于构建从DNA到RNA再到表型的调控网络,寻找与表型强相关的核心调控因子。然而,以scATAC-seq为代表的单细胞基因组测序数据存在几个特点:一)高维度。每个细胞中可以检测到可能开放的区域可以高达几十万个;二)数据的稀疏性。由于技术原因,导致大量开放的区域没有检测到信号。由于以上原因,目前对scATAC-seq数据的生物信息学还存在比较大的挑战。研究团队提出由于TEs多拷贝的特点,通过累积TEs信号可以去除数据的稀疏性,降低数据的维度,或许能够有效弥补scATAC-seq数据以上两个挑战。研究团队利用scTE,发现仅利用TEs信号,能够将scATAC-seq数据中主要细胞类型区分开来,提示TEs信息对scATAC-seq等单细胞基因组数据的分析是很好的补充。   科学界普遍认为,TEs被H3K9me3或DNA甲基化等机制沉默,只有在早期胚胎发育、神经细胞等特定少数细胞类型或细胞受到表观遗传药物干扰时才会被激活。科研人员通过scTE的研究,可以发现发育过程中存在大量与细胞命运转化过程高度相关的TEs家族,提示TEs参与发育相关的功能。病理情况下特定细胞TEs的表达也会发生变化,可能具有病理机制或标志物的研究前景。TEs也被发现作为增强子参与胚胎发育和免疫应答,如小鼠中转座元件RLTR13D5作为增强子参与胎盘发育,灵长类特有的转座元件MER41可以作为增强子快速响应干扰素诱导的免疫应答,因此结合scATAC-seq对TEs区域的数据信息进行挖掘是有必要的。综上,scTE能够帮助研究者将研究对象扩展到基因之外的常规研究中大量被忽视的有用的遗传信息。   生物岛实验室何江平副研究员为本论文的第一作者,中国科学院广州生物医药与健康研究院陈捷凯研究员、南方科技大学Andrew Hutchins研究员为本论文共同通讯作者。
  • 《广州健康院开发单细胞测序分析转座元件表达的工具包scTE》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:hujm
    • 发布时间:2021-03-08
    • 近日,中国科学院广州生物医药与健康研究院陈捷凯课题组、南方科技大学Andrew Hutchins课题组合作开发了单细胞测序分析转座元件表达的工具包scTE,相关研究成果于3月5日以“Identifying transposable element expression dynamics and heterogeneity during development at the single-cell level with a processing pipeline scTE”为题,发表在Nature Communications(《自然·通讯》)杂志上。   转座元件(TEs)是人类基因组中含量最多的遗传信息,是指一类能够在基因组内移动的DNA序列。TEs的插入和跳跃可以改变基因组遗传信息,是物种进化的重要原动力。尽管大部分TEs已经丧失了“跳跃”的能力,成为了基因组中的“分子化石”。但近年来研究发现,TEs可以通过影响染色质表观遗传修饰、转录因子结合、RNA编辑以及染色质构象等,对基因表达起着非常重要的调控作用。单细胞转录组测序(scRNA-seq)是研究细胞命运状态的绝佳技术,近年来,更多的单细胞测序技术以及相应的生物信息学分析方法也在不断改进,总体的目标是扩展能捕获的信息及挖掘能代表生物学功能的潜在维度。然而,目前从scRNA-seq数据分析的工具包都只定量基因的表达,分析TEs的表达还比较困难,缺乏相关研究需要的生物信息学分析的工具包,因而忽略了基因组中含量最多的TEs来源的遗传信息。   为填补这一研究的空白,研究团队开发了能够从scRNA-seq数据中同时定量基因和TEs的表达的生物信息学工具包——scTE。由于TEs为多拷贝重复序列,与常规基因不同,同一类TEs通常有成千上万个不同的拷贝遍布在全基因组,并且每个拷贝间的序列高度相似,因此,针对TEs的分析通常难以做到单位点准确定量。为解决这一问题,同时由于常规scRNA-seq只有较短的测序读长的因素,scTE采用了针对TEs家族层面的定量策略,这一策略忽略了基因组位置信息,提高了TEs的定量准确性。研究团队利用scTE,通过分析小鼠胚胎发育和人类疾病scRNA-seq数据,发现了一系列细胞命运、疾病状态特异性高表达的TEs,提示这些TEs的表达可能与胚胎发育或疾病的发生发展有关,也证明了通过scRNA-seq分析TEs的表达很有必要。   相对scRNA-seq研究转录组而言,单细胞ATAC-seq(scATAC-seq)等单细胞基因组技术研究的对象是染色质,染色质开放性与表观遗传修饰情况在很大程度上决定了基因表达丰度,以scATAC-seq为代表的单细胞基因组学技术的开发,让获得“高分辨率”的单细胞精度的染色质开放/修饰图谱变为可能,有利于构建从DNA到RNA再到表型的调控网络,寻找与表型强相关的核心调控因子。然而,以scATAC-seq为代表的单细胞基因组测序数据存在几个特点:一)高维度。每个细胞中可以检测到可能开放的区域可以高达几十万个;二)数据的稀疏性。由于技术原因,导致大量开放的区域没有检测到信号。由于以上原因,目前对scATAC-seq数据的生物信息学还存在比较大的挑战。研究团队提出由于TEs多拷贝的特点,通过累积TEs信号可以去除数据的稀疏性,降低数据的维度,或许能够有效弥补scATAC-seq数据以上两个挑战。研究团队利用scTE,发现仅利用TEs信号,能够将scATAC-seq数据中主要细胞类型区分开来,提示TEs信息对scATAC-seq等单细胞基因组数据的分析是很好的补充。   科学界普遍认为,TEs被H3K9me3或DNA甲基化等机制沉默,只有在早期胚胎发育、神经细胞等特定少数细胞类型或细胞受到表观遗传药物干扰时才会被激活。科研人员通过scTE的研究,可以发现发育过程中存在大量与细胞命运转化过程高度相关的TEs家族,提示TEs参与发育相关的功能。病理情况下特定细胞TEs的表达也会发生变化,可能具有病理机制或标志物的研究前景。TEs也被发现作为增强子参与胚胎发育和免疫应答,如小鼠中转座元件RLTR13D5作为增强子参与胎盘发育,灵长类特有的转座元件MER41可以作为增强子快速响应干扰素诱导的免疫应答,因此结合scATAC-seq对TEs区域的数据信息进行挖掘是有必要的。综上,scTE能够帮助研究者将研究对象扩展到基因之外的常规研究中大量被忽视的有用的遗传信息。   生物岛实验室何江平副研究员为本论文的第一作者,中国科学院广州生物医药与健康研究院陈捷凯研究员、南方科技大学Andrew Hutchins研究员为本论文共同通讯作者。