在一项新的研究中,美国哥伦比亚大学计算生物学家Yaniv Erlich和他的同事们利用众包数据构建了一个将1300万人关联在一起的家谱(family tree)[1]。这个家谱被认为是同类中最大的经过验证的资源---平均跨越了11代人。相关研究结果于2018年3月1日在线发表在Science期刊上,论文标题为“Quantitative analysis of population-scale family trees with millions of relatives”。
Erlich团队分析了这个家谱中的人的出生日期和死亡日期,并计算出如果个人之间存在密切的亲缘关系,他们是否更有可能在相似的年龄死亡。该团队得出结论:在这些人中,遗传仅解释了大约16%的寿命差异。大部分差异都归因于其他的因素,比如人们在哪里生活和如何生活。
美国马里兰大学医学院遗传流行病学家Braxton Mitchell说,“这是一次真正的旅行。这是利用大量公开可用的数据集开展有趣的研究的一个很好例子。”
健康长寿和繁荣昌盛
科学家们已猜测环境比基因对人们的存活时间产生更大的影响。但是Erlich估计,基因发挥的作用要比科学家们想象中的更少。
一些研究,比如Mitchell团队在2001年发表的一项研究[2],已估计了基因决定着大约四分之一的人们寿命差异。
犹他大学医学院遗传学家Lisa Cannon-Albright说,Erlich的发现证实了极其庞大的家谱的力量。她说,“这些资源将成为未来遗传学研究的一个重要组成部分。”
Erlich说,“好”的基因可能会使一个人的寿命平均延长五年。一些环境因素对寿命产生更大的影响更大,比如,吸烟能够减寿十年。
遗传学家们长期以来一直使用家谱来研究遗传因素如何影响疾病风险等许多性状。但是,将包含大量人员的家庭记录数据库汇集在一起是比较困难的,需要花费大量的资金。 Erlich的研究是如今正在进行中的将数字记录汇集到非常庞大的家谱中的多项研究[3][4]之一;一些人已鉴定出与癌症和阿尔茨海默病等疾病相关的基因[5]。
数据洪流
Erlich的研究使用了来自在线家谱工具Geni.com的数据。他是位于以色列耶呼达市的Geni.com母公司MyHeritage的首席科学官。
这种分析利用了大约8600万人的数据,这些人的记录是由Geni.com用户上传的。这些人要比包含在23andme公司构建的最大消费者基因检测数据库[5]中的人数多了一个数量级。
加州旧金山分校的计算基因组学家Atul Butte说:“这些参与者人数如此众多实在太令人疯狂了。你仅能够通过众包(crowdsourcing)获得这样的数据集。这真地很令人印象深刻。”
Erlich团队利用这些数据分析Geni.com上登记的人员的迁移和婚姻模式。比如,这些研究人员发现在1750年之前,这个数据库中的大多数美国人和欧洲人都嫁给了离他们的出生地最多10公里的人。到1950年,大多数美国人和欧洲人不得不到离他们的家乡至少100公里的地方才能找到配偶。
换言之,你的父母很可能比他们的祖先到离家更远的地方组建自己的家庭。你至少能够做到的就是记住他们的生日。