尽管结构生物学家们努力了几十年,仍然有约5200个蛋白质家族的结构还处于未知状态。该文献揭示了由进化信息推断的残基接触指导下的Rosetta结构预测可以准确地模拟出蛋白质所属家族,并发现为准确建模宏基因组序列数据将三倍于蛋白质家族数量充足的基因序列数据。我们整合了宏基因数据、基于接触的结构匹配和Rosetta结构计算来为614个目前结构未知的蛋白质家族建模,其中206个膜蛋白,137个未展示的蛋白在蛋白数据库中没有体现。这种方法为最初设想为蛋白结构计划目标的一小部分的蛋白质大家族提供了代表性的模型。