在14,849个已知的蛋白质家族中不到三分之一具有至少一个成员通过实验确定了其结构。 这使得超过5000个蛋白家族没有结构信息。使用从进化数据推断的残基-残基接触进行蛋白质建模已经成功地模拟了未知结构,但是其需要大量比对序列。Ovchinnikov 等运用宏基因组序列数据增强这样的序列比对(参见Söding观点)。 他们确定了允许建模所需的序列数,开发了模型质量的标准,并且在可能的情况下,通过将预测的接触匹配到已知结构来改进建模。 他们的方法预测了614个蛋白质家族的质量结构模型,其中约140个代表新发现的蛋白质折叠。