为了理解科学与技术之间的关系,在科学出版物和专利之间建立主题联系越来越重要。以前关于这些联系的研究主要集中在对专利首页上的非专利引用的分析,或由此产生的引证网络,但研究结果并不尽如人意。与此同时,学术文章和专利中提到的丰富实体进一步使主题联系复杂化。为解决这一问题,文章提出了一种新的统计实体——主题模型(命名为CCorrLDA2模型),该模型从学术文章和专利中发现隐藏的主题。为了减少对主题相似度计算的负面影响,通过布朗聚类方法对单词标记和实体提及进行分组。然后在对称Kullback-Leibler(KL)散度的基础上计算主题相似度后,将主题链接构造问题转化为众所周知的最优运输问题。验证结果表明,该方法可以建立主题联系,其性能优于同行。