SolrWayback是发现(Solr)和回放(Wayback)功能的融合。除了全文搜索之外,Solr还提供多种聚合数据的方法,将常见的网络存档统计任务从缓慢的批处理转移到交互式请求。基于研究人员的输入,特征集随着数据的聚集、可视化和提取而不断扩展。SolrWayback依赖于实时访问WARC文件和Solr索引,其基本工作流程是:
(1)收集一组WARCs并将它们放到实时存储中.
(2)使用webarchive发现分析和处理WARC。根据WARC的数量,这可能是一项相当繁重的工作:在丹麦皇家图书馆处理½PB的WARC需要40多年的CPU时间.
(3)将webarchive发现的结果索引到Solr中。对于非小型集合,这意味着SolrCloud和固态驱动器。经验法则是索引占据了压缩warc大小的5-10。
(4)将SolrWayback连接到WARC存储和Solr索引。