几十年来,科学家们在撰写以数学公式为特色的论文时,通常使用LaTeX,这是一种旨在以静态形式生成打印页面的语言,如PDF。NIST开发的一种工具可以将这些论文转化为网页,在不同的设备上更容易地查看,并满足有视觉无障碍需求的读者的长期要求。预印本服务器arXiv已经开始使用该工具以PDF和网页格式提供数百万篇论文。
物理、数学和工程论文中的复杂公式对一些人来说可能是极其困难的读物,但也有很多人一开始就很难看到它们。近日,美国国家标准与技术研究院(NIST)已经创建了一种工具,使这些论文更容易被视障人士看到,并且即将在很大程度上被采用。
该工具可以将一种常用的数学公式显示格式转换为另一种格式,有助于让所有人都能访问最新、最棒的研究论文。大多数新的研究论文都是以PDF文件的形式分发的,研究界的许多人都很难阅读。
根据世界卫生组织的数据,世界上超过四分之一的人口被诊断为视力障碍,耶鲁大学阅读障碍和创造力中心报告称,在美国,20%的人患有阅读障碍。在最近一项对以PDF形式分发的科学论文的研究中,研究人员发现,他们抽样的文件中只有2.4%符合其可访问性标准。
“如果你不是一个一生都在努力发表数学论文的人,你可能会想为什么这是一个问题,”NIST的布鲁斯·米勒说,他是一名受过训练的物理学家,专门研究数学软件。“PDF在打印页面上看起来很棒。但如果你想大声读出数学公式,或者在平板电脑或手机等不同尺寸的屏幕上清晰可见,这种不匹配可能会很痛苦。你不能轻易地将PDF重新用于其他媒体。”
PDF通常是如何生成的?科学家在创作使用许多公式的论文手稿时,通常会使用LaTeX(发音为“lay tech”)或其近亲之一来呈现公式。LaTeX自20世纪80年代以来一直在使用,并因其创造的高质量排版而广受尊敬,但它的设计目的是以静态形式生产打印页面。
自20世纪90年代以来,网页创建者一直使用HTML,这使得根据上下文调整显示文本的外观、行为和布局成为可能。如果你曾经将网页拖动到不同的大小,并看到其文本平滑地重新定位以适应新矩形的边界,你就会看到视力残疾读者想要的功能。
现代HTML包含的扩展不仅允许这种“重新流动”类型的能力,还允许那些自己无法阅读文本的人通过机器大声阅读数学公式。这些特性使HTML成为创建可访问文本的理想选择,但多年来一直没有有效的方法将LaTeX转换为HTML。这给Miller带来了一个问题,他需要一种方法将NIST久负盛名的1000多页《数学函数手册》带入数字领域。
他说:“当时,一些程序声称要将LaTeX转换为网页,但没有一个效果足够好。”。“我想,让我们试着自己做吧。”
由此产生的NIST工具是LaTeXML,它读取LaTeX源文件并构建文档的表示形式,可以将其转换为HTML。LaTeXML是创建在线数学函数数字库的关键,几年后,一个主要在线资源的管理人员意识到它也可以帮助他们。
这个资源是arXiv(发音为“archive”),是一个尚未在科学期刊上发表的学术文章的存储库。arXiv由康奈尔大学维护,目前拥有200多万篇文章,可以作为PDF免费查看和下载。服务器已经成为一个重要的中转站,作者可以在这里发布研究结果,并在正式宣布之前与同行讨论。
“根据arXiv在2022年进行的一项调查,只有30%的依赖辅助技术的用户可以在没有帮助的情况下访问他们需要的所有研究。同一项调查发现,PDF格式是最大的障碍,”arXiv无障碍报告的首席研究员、HTML论文项目经理Shamsi Brinn说。
Brinn说,这将随着arXiv使用LaTeXML转换器而改变。服务器将生成HTML版本的论文,并在下载PDF的链接旁边包含HTML版本。
arXiv存储库将滚动转换论文,于2023年12月提供第一个。东北ADA中心助理主任Joe
Zesski表示,此举遵循了一个更广泛的趋势,即需要可访问的网络和电子信息。这一变化不仅有助于科学界遵守白宫关于免费提供联邦资助研究的最新政策,而且还将使使用电子资源长大的年轻科学家能够获得信息。
Zesski说:“在教育中,人们越来越依赖网络和电子信息,同时也越来越期望残疾青年能够平等获得教育。”。“采取措施使这些学生能够访问和使用他们需要的信息是很重要的。”