《AIGC在学术写作中的应用》

  • 来源专题:数智化图书情报
  • 编译者: 杨小芳
  • 发布时间:2023-12-21
  • 人工智能生成内容(Artificial intelligence-generated content, AIGC)和 AIGC 模型已成为内容创作领域的强大工具。这些人工智能系统旨在以超乎想象的速度和规模生成文本,包括学术论文。虽然人工智能技术显示出了巨大的潜力,但它也引发了一系列问题,尤其是在学术写作方面。


    在本文中,我们将定义 AIGC 及其模型,探讨其在学术界日益广泛的应用,及其引发的问题,并讨论期刊如何检测未披露的AIGC。此外,还会讨论未披露 AIGC 使用情况的后果,并强调学术出版中使用人工智能的透明度和道德的重要性。


    1 AIGC的定义及其模型

    AIGC 是指人工智能系统制作的书面、视觉或听觉材料,通常由先进的语言生成模型驱动。这些模型进过了大量数据集的训练,能够模仿人类语言,生成各种主题的内容。近年来,人工智能生成的内容已进入新闻、营销和学术等各个领域。

    在学术领域,AIGC 模型被用来起草研究论文、摘要和期刊文章,这些人工智能系统能够生成近似人类写作的文本。


    2 AIGC在学术写作中的常见问题

    在学术写作中越来越多地使用人工智能引起了一些关注。这些问题包括:

    a. 作者身份和所有权:当人工智能系统生成内容时,就会产生作者归属的问题。是程序员、用户还是人工智能本身?内容归谁所有?

    b. 创造性:人工智能生成的内容往往缺乏人类作者为其作品带来的创造性火花和独特视角。这可能会导致学术写作中个人风格和研究视角的缺失。

    c. 虚假参考文献和偏见:人工智能生成的论文可能会引用不存在的资料来源或提供有偏见的信息。这对研究的完整性构成重大风险。


    3 期刊对使用AIGC的规定

    大多数学术期刊对人工智能生成器的使用都有严格的规定。虽然这些期刊通常禁止将人工智能生成器列为作者,但它们要求全面披露其使用情况。例如,有些期刊要求使用人工智能技术的作者全面介绍所使用的工具、方法以及评估所生成数据可信度的手段。透明地使用人工智能被认为是保持研究完整性的关键。

    如果作者没有在稿件中声明使用了人工智能生成工具,期刊会设立机制来识别未披露的AI工具。


    4 期刊采用哪些方法检测AIGC?

    1. 同行评审:审稿人可以利用他们的专业知识发现稿件中不寻常或可疑的写作风格。人工智能生成的内容可能表现出句子重复和结构不连贯等模式。查重检测软件也可用于分析文本与已知 AIGC 的宏观相似性。

    2. AI文本识别工具(AI Text Classifiers):机器学习算法和自然语言处理技术用于分析大量研究文章,包括已知的 AIGC 生成的内容。这些算法经过训练,可以识别人工智能生成的文章所特有的独特模式,从而区分人类和人工智能撰写的内容。

    3. 元数据分析(Metadata Analysis):对文章的作者、发表日期和发表期刊等进行检查。将这些信息与 AIGC 生成的内容进行比较,可以发现相似之处。

    4. 查重检查:查重工具将稿件文本与现有文章进行比较。与已知 AIGC 的高度相似性可能表明使用了AI生成器。

    5.  无监督机器学习:聚类算法把与 AIGC 生成内容相似的研究文章进行分组,帮助检测。

    6.  人工审核:使用 AI生成工具可能性较高的文章可能会经过人工审核,确保AI检测工具的准确性。



    5 未披露AIGC使用情况的后果

    如果学术期刊发现稿件中使用了AIGC,但是论文中没有说明,可能会给作者带来不利后果。这种行为被认为是不道德的,会对作者的诚信造成不良影响。

    1. 伦理影响:学术写作中未披露 AIGC 会引发严重的伦理问题。它破坏了诚实、透明和学术诚信的原则。

    2. 损害作者声誉:这可能会造成长期的后果,因为诚信和信誉在学术界至关重要,学者和同事可能会对这类作者产生怀疑,他们今后的贡献也可能会受到质疑。

    3. 期刊拒稿:如果在编辑审核或同行评审过程中发现未披露AIGC,期刊可能会直接拒稿。

    4. 对期刊公信力的影响:读者和整个学术界都依赖期刊坚持严格的标准,这方面的任何疏忽都会对期刊的声誉造成不利影响。

    5. 法律影响:在极端情况下,未披露AIGC 使用情况可能会导致法律后果。抄袭和学术不端行为会受到严肃处理,受此类行为影响的机构或个人可能会追究法律责任。


  • 原文来源:http://mp.weixin.qq.com/s?__biz=MzIzMzExNzQwNQ==&mid=2247504877&idx=2&sn=e81edcff5a27208f48b1c70878d2bd35&scene=0
相关报告
  • 《AIGC时代的科研工作流:协同与AI赋能视角下的数字学术工具应用及其未来》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-11-03
    • 1. 引言 随着网络和信息技术的不断发展,科研工具在科研活动中发挥着至关重要的作用。科研工具的正确应用,有助于提高科研进程的效率和质量。然而,因为科研工作的复杂性,没有任何一款工具可以做到包揽全部研究工作(all-in-one)。因而,科研工作流(scientific workflow)的构建受到了学术界的重视。其中,软件应用的协同能力也同样值得关注。软件应用辅助组成系统化科研工作流,有助于科研项目的有序管理和科研工作整体协作能力的提高。这里的观察角度,是考察“工具”是否可以和其他“工具”有效配合,从而使得信息能够在不同工具之间有效流转。目前已经有学者针对科研工作效率的提升展开了对科研工作流构建的相关研究,但对每个阶段具体软件应用协同能力的评价研究较为缺乏。 在具体的科研工具选取中,要考虑工具是否支持 “人与人”的协作配合。支持协作的工具可以让科研工作者相互之间的配合变得更为简单高效,降低合作的摩擦成本。本研究最初是想基于协同视角,按照“人与人”协同、“工具与工具”协同的维度,选择合适的工具构成工作流,从而为科研工作者提供更好的支持工具系统,以提升科研效率。 然而,在研究过程中,AIGC(AI Generated Content)突然崛起,以ChatGPT 为代表的大语言模型迅速吸引了全球研究者的注意力。AIGC是指利用人工智能技术来生成内容的一类技术的统称。AIGC基于大量的训练数据和预训练模型,形成从文本生成文本、从文本生成图像、从图像生成文本等模型,具有数据巨量化、内容创造力、跨模态融合、认知交互力等技术特征。2022年11月30日,OpenAI发布了基于GPT-3.5模型的ChatGPT,掀起了全球范围的AI浪潮。2023年3月14日,OpenAI推出的GPT-4提高了响应速度、创造力和推理能力,更是引发了广泛的应用和讨论。 AIGC技术的快速发展改变了科研工具发展的外部环境。它意味着从协同角度来看,只考察“人与人”协同以及“工具与工具”协同是不够的,“人与AI”的协同也愈发体现出它与日俱增的重要性。本研究原本打算简单合并维度,对候选软件工具重新进行评估。但是我们很快发现,大量的科研工具都在迅速吸纳ChatGPT等大语言模型,以AI为自身赋能。本研究的研究过程恰好被ChatGPT推出的时间节点自然分割成两个阶段。在ChatGPT产生之前,研究的调查结果保存了“ AI赋能”前的科研工具原始样貌,成为了不可多得的参照数据。将前后两次评估结果进行对比,可以展示AIGC对科研软件生态系统的显著影响,并且可以给科研工具开发者和科研工作者带来思考和启示。 故此,本研究并没有简单地将“人与AI”的协同合并到原先的观察维度,而是利用原始调研信息,将传统意义的“协同能力”和“ AI赋能”分别作为两个调研阶段的重点。“分”则通过对比,清晰地看到AIGC在科研工具发展中的影响,以及工具软件因应外部环境变化的发展趋势。“合”则通过总结,构建AI赋能视角下的科研工作流,从“人与人”协同、“工具与工具”协同、“人与AI”协同的“广义协同”视角出发,为科研工作者选择科研工具,并将其整合成提升效率的工具系统提供参考。 2 文献回顾 (1)科研工具的选择与协同工作流 从科研工具的筛选标准角度,方彤等 从需求匹配、支持贡献和满意度三个方面制定了企业的智库科研工具应用情况评估指标体系。Sungur等从价格、免费存储空间、导入导出格式标准化、平台匹配以及协作等9个维度对EndNote和Mendeley进行了比较。Zhang从访问、同步、引用以及协作等维度对比分析科研工具。Ron Gilmour等从导入导出的标准化格式、元数据收集、注释、组织和共享以及引用风格等维度对科研工具进行详细对比。Michael等考虑了跨平台和设备能力、访问和订阅、数据导入导出方式、同步、个人存储空间以及文字处理等维度。Basak则从元数据导入的质量、准确性以及全面性等方面对Endnote、Refworks和Mendeley进行了对比分析。 关于工具间的协同,也有部分研究人员进行了探讨和分析。例如, Tim等从写作的角度讨论了模块化的工作流,并说明了跨设备、跨平台工具的灵活、便利。Taylor探讨了EndNote和 Microsoft Office Word间的协作使用。也有学者从文献阅读的角度讨论分析了一整套学术阅读的工具流构建。但是这些研究只局限在科研工作流的某个阶段,并没有覆盖科研工作的完整流程。 (2)AIGC的应用 目前已有不少关于AIGC对科研工作影响的研究。例如李白杨等探讨了AIGC对信息资源管理在信息组织、数据资产管理、用户研究和信息伦理四个方面的影响。陆伟等研究了以ChatGPT为代表的大模型在信息资源管理领域对支撑算法与技术、信息资源建设、信息组织与信息检索、信息治理、内容安全与评价、人机智能交互与协同六大方面的影响。张智雄等则探讨并总结了以ChatGPT为代表的人工智能技术对文献情报工作的启示和影响。实际的科研工作中,ChatGPT的出现给科研工作者带来了机遇和挑战,目前已有学者提供了在学术写作中有效使用ChatGPT的方法,并制作了流程图。在使用意愿方面,信息资源管理领域科研人员对ChatGPT的技术理念和价值有着积极的态度和较高的认可度。不过,在调研中尚未发现目前国内外关于AIGC系统化赋能科研工作流的研究。 (3)小结 目前已有学者对科研工具、方法的对比研究。但大部分研究对象都是某一个或某一类型的科研工具或方法。而且这些研究关注的重点基本都是工具本身是否好用,并没有对工具之间的协同能力展开讨论。针对AIGC、ChatGPT等工具在科研中的应用,目前很多研究还停留在宏观层面,缺少对有关科研工作流中软件应用AI化程度的研究。与此同时,外部信息和科技环境正在发生显著变化。如果不能充分利用GPT-4为代表的AIGC能力,研究者会在科研竞争中处于劣势。因此,从协同能力与AI赋能两个角度综合研究科研工具选择与科研工作流构建,有其必要性与紧迫性。这构成了本研究展开的依据。
  • 《叶继元: 索引的本质属性及其在学术规范与评价中的作用》

    • 来源专题:数智化图书情报
    • 编译者:于彰淇
    • 发布时间:2023-12-19
    • 圕人堂文摘 图谋摘编自:叶继元. 索引的本质属性及其在学术规范与评价中的作用[J]. 图书情报知识, 2023, 40(6): 61-67. 全文获取网址:http://dik.whu.edu.cn/jwk3/tsqbzs/CN/10.13366/j.dik.2023.06.061.    《图书情报知识》2023年第6期刊发叶继元《索引的本质属性及其在学术规范与评价中的作用》。索引是检索、统计、分析信息的利器,是图书情报学/信息资源管理研究的核心内容。数据库具有索引的功能,现代索引就是“数据库”。加强索引及数据库在学术规范与评价上的研究和实践,对于坚守图书情报学/信息资源管理的核心内容,适度扩展到相关学术领域或公共学术话题,具有重要意义。提出“异排”一词来概括索引的独特性。同时概括出索引的本质属性及其原理和四大推论,率先将索引、数据库与学术规范与评价的关系明确地关联起来。1 什么是索引?    国家标准《索引编制规则(总则)》(修改稿)对索引有以下定义:指向文献或文献集合中的概念、词语及其他项目等的信息检索工具,由一系列款目及参照组成。而索引款目则是:对某一文献或文献集合的主题内容、涉及事项或外部特征加以描述的记录,是索引的基本单元。款目由标目、注释、副标目及出处组成。部分索引款目还带有附加信息。索引的功能除提供文献线索、节省文献调研时间等外,有调查和核实学术成果,统计、分析文献被引用情况,进行大范围的文献普查、利用等,还有文献考证、文献鉴别、古籍校勘、古籍整理等,用作语言学、目录学、文化史、科学史、文献计量学、科学计量学等研究的手段和工具。辅助查明某项发现、发明、理论、原理、方法等的优先地位或二次发现。或发现研究中的空白点或可能的生长点。这些功能与学术规范与学术评价有密切的关联。    从索引的原理,可以有以下推论:(1)对任何一个较大信息资源集合,总可以根据查找需求,将该集合中的特定元素或事项标引为索引项(标目)。(2)索引项必须有序化,且有出处或位置符号。如果“异排”是一个特点的话,那么可以将“异排”增加上去,即:索引项必须有序化,异于原排序,且有出处或位置符号。(3)索引来源于信息资源集合(索引源),但不等于集合本身。信息资源集合是索引的源泉,索引仅是指向信息资源集合的线索或路径。(4)索引指向信息资源集合中的内容,但不等于内容本身。 2 索引与目录的主要区别在哪里?    所谓本质属性就是一事物区别于另一事物的最重要的个性特征。例如,目录与索引都是检索工具,也都是信息统计、分析的工具,都是款目的集合,都需要排序,这些是二者的共性。但能深入到文献或信息资源集合的内容进行不同程度的标引,注明其出处,异于源信息集合的排序则是索引的个性,或曰“本质属性”,因为目录不具有这些特征。目录是汇集一组文献或信息资源,著录其责任者、题名、出版者等事项,形成款目,按一定方式排序的检索工具。而索引,一定要从源文献中抽取词或词组,甚至句子,加上注释、出处等,形成款目,其排序一定与源文献的排序不一样。概括说来,源文献抽取、出处、“异排”(“异排”是作者首次用来概括索引一个独特性的语词,是指不同于源文献的排序,如源文献正文的排序是分类,则索引的排序一定是主题、作者、题名排序,不能是分类排序)是索引区别于目录等类似检索工具的“本质属性”。用专业术语也可以抽象出索引的概念模型:源文献或信息集合-抽取-索引项(词、参照)-排序-出处指向-连接-源文献或信息集合。 3 索引/数据库在学术规范中的作用    所谓学术规范是指学术共同体根据学术发展规律参与制定的有关各方共同遵守的、有利于学术积累和创新的各种准则和要求,是整个学术共同体在长期学术活动中的经验总结和概括。包括学术研究基本规范、研究程序规范、研究方法规范、论著撰写规范、责任者署名规范、论著引用规范、论著呈现规范、学术评价规范、学术批评规范。规范是手段,创新是目的,手段围绕目的而变化,只要有利于学术创新,不适宜的规范就必须修改。遵守学术规范,就是讲究科研诚信,反对学术不端(故意之行为,如剽窃、篡改、伪造、虚假署名、虚假信息、买卖论文、代写等)、学术失范(无意之行为,如不会引用、论文格式混乱、图表无标题和编号,选题空洞、没有学术史回顾、缺乏论证、文摘、关键词不规范等,自然科学称之为“科研不当”)。发现、确证学术不端行为后,就必须处理;而发现失范或不当行为,则主要是教育。二种行为的性质及其处理方式必须分清,否则会影响学术的健康发展。学术研究基本规范,诸如合理质疑、批判性思维、创新性思维、独立思考、学术平等基本规范是“纲”,责任者署名规范、论著引用规范等技术性规范是“目”,“纲举目张”,基本规范最为重要,适用于文理各学科的研究。换言之,内容规范是“纲”,形式规范是“目”。以学术论文为例,其形式规范包括题目文字的多少、章节的标记符号、文摘、关键词、参考文献/注释、图表、措辞等规范。而内容规范是指选题、综述、观点、方法、论证(事实、数据)、结果/结论等每一步骤的规范。形式规范是底线,内容规范是关键,论文要有新意,能分析问题、解决问题,这是最重要的规范。    编制索引/数据库的作用主要体现在以下几个方面:(1)有利于提高文献内容质量。编制有关文献内容的索引,可以核对核心概念、术语的规范度,通过参照统一词语表述,行文规范和统一性校对;通过主题(有关学术观点、研究方法、研究结果和结论的主题词)初步判断论文的水平和质量。(2)有利于“辨章学术、考镜源流”。(3)有利于科研诚信建设。引文索引、评论索引对引用经典、切题引用文献、他人研究成果的评述或验证,查看引用文献和文献综述的合理性均有作用。有的查询可直接核实,有的查询则可指引专家聚焦判断。包括“智能查重”,文献是否为抄袭,最终需要专家定夺,不能由查重系统(数据库)“一刀切”。 4 索引/数据库在学术评价中的作用    索引在学术评价上的辅助作用学界讨论很多且已有共识,比较好理解,辅助作用不能扩大化,变成“唯”,就片面化了。学术评价是评价主体根据一定的目的和标准对评价客体进行的价值判断。包括学者评价、机构评价、媒介(期刊、报纸、网站等)评价、成果评价(出版前评价与出版后评价)等。对于成果评价来说,有成果出版前评价:投稿评价、项目评价、学位论文评价等;成果出版后的评价则有期刊评价、图书评价、论文评价、学者评价等。学术评价的原则有目的性;定性定量相结合;分类评价;质量评价;三公(公开、公正、公平);相对性评价。    学术“全评价”体系,概括言之,就是六大要素、三个维度、若干推论,全方位、全要素、全过程评价。六大要素是指评价主体、评价客体、评价目的、评价方法、评价标准及指标、评价制度。三大维度是指形式评价,内容评价、效用评价。由浅入深,层层递进(三个维度阶梯论)。若干推论是指评价目的制约论、同行专家主导论、评价客体细分论、评价指标可采论、评价方法适度论、评价制度保障论、计量方法与专家方法互补论等。形式评价一般为简单评价,质量评价主要是内容评价和效用评价。    索引/数据库在学术评价中的作用:(1)有利于辅助查明学术新贡献。利用各种索引,尤其是综合性、收录文献较为全面的索引数据库,可以辅助查到学者、机构等的研究新成果,诸如某个新概念、新观点、新方法、新资料、新理论等,并可以快捷、方便地确定知识产出的优先权,从而确定学者、机构的学术新贡献。(2)有利于定量评价学术影响力。利用各种引文数据库、学术评论数据库、观点创新索引数据库等,可以查到研究成果及其作者、作者所在的机构、地区、国家等的分布情况,并可通过知识图谱给予形象描述,通过数据的统计和分析,可以从一个侧面测度研究成果及其作者、机构等的学术影响力。(3)有利于辅助评价学术质量。由于引文索引数据库等的出现,其利用变得非常方便,于是以引文为代表的计量评价法应运而生。不论是SCI、SSCI、A&HCI、SCOPUS,还是南京大学编制的《中文社会科学引文索引》(CSSCI)、《中文学术图书引文索引》(CBKCI)、《中国智库索引》(CTTI)、《中文学术评论索引》(CARI)、《中文人文社会科学集刊引文索引》等等,除了检索作用外,亦有统计、分析学术影响力的作用(影响力不等于质量)和辅助评价质量的作用。引文既包含同行专家的定性评价,又可以定量评价,因此,否定不了。但这种同行的定性评价不都是直接的质量评价,动机多种多样,引用深度也大不一样。对引文索引等的辅助评价学术质量的作用,一定要实事求是,不能绝对化,不能高估,也不能低看。值得指出的是,如果SCI,CSSCI研制目的主要是“检索”作用的话,那么《中文学术评论索引》(CARI)、《中国学科专家索引数据库》(CSI)则除了“检索”外,更侧重于“辅助评价学术质量”。但尽管如此,这些索引/数据库都不能代替同行评议,仅供同行更好地评议学术质量作参考,或者对同行评议的结果进行核实、校验。 5 未来展望    加强学术规范、遵循科研诚信,建立科学合理公正的学术评价体系是一个长期的任务,索引等技术手段仅是辅助工具。目前应将各种新技术与学术规范与评价研究的成果密切结合,双管、多管齐下,疗效将更为明显。具体措施可以对大学生、研究生进行学术规范、科研伦理与学术评价的系统教育,提高智能查重与评价数据(影响因子、被引次数、H指数、Altmetrics等)的准确性,对论文的关键词、文献综述、参考文献是否规范均可自动检测,以帮助指导老师审阅论文的规范性,学生也可利用系统自我学习有关规范,提高论文质量。但对学术不端行为应严格处理,加快中国学术共同体的建设(有学界,有同行,有学人,但无成熟的学术共同体,此正在建设与完善之中)。索引或数据库系统不能代替专家、学者的认定和评价。研究者的综合性思维、批判性思维、创新性思维在相当长时间里是技术(包括ChatGPT等新技术)不能替代的。索引/数据库+人工智能先解决论文形式规范问题,如摘要、关键词是否规范,以后再涉及论文内容规范,如文献综述是否合适,是否有重大遗漏,是否有创新点(查新)等问题。索引工作的创新包括索引选题的创新、索引项的创新、索引方法的创新、索引应用的创新(在学术规范和学术评价上的应用),此并非易事。如果“高人”也来做索引/数据库,无疑其功用将更大。