一、研究背景
近期在Open Café学术论坛中,关于“零费用开放获取出版的真实覆盖率”的讨论引用了Walt Crawford的研究数据,但存在统计口径局限问题。Crawford基于DOAJ(开放获取期刊目录)的研究仅涵盖完全开放获取期刊(“金色OA”),而忽略了混合期刊(需支付文章处理费APC)的开放论文产出。正如论坛创始人Rick Anderson指出,这种统计方法严重低估了APC资助的开放论文数量。
二、依托于Delta think的数据分析
数据来源:出版商网站、OpenAlex、DOAJ、Delta Think分析。© 2025 Delta Think Inc. 保留所有权利。
基于Delta Think的全维度数据分析平台,得出以下关键发现:
? 整体开放获取市场中,13%的论文来自免APC期刊(左图);
? 物理学领域表现突出,免APC论文占比达47%(右图);
? 2018-2022年数据稳定性显著,年度波动率低于2%;
? 支持200+学科细分分析及学会期刊对比研究。
与Open Café引用的33%免APC数据相比,Delta Think的13%估值更精准反映了混合期刊的实质贡献。
三、AI模型验证实验
在DeepSeek引发行业震荡的背景下,Delta Think设计对照实验评估生成式AI的科研辅助能力。
? 查询语句:“开放获取中有多少是钻石开放获取?列出过去5年每年的文章数量和比例”
? 测试对象:ChatGPT 4o/4-turbo与DeepSeek
·实验结果:
1.版本迭代差异:ChatGPT不同版本(4o/4-turbo)输出结果存在显著差异。
2.输出稳定性分析: DeepSeek两次查询结果差异显著(见“尝试次数”指标),ChatGPT输出稳定性优于DeepSeek。
3.功能特性:ChatGPT 4-turbo特有推理功能,启用后可以展示推导过程与方法论、输出详细年度数据(2018-2022),关闭时数据趋近ChatGPT 4o。
4.数据准确性:
·OA占比:DeepSeek(12-15%)最接近真实值(13%),ChatGPT高估达2.5倍。
·数值矛盾:DeepSeek第二次尝试与ChatGPT 4-turbo数值相近,但占比计算存在2.5倍偏差。
·时间覆盖局限:所有模型数据截止2022年,缺失最新年度(2023年)数据。
5.学术沟通能力评估:
本研究采用单次提示(one-shot prompt)测试机制,系统评估生成式模型的学术沟通能力。
·回复的字数各不相同:Chat GPT-4o具有单段落、单数字的简洁性。其他模型混合使用了项目符号、散文和表格。
·只有一个模型添加了来源超链接,具体如下:ChatGPT-4o引用了encyclo.ouvrirlascience.fr。它是唯一包含链接的模型。
·ChatGPT 4-turbo主动提供了描述定义的章节,包含来自某些来源的标题数字,制作了年度评估表格,比较不同来源结果的讨论,数据限制的警告以及总结。它引用维基百科作为来源,指出其5年测算基于2017-2019年数据,但不清楚是自行计算还是引用其发现的某些表述。
·DeepSeek主动提供了关于定义、趋势、年度测算和关键来源的简要讨论。这些来源似乎是进一步阅读的指引,包括cOAlition S和OPERAS的《OA钻石期刊研究》(2021)(它认为该研究提供了最全面的视角),DOAJ,以及Web of Science/Scopus(指出它们低估了钻石OA期刊,因为许多期刊规模较小或具有区域聚焦)。
·冗长的模型为数据添加了警示,但没有一个能捕捉定义“钻石”的微妙之处。如果某期刊仅有一年免APC,例如,作为推广期优惠,那么它应该算作真正的钻石期刊还是赞助期刊?
四、结论
当前GenAI 发展阶段更接近“科研实习生”角色,与资深研究者存在显著能力差距,需要提示工程(Prompt Engineering)迭代优化,多轮结果精炼机制,人工校验介入流程来提升其效果。
DeepSeek的结果出人意料地优秀。其估值比我们的估计低几个百分点。ChatGPT则显著高估。模型选择的补充材料有效解释了数据背后的概念与驱动因素。
Delta Think样本与模型引用样本之间的差异解释了部分数据波动。但这无法解释某些重大差异——例如文章数量相同但占比不同(或反之),存在2.5倍差异。
或许当前形态的生成式AI模型并不完全适合这类数值导向的研究。但它们似乎正朝着正确方向演进。(注:Delta Think未在OpenAI和Google Gemini目前提供的深度研究模型上尝试此查询)