【新智元导读】21 世纪最具影响力的 25 篇论文中,AI 论文竟然独占鳌头!从席卷全球的 ResNet 到奠定 ChatGPT 基础的 Transformer 架构,Nature 独家揭秘全球高被引论文。
21 世纪第一个 25 年,AI 领域被引最高 25 篇论文都有哪些?
近日,Nature 头版独家文章,揭秘了不同科学领域最具影响力的论文。
然而,令人意外的是,那些广为人知的科学发现:从 mRNA 疫苗和 CRISPR 基因编辑技术,到希格斯玻色子的发现和引力波的首次测量,并没有出现在这些入选的论文中。
他们得出结论,被引最高的论文,正是描述科学方法、软件工具或系统性综述的「幕后英雄」。
那么,都有哪些论文上榜了呢?
引用:科学影响力的衡量标准
引用是学术界衡量论文影响力的重要指标,作者通过引用来致敬前人的工作。
_Nature 的_分析基于五个学术数据库(涵盖了 21 世纪数千万篇论文),通过取中位数排名,筛选出本世纪最受引用的 25 篇论文。
结果显示,人工智能、提升研究质量提升、癌症统计、研究软件相关的论文占据了榜单前列。
唯一例外是一篇 2004 年关于石墨烯实验的开创性论文,这项工作为作者赢得了 2010 年的诺贝尔物理学奖。
AI 崛起,ResNet 登顶
人工智能论文,在本世纪引用榜单中独领风骚。
位居榜首的是,微软团队 2016 年发表的一篇论文——Deep Residual Learning for Image Recognition。
这恰恰是所有人熟知的「深度残差学习」神经网络——ResNets 的开山之作,由 AI 大牛孙剑带队何恺明等人完成。
ResNets 解决了信号在多层网络中传播时衰减的问题,让研究人员能够训练约 150 层神经网络。
这大约是当时常规神经网络层数的 5 倍。
该论文首次作为预印本发布于 2015 年末,微软团队凭借其在图像识别竞赛中夺冠。
ResNets 的突破为 AI 飞速发展铺平了道路,催生了 AlphaGo、AlphaFold、ChatGPT 等模型诞生。
现就职于麻省理工学院的何恺明表示,「在 ResNets 之前,深度学习并不那么『深』」。
据统计,这篇论文的引用量在 10 万 - 25.4 万次之间。在五个数据库中有两个将其列为第一,两个列为第二,一个列为第三,综合中位数排名第一。
Google Scholar 这篇论文被引数已超 25 万
此外,2017 年谷歌发表的 Attention is all you need 排位列七,论文中提出了著名的 Transformer 架构,成为 ChatGPT 等大模型的核心。
AI 论文的高引用量,主要是因为其广泛的应用领域和快速的研究进展。
同样,AI 教父 Geoff Hinton 指出,「AI 论文天然具有引用优势」。
2012 年,Hinton 带领学生 Ilya、Alex Krizhevsky 发表的 AlexNet 论文排名第八。
这篇巨作展示了神经网络在图像识别竞赛中的压倒性优势,掀起了后来的深度学习革命。
论文地址:proceedings.neurips.cc/paper_files…
此外,开源也助推了 AI 论文的引用。
比如排名第六的 Random Forests 论文介绍了一种开源、易用的机器学习算法,广泛应用于多个领域。
论文地址:link.springer.com/article/10.…
需要说明的是,许多 AI 论文以预印本形式发布,增加了引用统计的复杂性。
OpenAlex 数据库尝试合并预印本与最终出版物的引用,而 Google Scholar 则努力将同一作品的所有版本归类并汇总引用。
研究软件:科学家的「工具箱」
除了 AI 领域,研究软件相关论文在本世纪引用榜单中表现亮眼。
排名第二的论文由 Thomas Schmittgen 等人于 2000 年发表,介绍了一种用于定量 PCR(聚合酶链式反应)数据分析的方法。
这篇论文应审稿人要求而生,因其提供了计算基因活性变化的简单公式,被引量超过 16.2 万次,跻身历史前十。
论文地址:www.sciencedirect.com/science/art…
排名第五的论文,是由英国化学家 George Sheldrick 撰写,介绍 SHELX 程序套件,用于分析 X 射线散射模式以揭示分子结构。
这篇 2008 年的综述论文建议使用 SHELX 时引用,引用量在 7 万至 9 万次之间。
论文地址:journals.iucr.org/a/issues/20…
其他软件论文,如排名第十五的 scikit-learn(Python 机器学习库)和排名第十八的 DESeq2(RNA 测序分析),因其开源和易用性,成为科学家不可或缺的工具。
统计软件:数据分析的利器
统计软件相关论文,也在榜单中名列前茅。
例如,排名第 15 的 scikit-learn 论文和排名第 22 的 lme4 论文分别为 Python 和 R 语言用户提供了强大的数据分析工具。
排名第 23 的 G*Power 软件论文则帮助生物学家计算实验所需的样本量,以确保统计显著性。
值得注意的是,R 编程语言本身未出现在榜单中,尽管 OpenAlex 记录其引用量超过 30 万次。
这是因为 R 的开发者建议用户引用其网站而非学术论文,导致数据库记录不一致。
这也提醒研究者:若开发了有影响力的程序,发表一篇相关论文至关重要。
癌症与健康:数据驱动的洞见
癌症研究领域的三篇论文在榜单中占据重要位置。
排名第四的 Diagnostic and Statistical Manual of Mental Disorders(DSM-5)是精神病学领域的权威指南,2013 年出版后广泛用于研究和临床,定义了精神障碍的诊断标准。
排名第九和第十的是世界卫生组织 GLOBOCAN 项目于 2018 年和 2020 年发布的全球癌症统计报告,为研究者和政策制定者提供了关键数据。
排名第十九的综述论文总结了癌症的「标志性特征」,激励了无数学生投身癌症研究。
提升研究质量
提升研究质量的论文在本世纪引用榜单中熠熠生辉。排名第三的论文 Using thematic analysis in psychology,由心理学家 Virginia Braun 和 Victoria Hannah Clarke 于 2006 年发表,介绍了「主题分析」——一种分析定性数据的系统方法。
这篇为学生设计的指南意外成为本世纪第三高引用论文,彻底改变了两位作者的职业轨迹。
排名第 11 的 PRISMA 声明(2009 年)为系统综述和荟萃分析提供了 27 项报告规范,引用量在 5.3 万至 13.8 万次之间。
2020 年更新的 PRISMA(排名第 23)同样上榜。排名第 17 的论文(2003 年)讨论了行为研究中的方法偏差,帮助研究者提高研究严谨性。
参考资料: