arXiv ：全球科学预印本平台与它的“教父”

近年来，人工智能领域的进展日新月异，像 OpenAI、Anthropic、DeepSeek 这样备受瞩目的公司不断推出令人惊叹的模型，引发一波又一波的热潮。细心的人们或许会发现一个有趣的现象：这些引领潮流的技术突破，其详细的“蓝图”——也就是研究论文——往往并非首发于传统的学术期刊，而是率先出现在一个名为 arXiv 的独特平台上。事实上，不仅仅是 DeepSeek 或其他大模型的研究，如今许多重要的科研成果，无论领域，其最初的亮相和传播都越来越离不开 arXiv 这个看似朴素却至关重要的预印本数字平台。这不禁让人好奇，这个平台究竟是何方神圣？它又是如何成为当今科学交流的核心枢纽呢？

1. 打破“出版垄断”：一场无声的革命

“就在我以为自己金盆洗手的时候，他们又把我拉了回来！”引用这句《教父》经典台词的不是迈克尔·柯里昂，而是保罗·金斯帕格（Paul Ginsparg），一位康奈尔大学的物理学教授，脸上带着一丝狡黠。这位麦克阿瑟“天才奖”得主和那位黑帮大佬或许没什么共同点，但他们都深切体会过一种感觉：想从自己一手创建的“帝国”里体面抽身，怎么就那么难呢？

金斯帕格创建的“帝国”，就是 arXiv（发音像“Archive”，意为“档案馆”）。大约 35 年前，他搞出了这个数字平台，让全世界的科学家能在研究成果刚出炉、还没经过同行大佬们层层审阅时，就第一时间分享出来。如今访问 arXiv.org，看到的还是它那朴素得有点过时的“老古董”网页，带着康奈尔大学的印章——这里是它现在的家。但这不起眼的外表下，隐藏着一股颠覆科学界的力量。毫不夸张地说，如果 arXiv 哪天突然宕机，全球的科研活动会立刻陷入混乱。“搞数学和物理的，谁不用它啊？我每天晚上都得上去刷刷。” 德克萨斯大学奥斯汀分校的计算机科学家斯科特·阿伦森曾这样表示。

想象一下，每个行业都有那么些让人头疼的“老大难”问题：医疗里的保险、音乐圈的版权、教育界的标准化考试、餐饮业的小费……在学术界，这个“老大难”就是出版。

传统的学术出版，被几家像爱思唯尔（Elsevier）、施普林格（Springer）这样的营利性巨头牢牢把控。说他们“雁过拔毛”都算客气了。打个比方：这就像一家出版社，要求作者免费写书，还不雇编辑，让其他作者免费帮忙审稿。更绝的是，最后印出来的书，卖给读者和研究机构的价格高得离谱，大学图书馆每年都得掏一大笔钱才能让大家看到这些研究。

这个由“免费编辑”（也就是同行评审）驱动的过程，虽然能保证质量，但慢得像蜗牛爬，一篇论文等上几个月甚至一年才发表是家常便饭。

而 arXiv 的出现，就像是在这堵高墙上凿开了一个大洞。科学家们可以把他们的论文初稿（叫做“预印本”）直接上传，瞬间，全世界的人都能免费看到！arXiv 最牛的一点，正如早期参与者保罗·芬德利（现在牛津大学的物理学家）所说，是它证明了“成果的快速传播和耗时的评审过程完全可以分开进行”。尤其是在像新冠疫情这样的危机时刻，那些争分夺秒的研究发现能通过 arXiv 及其“兄弟”平台 bioRxiv 和 medRxiv 迅速传开，有研究估计，这可能挽救了数百万人的生命。

当然，arXiv 上的论文没经过同行评审，不代表它就是个“菜市场”。提交上来的稿件，还是会由各个领域的专家志愿者（他们贡献自己的时间）进行审核，确保内容是原创研究、符合基本的学术规范、语言中立，没有伪造数据。平台还有自动程序进行初步的质量检查。没有这些“守门人”，那些伪科学和业余爱好者的“大作”早就把这里淹没了。

2. 从一行代码到全球枢纽：arXiv 的传奇之路

2021年，《自然》杂志将 arXiv 评为“改变科学的十大计算机代码”之一，因为它极大地促进了科学合作。（讽刺的是，想看这篇《自然》的文章？需要付费订阅。）如今，arXiv 上有超过 260 万篇论文，每个月新增 2 万篇，月活用户高达 500 万。21 世纪许多最重要的科学突破，比如引爆今天人工智能热潮的“Transformer”模型论文，解决百年数学难题“庞加莱猜想”的论文，都是先在 arXiv 上亮相的。在这里首发，并不妨碍它们日后登上顶级期刊，但 arXiv 确保了这些知识从一开始就属于公众，并且永远可以免费获取。对科学家来说，没有 arXiv 的世界，就像普通人没有了公共图书馆或 GPS 导航一样难以想象。

但这个看似开放自由的知识乌托邦，背后却充满了“成长的烦恼”。官僚主义的扯皮、老旧的代码、甚至还有一次不大不小的“间谍风波”，都曾威胁到它的生存。用金斯帕格自己的话说，arXiv 就像是“我送去上大学的孩子，结果这孩子老是赖在我家客厅不走，还净给我惹麻烦。”

一个早期对金斯帕格的采访报道，揭示了这位人物的复杂性。金斯帕格健谈、观察细致，甚至有点爱搞怪。他会饶有兴致地谈论当地红隼的筑巢习性，或是餐厅员工的八卦。他会突然打断采访者的话语，然后无缝衔接，开始讲一个关于硬盘故障的故事。这个硬盘故障的故事，引出了他最近的“心头好”——语言模型。他抱怨说，现在 arXiv 收到的论文，尤其是人工智能领域的，越来越多，质量也良莠不齐，而志愿者审核员快不够用了。所以，他捣鼓那个硬盘，是为了打造一个他称之为“圣杯级怪人过滤器”的东西，希望能自动识别并过滤掉那些劣质的投稿。他骨子里觉得，这事儿还得他亲自来，不然质量就没保证——这想法贯穿了 arXiv 三十多年的历史。

诞生：一次偶然的“火花”

arXiv 的诞生，并非深思熟虑的宏伟计划。1991 年，还在洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)工作的金斯帕格去科罗拉多开会。当时，他的朋友乔安妮·科恩（那时在普林斯顿高等研究院做博士后）正在手动维护一个物理学预印本的邮件列表。那时，想看到最新的研究，要么得在某个牛逼机构的邮件列表里，要么就得知道该给谁发邮件要，否则就只能等上好几个月看正式出版的期刊。

会上，一位物理学家抱怨邮件里的论文塞满了他的电脑硬盘。金斯帕格，这位从高中就开始编程的“技术宅”，随口问科恩：“你想过把分发过程自动化吗？”科恩说没想过，还怂恿他：“要不你来搞？”“我记得他第二天就把脚本写出来了，看起来得意洋洋的，”科恩后来回忆道，“很难形容那时的不同。保罗确实看到了未来。”

听金斯帕格的故事，会觉得他像是互联网时代的“阿甘”，总在关键时刻出现在关键地点，和各路大神擦肩而过：哈佛本科时和比尔·盖茨、史蒂夫·鲍尔默是同学；哥哥师从 AI 先驱特里·威诺格拉德 (Terry Winograd)；早早就用上了互联网的前身阿帕网（Advanced Research Projects Agency Network，简称为ARPANET）……

成长：从邮件列表到网络中枢

arXiv 最初只是个自动回复邮件的服务器，几个月后加了 FTP 功能。然后，金斯帕格听说了“万维网”（World Wide Web）。一开始他还挺怀疑，但当 1993 年 Mosaic 浏览器出现后，他来了兴趣，很快就给 arXiv 搭了个网页界面。他还偶尔和欧洲核子研究组织（CERN）一位叫蒂姆·伯纳斯-李（就是后来大名鼎鼎的“万维网之父”）的程序员交流——金斯帕格还记得那位老兄在法国乡下烤的剑鱼味道不错。

拿到国家科学基金会的钱后，他雇了两个人，把最初的脚本换成了更靠谱的 Perl 代码。这两人后来也都成了技术大牛，一个去了美国物理学会当 CIO，另一个搞了个叫 IMDb（互联网电影数据库）的小项目。

arXiv 这个名字，是他和妻子在一次开车时头脑风暴出来的。Archive（档案馆）？被占用了。那就用希腊字母 X (Chi) 代替 Arch？他妻子觉得这样对称，就划掉了最后的 e，变成了 arXiv。

一开始，金斯帕格估计每年也就收到 100 篇投稿。结果，第一个月就快 100 篇了，而且越来越多。“第三天，爱德华·威滕（一位弦理论大神，被誉为可能是‘在世最聪明的人’）发了篇论文，”金斯帕格回忆，“然后整个圈子就都来了。”很快，数学、计算机科学等领域也加入了进来。

生存：在巨头阴影下野蛮生长

最让人好奇的是，arXiv 这个“搅局者”，怎么没被那些想维护传统出版秩序的巨头们扼杀在摇篮里？关键可能在于金斯帕格早期的一个“神操作”：用户提交论文时，就默认授予 arXiv 永久的、非排他性的分发许可。这意味着，就算论文以后在别处发表了，arXiv 依然可以合法地提供免费访问。这招釜底抽薪，让那些出版巨头们想找茬都难以下手。

但即使影响力越来越大，洛斯阿拉莫斯的管理层似乎从未真正重视过这个项目。1999 年，“李文和案”（一位华裔科学家被诬告泄密）在实验室内部引发动荡，管理收紧，气氛压抑。金斯帕格在那年的绩效评估里被评为“表现平平”，说他“没什么特别的计算机技能能贡献给实验室”。加上女儿出生，附近又没好学校，他决定离开。

他回到了母校康奈尔，这次是终身教授。arXiv 自然也跟着“搬家”了。他当时发誓，“最多五年”就把这摊子事儿交出去，毕竟他的主业是教学和研究。在康奈尔，arXiv 被安置在大学图书馆。“他们负责向学术界传播资料，”金斯帕格说，“所以这看起来是一个自然的契合。”

摩擦：当“游击队长”遇上“正规军”

事实证明，这并不是一个自然的契合。arXiv 本质上是个复杂的软件平台，需要的技术能力远超普通大学图书馆的范畴。而图书馆方面，似乎也没完全理解 arXiv 的重要性，有点把它当“副业”看待。

与此同时，金斯帕格“亲力亲为”的风格也引发了矛盾。有人觉得他管得太宽，有人嫌他没耐心。他习惯绕过图书馆直接修改代码，这让员工觉得不受信任。而他则对图书馆按部就班、效率低下的流程感到沮丧。一位前员工说他“低层管理很在行，但理念没法规模化”。在 21 世纪的头十年，arXiv 的开发团队总是留不住人。

金斯帕格显然选择了继续当那个“写代码、审代码”的实践者，而不是去混董事会、做咨询。用他的话说：“像拉里·萨默斯（前哈佛校长、美国财长）那样每周花一天给对冲基金当顾问——太不体面了。”

3.转机与未来：老兵不死，只是“换了战场”？

到了 2011 年，arXiv 成立 20 周年，金斯帕格觉得是时候了。他在《自然》杂志上发表了一篇近乎“告别演说”的文章，细数运营 arXiv 的辛劳：“这本该是一次三小时的短途旅行，却成了终身监禁……每天处理相关的行政事务能耗掉好几个小时，全年无休。”他计划留在顾问委员会，把日常运营交给图书馆。

但这事儿，又没成。之后几年，有人指责他“垂帘听政”，甚至“挟持”代码不肯分享。他则对开发进度缓慢感到抓狂。当被问及是否有为开发者留下文档时，他回答：“我 60 年代学的 Fortran，真正的程序员才不写文档呢！”——这个回答或许会让许多软件专业人士皱眉。

技术和管理的矛盾持续发酵。2019 年，arXiv 被划归到康奈尔的计算机与信息科学学院，几个月后又换了地方。一位有商业出版背景的新主管来了又走。“那段时间很动荡，”一位员工说，“不是好时候。”

最终的转机来自 2022 年，西蒙斯基金会的慷慨资助让 arXiv 得以大规模扩充团队。新的治理结构下，将 arXiv 迁移到云端、用现代化的 Python 语言重构代码库的工作终于步入正轨。

尽管有了新的资金支持和更专业的管理结构，但金斯帕格个人的深刻印记——以及他那独特甚至可以说是棘手的行事风格——仍然是 arXiv 故事中不可或缺的一部分。他那不拘一格、有时甚至挑战常规的方式（例如他对软件文档的著名蔑视），在 arXiv 早期披荆斩棘、对抗体制惯性时或许展现了必要的“顽强”。然而，这种风格也无可避免地在机构内部造成了摩擦和管理上的挑战，这一点在他与康奈尔图书馆以及后续管理团队的互动中反复体现。如何平衡这位创始人的巨大贡献、持续影响与平台作为一个成熟基础设施的运营需求，一直是 arXiv 发展过程中的一个核心议题。

结语：爱恨交织的“遗产”

抛开内部的“抓马”，arXiv 依然面临挑战。有人批评它助长了“垃圾科学”和“快餐式学术”（比如 2023 年那个被大肆宣传、后来被证伪的室温超导论文）。也有人反过来指责它“审查”合理的研究（比如有位知名物理学家的论文因“煽动性内容”被拒）。金斯帕格对这些争议持何种看法？他不是那种会高谈阔论“使命感”、“开放科学”的人。他似乎关心这些事情本身，但不屑于用华丽的辞藻包装自己的工作。

当被问及是否真的想从 arXiv 中解脱出来时，金斯帕格坦言：“说实话，这里面很多事儿还是挺有意思的。我有一个完美的平台来测试和玩弄各种想法。”虽然他不再直接碰生产代码了，但他仍在琢磨那个“圣杯级怪人过滤器”，这让他保持着参与感和活力。也许，有了新的语言模型，他能搞定它。这或许就是金斯帕格与他创造的 arXiv 之间，那种爱恨交织、难以割舍的复杂关系吧。一个颠覆了科学界、如今不可或缺的平台，和一个始终无法真正放手的、充满个性的创始人。

（转载请注明出处，联系请邮件: fengxun@jooseed.com）