近年来,人工智能领域的进展日新月异,像 OpenAI、Anthropic、DeepSeek 这样备受瞩目的公司不断推出令人惊叹的模型,引发一波又一波的热潮。细心的人们或许会发现一个有趣的现象:这些引领潮流的技术突破,其详细的“蓝图”——也就是研究论文——往往并非首发于传统的学术期刊,而是率先出现在一个名为 arXiv 的独特平台上。事实上,不仅仅是 DeepSeek 或其他大模型的研究,如今许多重要的科研成果,无论领域,其最初的亮相和传播都越来越离不开 arXiv 这个看似朴素却至关重要的预印本数字平台。这不禁让人好奇,这个平台究竟是何方神圣?它又是如何成为当今科学交流的核心枢纽呢?
1. 打破“出版垄断”:一场无声的革命
“就在我以为自己金盆洗手的时候,他们又把我拉了回来!”引用这句《教父》经典台词的不是迈克尔·柯里昂,而是保罗·金斯帕格(Paul Ginsparg),一位康奈尔大学的物理学教授,脸上带着一丝狡黠。这位麦克阿瑟“天才奖”得主和那位黑帮大佬或许没什么共同点,但他们都深切体会过一种感觉:想从自己一手创建的“帝国”里体面抽身,怎么就那么难呢?
金斯帕格创建的“帝国”,就是 arXiv(发音像“Archive”,意为“档案馆”)。大约 35 年前,他搞出了这个数字平台,让全世界的科学家能在研究成果刚出炉、还没经过同行大佬们层层审阅时,就第一时间分享出来。如今访问 arXiv.org,看到的还是它那朴素得有点过时的“老古董”网页,带着康奈尔大学的印章——这里是它现在的家。但这不起眼的外表下,隐藏着一股颠覆科学界的力量。毫不夸张地说,如果 arXiv 哪天突然宕机,全球的科研活动会立刻陷入混乱。“搞数学和物理的,谁不用它啊?我每天晚上都得上去刷刷。” 德克萨斯大学奥斯汀分校的计算机科学家斯科特·阿伦森曾这样表示。
想象一下,每个行业都有那么些让人头疼的“老大难”问题:医疗里的保险、音乐圈的版权、教育界的标准化考试、餐饮业的小费……在学术界,这个“老大难”就是出版。
传统的学术出版,被几家像爱思唯尔(Elsevier)、施普林格(Springer)这样的营利性巨头牢牢把控。说他们“雁过拔毛”都算客气了。打个比方:这就像一家出版社,要求作者免费写书,还不雇编辑,让其他作者免费帮忙审稿。更绝的是,最后印出来的书,卖给读者和研究机构的价格高得离谱,大学图书馆每年都得掏一大笔钱才能让大家看到这些研究。
这个由“免费编辑”(也就是同行评审)驱动的过程,虽然能保证质量,但慢得像蜗牛爬,一篇论文等上几个月甚至一年才发表是家常便饭。
而 arXiv 的出现,就像是在这堵高墙上凿开了一个大洞。科学家们可以把他们的论文初稿(叫做“预印本”)直接上传,瞬间,全世界的人都能免费看到!arXiv 最牛的一点,正如早期参与者保罗·芬德利(现在牛津大学的物理学家)所说,是它证明了“成果的快速传播和耗时的评审过程完全可以分开进行”。尤其是在像新冠疫情这样的危机时刻,那些争分夺秒的研究发现能通过 arXiv 及其“兄弟”平台 bioRxiv 和 medRxiv 迅速传开,有研究估计,这可能挽救了数百万人的生命。
当然,arXiv 上的论文没经过同行评审,不代表它就是个“菜市场”。提交上来的稿件,还是会由各个领域的专家志愿者(他们贡献自己的时间)进行审核,确保内容是原创研究、符合基本的学术规范、语言中立,没有伪造数据。平台还有自动程序进行初步的质量检查。没有这些“守门人”,那些伪科学和业余爱好者的“大作”早就把这里淹没了。
2. 从一行代码到全球枢纽:arXiv 的传奇之路
2021年,《自然》杂志将 arXiv 评为“改变科学的十大计算机代码”之一,因为它极大地促进了科学合作。(讽刺的是,想看这篇《自然》的文章?需要付费订阅。)如今,arXiv 上有超过 260 万篇论文,每个月新增 2 万篇,月活用户高达 500 万。21 世纪许多最重要的科学突破,比如引爆今天人工智能热潮的“Transformer”模型论文,解决百年数学难题“庞加莱猜想”的论文,都是先在 arXiv 上亮相的。在这里首发,并不妨碍它们日后登上顶级期刊,但 arXiv 确保了这些知识从一开始就属于公众,并且永远可以免费获取。对科学家来说,没有 arXiv 的世界,就像普通人没有了公共图书馆或 GPS 导航一样难以想象。
但这个看似开放自由的知识乌托邦,背后却充满了“成长的烦恼”。官僚主义的扯皮、老旧的代码、甚至还有一次不大不小的“间谍风波”,都曾威胁到它的生存。用金斯帕格自己的话说,arXiv 就像是“我送去上大学的孩子,结果这孩子老是赖在我家客厅不走,还净给我惹麻烦。”
一个早期对金斯帕格的采访报道,揭示了这位人物的复杂性。金斯帕格健谈、观察细致,甚至有点爱搞怪。他会饶有兴致地谈论当地红隼的筑巢习性,或是餐厅员工的八卦。他会突然打断采访者的话语,然后无缝衔接,开始讲一个关于硬盘故障的故事。这个硬盘故障的故事,引出了他最近的“心头好”——语言模型。他抱怨说,现在 arXiv 收到的论文,尤其是人工智能领域的,越来越多,质量也良莠不齐,而志愿者审核员快不够用了。所以,他捣鼓那个硬盘,是为了打造一个他称之为“圣杯级怪人过滤器”的东西,希望能自动识别并过滤掉那些劣质的投稿。他骨子里觉得,这事儿还得他亲自来,不然质量就没保证——这想法贯穿了 arXiv 三十多年的历史。
诞生:一次偶然的“火花”
arXiv 的诞生,并非深思熟虑的宏伟计划。1991 年,还在洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)工作的金斯帕格去科罗拉多开会。当时,他的朋友乔安妮·科恩(那时在普林斯顿高等研究院做博士后)正在手动维护一个物理学预印本的邮件列表。那时,想看到最新的研究,要么得在某个牛逼机构的邮件列表里,要么就得知道该给谁发邮件要,否则就只能等上好几个月看正式出版的期刊。
会上,一位物理学家抱怨邮件里的论文塞满了他的电脑硬盘。金斯帕格,这位从高中就开始编程的“技术宅”,随口问科恩:“你想过把分发过程自动化吗?”科恩说没想过,还怂恿他:“要不你来搞?”“我记得他第二天就把脚本写出来了,看起来得意洋洋的,”科恩后来回忆道,“很难形容那时的不同。保罗确实看到了未来。”
听金斯帕格的故事,会觉得他像是互联网时代的“阿甘”,总在关键时刻出现在关键地点,和各路大神擦肩而过:哈佛本科时和比尔·盖茨、史蒂夫·鲍尔默是同学;哥哥师从 AI 先驱特里·威诺格拉德 (Terry Winograd);早早就用上了互联网的前身阿帕网(Advanced Research Projects Agency Network,简称为ARPANET)……
成长:从邮件列表到网络中枢
arXiv 最初只是个自动回复邮件的服务器,几个月后加了 FTP 功能。然后,金斯帕格听说了“万维网”(World Wide Web)。一开始他还挺怀疑,但当 1993 年 Mosaic 浏览器出现后,他来了兴趣,很快就给 arXiv 搭了个网页界面。他还偶尔和欧洲核子研究组织(CERN)一位叫蒂姆·伯纳斯-李(就是后来大名鼎鼎的“万维网之父”)的程序员交流——金斯帕格还记得那位老兄在法国乡下烤的剑鱼味道不错。
拿到国家科学基金会的钱后,他雇了两个人,把最初的脚本换成了更靠谱的 Perl 代码。这两人后来也都成了技术大牛,一个去了美国物理学会当 CIO,另一个搞了个叫 IMDb(互联网电影数据库)的小项目。
arXiv 这个名字,是他和妻子在一次开车时头脑风暴出来的。Archive(档案馆)?被占用了。那就用希腊字母 X (Chi) 代替 Arch?他妻子觉得这样对称,就划掉了最后的 e,变成了 arXiv。
一开始,金斯帕格估计每年也就收到 100 篇投稿。结果,第一个月就快 100 篇了,而且越来越多。“第三天,爱德华·威滕(一位弦理论大神,被誉为可能是‘在世最聪明的人’)发了篇论文,”金斯帕格回忆,“然后整个圈子就都来了。”很快,数学、计算机科学等领域也加入了进来。
生存:在巨头阴影下野蛮生长
最让人好奇的是,arXiv 这个“搅局者”,怎么没被那些想维护传统出版秩序的巨头们扼杀在摇篮里?关键可能在于金斯帕格早期的一个“神操作”:用户提交论文时,就默认授予 arXiv 永久的、非排他性的分发许可。这意味着,就算论文以后在别处发表了,arXiv 依然可以合法地提供免费访问。这招釜底抽薪,让那些出版巨头们想找茬都难以下手。
但即使影响力越来越大,洛斯阿拉莫斯的管理层似乎从未真正重视过这个项目。1999 年,“李文和案”(一位华裔科学家被诬告泄密)在实验室内部引发动荡,管理收紧,气氛压抑。金斯帕格在那年的绩效评估里被评为“表现平平”,说他“没什么特别的计算机技能能贡献给实验室”。加上女儿出生,附近又没好学校,他决定离开。
他回到了母校康奈尔,这次是终身教授。arXiv 自然也跟着“搬家”了。他当时发誓,“最多五年”就把这摊子事儿交出去,毕竟他的主业是教学和研究。在康奈尔,arXiv 被安置在大学图书馆。“他们负责向学术界传播资料,”金斯帕格说,“所以这看起来是一个自然的契合。”
摩擦:当“游击队长”遇上“正规军”
事实证明,这并不是一个自然的契合。arXiv 本质上是个复杂的软件平台,需要的技术能力远超普通大学图书馆的范畴。而图书馆方面,似乎也没完全理解 arXiv 的重要性,有点把它当“副业”看待。
与此同时,金斯帕格“亲力亲为”的风格也引发了矛盾。有人觉得他管得太宽,有人嫌他没耐心。他习惯绕过图书馆直接修改代码,这让员工觉得不受信任。而他则对图书馆按部就班、效率低下的流程感到沮丧。一位前员工说他“低层管理很在行,但理念没法规模化”。在 21 世纪的头十年,arXiv 的开发团队总是留不住人。
金斯帕格显然选择了继续当那个“写代码、审代码”的实践者,而不是去混董事会、做咨询。用他的话说:“像拉里·萨默斯(前哈佛校长、美国财长)那样每周花一天给对冲基金当顾问——太不体面了。”
3.转机与未来:老兵不死,只是“换了战场”?
到了 2011 年,arXiv 成立 20 周年,金斯帕格觉得是时候了。他在《自然》杂志上发表了一篇近乎“告别演说”的文章,细数运营 arXiv 的辛劳:“这本该是一次三小时的短途旅行,却成了终身监禁……每天处理相关的行政事务能耗掉好几个小时,全年无休。”他计划留在顾问委员会,把日常运营交给图书馆。
但这事儿,又没成。之后几年,有人指责他“垂帘听政”,甚至“挟持”代码不肯分享。他则对开发进度缓慢感到抓狂。当被问及是否有为开发者留下文档时,他回答:“我 60 年代学的 Fortran,真正的程序员才不写文档呢!”——这个回答或许会让许多软件专业人士皱眉。
技术和管理的矛盾持续发酵。2019 年,arXiv 被划归到康奈尔的计算机与信息科学学院,几个月后又换了地方。一位有商业出版背景的新主管来了又走。“那段时间很动荡,”一位员工说,“不是好时候。”
最终的转机来自 2022 年,西蒙斯基金会的慷慨资助让 arXiv 得以大规模扩充团队。新的治理结构下,将 arXiv 迁移到云端、用现代化的 Python 语言重构代码库的工作终于步入正轨。
尽管有了新的资金支持和更专业的管理结构,但金斯帕格个人的深刻印记——以及他那独特甚至可以说是棘手的行事风格——仍然是 arXiv 故事中不可或缺的一部分。他那不拘一格、有时甚至挑战常规的方式(例如他对软件文档的著名蔑视),在 arXiv 早期披荆斩棘、对抗体制惯性时或许展现了必要的“顽强”。然而,这种风格也无可避免地在机构内部造成了摩擦和管理上的挑战,这一点在他与康奈尔图书馆以及后续管理团队的互动中反复体现。如何平衡这位创始人的巨大贡献、持续影响与平台作为一个成熟基础设施的运营需求,一直是 arXiv 发展过程中的一个核心议题。
结语:爱恨交织的“遗产”
抛开内部的“抓马”,arXiv 依然面临挑战。有人批评它助长了“垃圾科学”和“快餐式学术”(比如 2023 年那个被大肆宣传、后来被证伪的室温超导论文)。也有人反过来指责它“审查”合理的研究(比如有位知名物理学家的论文因“煽动性内容”被拒)。金斯帕格对这些争议持何种看法?他不是那种会高谈阔论“使命感”、“开放科学”的人。他似乎关心这些事情本身,但不屑于用华丽的辞藻包装自己的工作。
当被问及是否真的想从 arXiv 中解脱出来时,金斯帕格坦言:“说实话,这里面很多事儿还是挺有意思的。我有一个完美的平台来测试和玩弄各种想法。”虽然他不再直接碰生产代码了,但他仍在琢磨那个“圣杯级怪人过滤器”,这让他保持着参与感和活力。也许,有了新的语言模型,他能搞定它。这或许就是金斯帕格与他创造的 arXiv 之间,那种爱恨交织、难以割舍的复杂关系吧。一个颠覆了科学界、如今不可或缺的平台,和一个始终无法真正放手的、充满个性的创始人。
(转载请注明出处,联系请邮件: fengxun@jooseed.com)