2024 年的 NeurIPS 会议投稿数量可能已经超过两万,可以说是一个十分拥挤的大赛场。这个趋势在过去几年几无变化,在未来若干年可能继续保持。

source: https://papercopilot.com/statistics/neurips-statistics/
source: https://papercopilot.com/statistics/neurips-statistics/

随着越来越多的大团队参与,被录用的论文也呈现出多作者的趋势。在这种情况下,小团队乃至个人作者要想获得认可就变得更加困难,这确实值得探讨一下。为了解这一现状,也为了给个人研究者一些启示,我们分析了 NeurIPS 2023 接收的论文列表,尤其关注其中的少作者论文,试图总结这些论文在选题、工作量和写作风格上的一些特点。
2023 年 NeurIPS 一共录用了 3661 篇论文。不考虑作者人数超过 20 人的论文,作者人数分布情况如下:

其中作者人数小于等于 2 的 "少作者论文" 共有 400 篇。在这 400 篇里,单独一人完成的论文有 33 篇。这个数量看似很小,但考虑到不少双作者论文实际上就是一个学生和导师的合作,所以在 400 篇里应该也有不少事实上的个人论文。
通过统计这些少作者论文的话题分布,得到以下情况:

可以看到,理论类论文占比最高。对于小团队来说,由于无法和大团队的算力相抗衡,转而采取更加非对称的研究方向或许是更明智的选择。此外,RL 和 Social impact 等领域也值得关注,因为这两个方向不太需要太多算力。不过社会影响类的论文领域有些过于小众,除非是专门从事 AI 社会影响 / 公平性 / 伦理等研究的学者,否则可能不太适合小团队。优化理论和学习理论也是不需要太多算力就可以开展的领域。

算法提升

为了超越简单的话题统计,获得一个更全面的印象,我们阅读了 33 篇单作者论文的一部分。初步感觉是,与双作者论文相比,这些论文的选题更集中在理论部分: 大多数论文都集中在提出一种新算法上,这种新算法往往基于一个之前被忽视的关键 insight,比如某种采样算法在高维情况下效率低下,因此可以通过改进纯随机的采样过程来提高算法收敛速度 (比如 Langevin Quasi-Monte Carlo)。

在这些单作者论文中,也有纯理论建模的工作,比如 Moral Responsibility for AI Systems 和 A Theory of Multimodal Learning。这类论文的特点是,作者往往在该领域已经有过系列论文的积累,新作是整个理论体系的自然延伸。所研究的问题通常是开创性的,缺乏同类论文可资对比。

Neuroscience

神经科学也是这些少作者论文的一个热点领域。在 23 年的单作者论文中,有两篇来自哥伦比亚大学计算神经中心,研究主题是 RNN 训练的加速。过去十年,我们见证了一波深度学习对神经科学的 "入侵":使用神经网络对认知过程建模。但是如今这类研究已落下乘,因为除了 "神经网络的计算方式和生物大脑有些相似" 之外,它们并没有给出更深刻的见解。另一方面,纯粹的深度学习领域在很多任务上已经获得了人类水准甚至超越人类的表现,而不需要借助神经科学。对于科学而言,解释比性能更重要,在这种情况下,一个透明的毛线球并不比一个黑盒好多少。在这种背景下,今年这两篇文章并非传统的认知建模工作,而是聚焦于加速 RNN 训练的算法创新,更应视作理论类论文。

认知科学与符号 AI

自 2022 年底 ChatGPT 问世以来,一些研究者试图复兴符号主义人工智能,或对传统认知算法进行改革。原因很明显:GPT 这样的语言模型提供了一个绝佳的 "粘合剂",可以将各种非结构化数据 (主要是自然语言) 结构化编码,在此基础上,传统符号 AI 时代的认知算法或许能有新的作为。比如据我所知,有人想把认知架构模型 (如 Nars) 与语言模型结合起来; 另一个更实际的例子是知识图谱与语言模型的融合。今年春季,甚至有将语言模型与数学定理证明器结合的工作登上了 Nature。在这次单作者论文中,Human-like Few-Shot Learning via Bayesian Reasoning over Natural Language 也是这方面的一个例子。可以预见,未来一两年内会有更多这类工作出现。在某种程度上,这可视为语言模型时代带来的研究红利: 我们能将不少当年认知科学中的模型重新 release,并利用它们的知名度为新工作带来关注。
不过,我对这类工作始终存有一些怀疑: 在语言模型扮演的 "粘合剂" 角色中,到底有多少性能增益是来自认知算法的创新,而不只是语言模型自身已包含了这类知识? 如果是后者,那这类工作的实际价值就大打折扣,甚至可以说是在 "水文章"。但如果是前者的话,也许这些传统认知算法覆盖的领域将被掀起一场新的革命。

想法

过去两年,各种意义上的大模型扫荡一空,俘获了绝大部分关注,也在表面上使得很多过往的工作显得 "无关紧要"(比如有人问 NLP 已死?)。但是,在 scaling law 的阴霾下,随着模型算力和数据规模双重见顶临近,基座模型的发展将变得越来越无聊。届时留给小团队的空间,未必会缩小,反而可能会扩大。另一方面,在 "传统" 机器学习领域里仍有大量未解决的难题亟待解决。这是当下大模型暂时无法覆盖的地方,也是小团队可以着力的方向。不过这类研究往往要求作者本身在该问题上已有很深的思考积累,因此很难简单靠拼凑创意来 "水文章"。

小团队往往意味着人力和计算资源有限,因此盲目追逐热门话题并不可取,尤其是当新 idea 只是现有方案的自然延伸时。但如果锚定的问题过于小众,以至于领域内同行也未必能意识到其潜在价值,这样的研究同样难以获得关注和发展。从这个角度出发,结合我们浏览过的论文,小团队可以尝试以下几种策略:

  • 挑战某些现有认知,从其他研究者忽视的角度出发,至少在该问题上给出一个更优解。
  • 对一种广泛的算法 / 理论在特定领域的应用进行测试,找出它过于宽泛的假设在该领域不成立的情况,对这些假设加以改进从而提高性能。由于应用场景相对窄小,作者无需大规模实验证明方案的优越性。
  • 保持对理论研究的兴趣。在深度学习中仍有大量有趣但目前无解的难题,这些问题一直存在于每个爱好者心中,只是长期没有突破所以被人忽视了。比如损失函数景观平滑性、对称性等问题。因此,即使是在特定场景下获得的理论进展,只要切中要害也会获得应有的关注。

附录

下表为部分单作者文章阅读总结。注意,其中的工作量标注是主观化而且仅针对 empirical results 的,所以存在部分理论为主工作“实验工作量”很小的情况。

标题 内容总结 实验工作量 (0-10) 备注
Human-like Few-Shot Learning via Bayesian Reasoning over Natural Language 构建了一个增量概念学习的框架 3
On Class Distributions Induced by Nearest Neighbor Graphs for Node Classification of Tabular Data 构建了一个分析 k-NN 在表格数据分类下的无效性和其他图网络表现的理论框架 6 有不少的理论分析,但是我不做 GNN,因此并不熟悉
Bi-Level Offline Policy Optimization with Limited Exploration 为 Offline-RL 构建了一个双层框架,上层负责 policy,下层负责 value。下层能提取 confidence,上层有助于外推 3 主要是理论构建,实验部分不是很多
VaRT: Variational Regression Trees 构建了一个利用变分推断来做决策树学习的框架 2 主要的创新点是把树生成过程看作了一个分布的采样过程,在这个基础上构建了变分推断框架
SLM: A Smoothed First-Order Lagrangian Method for Structured Constrained Nonconvex Optimization 为非凸 FCO 问题提供了一个一阶拉格朗日法 6 主要是理论构建
Unbounded Differentially Private Quantile and Maximum Estimation 提供了一种隐私的分位数估计算法 3
Accessing Higher Dimensions for Unsupervised Word Translation 提出一个无监督高维词语翻译算法 4
A Theory of Multimodal Learning 构建了一个多模态优于单模态学习的理论 1
Langevin Quasi-Monte Carlo 用更加规整的随机采样来提升 LMC 的效率 6
Generalization bounds for neural ordinary differential equations and deep residual networks 联系 ResBlock 和 neurODE,给出了一个 generalization bound 3
Moral Responsibility for AI Systems 给出了基于因果关系的 AI 责任定义 1 好像存在循环定义
Granger Components Analysis: Unsupervised learning of latent temporal dependencies 通过最大化 Granger causality 进行 source separation 5
Gradient Flossing: Improving Gradient Descent through Dynamic Control of Jacobians 通过控制李雅普诺夫指数来使得 RNN 训练变的更加稳定 5 Neuroscience 向
Bottleneck Structure in Learned Features: Low-Dimension vs Regularity Tradeoff 利用提出的新 measure 解释了低维结构和复杂度之间的关系 4
parseProp: Efficient Event-Based Simulation and Training of Sparse Recurrent Spiking Neural Networks 对 BPTT 的过程进行剪枝,降低了训练 SNN 的成本 3 Neuroscience 向
Functional Equivalence and Path Connectivity of Reducible Hyperbolic Tangent Networks 对单隐层网络的功能等价类之间的参数最短距离做了一个构造的证明 4 和很多 permutation symmetry 的文章有关系
Optimal Preconditioning and Fisher Adaptive Langevin Sampling 提出了一种基于费舍尔矩阵的,用于 MCMC 的最优预处理方法 4