能否推荐几个比较有研究价值的slam方向？

更新于：2025-04-06 00:07:33

有一次我在面试的时候聊到过这个事。

在长周期上看，整套估计理论都是受AI影响的。slam里大部分地方用的贝叶斯估计理论，都是假设了“物体的先验分布难以描述”，所以p(x|y) = p(y|x) (px) / p(y)。然后又假设了物体的概率由高斯分布来刻画，然后我们才能推导各类均值、协方差应该怎么变化，怎么估计。我们现在为什么要用卡尔曼滤波器，为什么要用图优化，根本原因就是缺少处理复杂分布的数学工具：

我们目前数学工具只能有效的处理高斯分布的噪声。更复杂的分布没法用简洁的理论来刻画，非线性的系统只能用线性化方式，当作局部线性系统来处理，所以有了各种滤波器；
如果考虑更高阶的参数，比如三、四阶的噪声参数或者二阶以上的线性化，整个数学理论就变得丑陋无比。同时，很难让人相信，真实世界的噪声真有那些高阶的噪声项。

所以现在整套估计理论是在局部线性化系统里做文章的。可是做了再多的文章，真实的世界的噪声就是高斯分布吗？真实世界的状态量就是一个均值和一个协方差能刻画的吗？这是极大的疑问。我们并没有足够地尊重事物的复杂性。人类的语言是一个高斯分布吗？图像是高斯分布吗？点云是高斯分布吗？如果它们不是高斯分布，我们有没有更好的数学工具来处理它们？

AI的经验告诉我们：

人类对复杂事物总结出来的经验是不靠谱的。不管是通过简化（比如将系统线性化处理，比如各类经验公式，比如各类补偿项，比如点云算法里的点线面近似），还是通过更加主观、玄学的方式（围棋的定式，语言的语法，或者将复杂过程人为分成step by step的处理方式），它们都不能更好的处理事物的复杂性，最终只能得到一个勉强可用的，不够自然的方案。长远看来，这些方法都是要被淘汰掉的。在点云、图像里提线条，本质上和NLP早期对句子分析主谓宾是一样的。所以最终搞出语言模型的不是语法学家，不是去分析每个句子的主谓宾，搞出图像模型的也不是去比每个像素的大小和数值，而是一百亿个无名参数，它们才能产生自然的语言和图像。
人类真正能够描述复杂事物的理论并不存在。人类的数学是追求简洁的，所以人类能够看懂，能够推动的公式都只在一页范围以内，否则我们可怜的大脑就要超载了。但谁来保证现实的事物就真的能用几个参数来描述呢？为什么它们的规律需要让人类能够看懂和理解呢？如果它们真的是几十亿的参数来描述的分布，我们又有什么数学工具能够处理它们呢？
现实当中的图像、文字、点云，乃至算法、程序，实际都是和自然数集一一对应的东西。一个图像可以根据颜色表和像素位置转换成一个自然数（只是很大），一个程序exe文件实际上是一个二进制数，也可以转换成对应的自然数（也很大）。反过来，给定一个自然数，也可以生成对应的图像、点云、程序、算法。我们有没有能够真正描述一个落在自然数集上的复杂分布的能力？通过AI，我们能够判定这个自然数有哪些性质，这个图片有什么内容，它们的分布如何，它们在时间上的关系是怎样的。这些事情在以往的估计理论里都是假设成无法做到的，所以才需要各种局部的近似。现在AI能够大体告诉你p(x)是什么，或者p(x+1|x)是什么，那么估计理论是不是也应该有所变化？

所以长远看来，slam为什么要“建”图？如果“图”本身是可以被刻画的，为什么不是我通过一些给定的数据来“选”图？文字层面可以先写一段，然后让机器再补一段。那建图为什么不能是先给一堆图片，再补上其他的图片？能不能是先给一部分点云，让机器补上另一堆点云？用点云生成点云的过程，可以叫他“建图”，是不是和文字生成文字，或者图像生成图像是一样的？

以上纯属脑洞，比较发散，欢迎讨论。