能否推荐几个比较有研究价值的slam方向?
更新于:2025-04-06 00:07:33
有一次我在面试的时候聊到过这个事。
在长周期上看,整套估计理论都是受AI影响的。slam里大部分地方用的贝叶斯估计理论,都是假设了“物体的先验分布难以描述”,所以p(x|y) = p(y|x) (px) / p(y)。然后又假设了物体的概率由高斯分布来刻画,然后我们才能推导各类均值、协方差应该怎么变化,怎么估计。我们现在为什么要用卡尔曼滤波器,为什么要用图优化,根本原因就是缺少处理复杂分布的数学工具:
- 我们目前数学工具只能有效的处理高斯分布的噪声。更复杂的分布没法用简洁的理论来刻画,非线性的系统只能用线性化方式,当作局部线性系统来处理,所以有了各种滤波器;
- 如果考虑更高阶的参数,比如三、四阶的噪声参数或者二阶以上的线性化,整个数学理论就变得丑陋无比。同时,很难让人相信,真实世界的噪声真有那些高阶的噪声项。
所以现在整套估计理论是在局部线性化系统里做文章的。可是做了再多的文章,真实的世界的噪声就是高斯分布吗?真实世界的状态量就是一个均值和一个协方差能刻画的吗?这是极大的疑问。我们并没有足够地尊重事物的复杂性。人类的语言是一个高斯分布吗?图像是高斯分布吗?点云是高斯分布吗?如果它们不是高斯分布,我们有没有更好的数学工具来处理它们?
AI的经验告诉我们:
- 人类对复杂事物总结出来的经验是不靠谱的。不管是通过简化(比如将系统线性化处理,比如各类经验公式,比如各类补偿项,比如点云算法里的点线面近似),还是通过更加主观、玄学的方式(围棋的定式,语言的语法,或者将复杂过程人为分成step by step的处理方式),它们都不能更好的处理事物的复杂性,最终只能得到一个勉强可用的,不够自然的方案。长远看来,这些方法都是要被淘汰掉的。在点云、图像里提线条,本质上和NLP早期对句子分析主谓宾是一样的。所以最终搞出语言模型的不是语法学家,不是去分析每个句子的主谓宾,搞出图像模型的也不是去比每个像素的大小和数值,而是一百亿个无名参数,它们才能产生自然的语言和图像。
- 人类真正能够描述复杂事物的理论并不存在。人类的数学是追求简洁的,所以人类能够看懂,能够推动的公式都只在一页范围以内,否则我们可怜的大脑就要超载了。但谁来保证现实的事物就真的能用几个参数来描述呢?为什么它们的规律需要让人类能够看懂和理解呢?如果它们真的是几十亿的参数来描述的分布,我们又有什么数学工具能够处理它们呢?
- 现实当中的图像、文字、点云,乃至算法、程序,实际都是和自然数集一一对应的东西。一个图像可以根据颜色表和像素位置转换成一个自然数(只是很大),一个程序exe文件实际上是一个二进制数,也可以转换成对应的自然数(也很大)。反过来,给定一个自然数,也可以生成对应的图像、点云、程序、算法。我们有没有能够真正描述一个落在自然数集上的复杂分布的能力?通过AI,我们能够判定这个自然数有哪些性质,这个图片有什么内容,它们的分布如何,它们在时间上的关系是怎样的。这些事情在以往的估计理论里都是假设成无法做到的,所以才需要各种局部的近似。现在AI能够大体告诉你p(x)是什么,或者p(x+1|x)是什么,那么估计理论是不是也应该有所变化?
所以长远看来,slam为什么要“建”图?如果“图”本身是可以被刻画的,为什么不是我通过一些给定的数据来“选”图?文字层面可以先写一段,然后让机器再补一段。那建图为什么不能是先给一堆图片,再补上其他的图片?能不能是先给一部分点云,让机器补上另一堆点云?用点云生成点云的过程,可以叫他“建图”,是不是和文字生成文字,或者图像生成图像是一样的?
以上纯属脑洞,比较发散,欢迎讨论。