如何看待 Kaiming He 最新提出的 Fractal Generative Models ?
更新于:2025-03-24 11:57:26

想法很有意思,核心思想是递归地调用生成模型作为模块,构建具有自相似性的生成模型

就是将一个图形不断地进行放大,会发现放大后的图形与原始图形在结构上非常相似。简单地类比,就像雪花一样,是一种典型的分形(Fractal)结构。

作者想法的核心来源是:

  • 生物的神经网络也具有分形或近分形的结构,对这一点我不太确定有多少理论支撑,主要是我比较缺少脑科学的相关知识。
  • 图像可以被看作是由子图像组成的,可以看做具备某种分形特点。这一点我也有些疑惑,感觉支撑力度不是很强,至少不是特别直觉。分形结构的核心特征是自相似性(self-similarity)和尺度不变性(scale invariance),感觉真实的图片这些特性是否足够强,需要某种指标去衡量、验证。

而进一步选用了自回归模型(AR Model)作为分形生成器的具体实现。也就是说用AR模型作为「原子模块」,像俄罗斯套娃一样层层嵌套——高层模型规划图像整体布局,中层细化局部结构,底层最终确定每个像素的细节。

通过这种「分而治之」的策略,模型的计算复杂度大大下降,而且能生成媲美扩散模型的生成质量。

总体来说是个很新颖的点子,大佬的思路就是开阔。激发了我学习更多脑神经科学的兴趣。期待后续的研究提供理论、实验的支撑。