用现有的大模型“创作”的文字、图像、视频等“内容”训练大模型,有可能出现“回音室效应”:
以上现象未必适合表述成这问题发布时“成为一个回音壁”的说法。当然,这是不同的人对词语的不同用法,对讨论这个问题来说并不重要。
2023 年初,一些研究人员以预印本报告,让人工智能使用主要由人工智能生成的文本进行训练,会在迭代数次后引起若干内容丢失、文本质量下降,对图像生成人工智能进行类似操作会引起清晰度下降等劣化,乃至让图像完全变形[1]。他们认为这“模型崩溃”现象是普遍存在的。这在欧美网络上暂时引发关于“垃圾进、垃圾出”的热议。有兴趣的读者可以搜索“递归的诅咒(The Curse of Recursion)”看看当时的讨论。
显然,问题不在于内容是人做出来的还是机器生成的,问题是内容的准确性、多样性、可改进性。人做出来的一些东西同样不适合用于训练大模型。
大模型的训练者可以对数据进行人工标注和筛选,滤掉低质、重复、错误的信息。他们可以从不同语言、文化、专业领域定期获取新鲜数据,避免依赖单一来源。他们可以控制在每一代新模型的训练数据中来自上一代模型的数据所占的比例。2024 年,一些研究人员用不太成熟的文章报告说,积累数据而不是用机器生成的数据逐步替换掉旧的训练数据,能够在他们估计的范围内避免“模型崩溃”现象的发生[2]。
将来,大模型输出的内容质量足够高的时候,以上质量问题大概会自动退出历史舞台。