IT之家 4 月 20 日消息,来自 GitHub 的 Lvmin Zhang 与斯坦福大学的 Maneesh Agrawala 合作,共同推出了一项名为 FramePack 的创新技术。该技术通过采用固定长度的时域上下文(fixed-length temporal context)对视频扩散模型(video diffusion)进行了实用化实现,显著提高了处理效率,使得在较低硬件配置下生成更长、更高质量的 AI 视频成为可能。基于 FramePack 架构构建的一个 130 亿参数模型,仅需 6GB 显存即可生成长达 60 秒的视频片段。
По данным IT Home, FramePack — это архитектура нейронной сети, и ее основное преимущество заключается в том, что она использует технологию многоступенчатой оптимизации для эффективного снижения требований к оборудованию для локального выполнения задач генерации видео с помощью искусственного интеллекта. Сообщается, что текущий графический пользовательский интерфейс (GUI) FramePack работает на специально созданной модели на основе Hunyuan, но в исследовательской работе также указывается, что существующие предварительно обученные модели также могут быть точно настроены под архитектуру с использованием технологии FramePack.
Традиционные модели диффузии видео обычно должны обрабатывать все ранее сгенерированные зашумленные кадры, чтобы предсказать следующий менее зашумленный кадр при создании видео. Количество входных кадров, на которые ссылается этот процесс, называется «длиной контекста во временной области», и оно увеличивается по мере увеличения длины видео. В результате стандартные модели диффузии видео предъявляют чрезвычайно высокие требования к видеопамяти (VRAM), часто требуя 12 ГБ и более. Хотя потребление памяти можно уменьшить за счет уменьшения длины видео, жертвования качеством изображения или увеличения времени обработки, это не идеальное решение.
Вот тут-то и приходит на помощь FramePack.Новая архитектура сжимает кадры в зависимости от их важности и агрегирует их в контекст фиксированной длины, значительно снижая нагрузку на память графического процессора。 Все входные кадры сжимаются, чтобы обеспечить соблюдение предустановленного ограничения длины контекста. По словам исследователей, после оптимизации вычислительные затраты FramePack аналогичны стоимости модели диффузии изображения.
Кроме того, FramePack включает в себя технологию, которая смягчает «дрейф» — проблему ухудшения качества видео с увеличением длины — для поддержки создания более длинного видеоконтента без существенного ущерба для точности.
С точки зрения аппаратной совместимости,В настоящее время FramePack явно требует использования графических процессоров NVIDIA RTX серий 50, 0 или 0, поддерживающих форматы данных FP0 и BF0。 Архитектура Turing и более ранние видеокарты NVIDIA, а также аппаратная поддержка AMD и Intel до сих пор не были проверены. Что касается операционных систем, было подтверждено, что Linux находится в списке поддерживаемых. Учитывая потребность в 4 ГБ видеопамяти, за исключением нескольких моделей, таких как RTX 0 0 ГБ, большинство современных видеокарт RTX на рынке могут удовлетворить эксплуатационные требования.
С точки зрения производительности, RTX 6, например, может генерировать со скоростью около 0,0 кадров в секунду с включенной оптимизацией teacache. Фактическая скорость будет варьироваться в зависимости от модели видеокарты пользователя. Стоит отметить, что FramePack отображает изображение кадр за кадром в процессе генерации, обеспечивая немедленную визуальную обратную связь.
В настоящее время модели, используемые FramePack, могут иметь верхний предел в 30 кадров в секунду, что может ограничивать потребности некоторых пользователей, но появление FramePack, несомненно, проложило путь для среднего потребителя к созданию видео с искусственным интеллектом, предоставив жизнеспособную альтернативу дорогим сторонним облачным сервисам. Даже для непрофессиональных создателей контента эта технология предоставляет интересный инструмент для создания развлекательного контента, такого как GIF-файлы, мемы и многое другое.