IT之家 4 月 20 日消息,来自 GitHub 的 Lvmin Zhang 与斯坦福大学的 Maneesh Agrawala 合作,共同推出了一项名为 FramePack 的创新技术。该技术通过采用固定长度的时域上下文(fixed-length temporal context)对视频扩散模型(video diffusion)进行了实用化实现,显著提高了处理效率,使得在较低硬件配置下生成更长、更高质量的 AI 视频成为可能。基于 FramePack 架构构建的一个 130 亿参数模型,仅需 6GB 显存即可生成长达 60 秒的视频片段。
Selon IT Home, FramePack est une architecture de réseau neuronal, et son principal avantage est qu’il utilise une technologie d’optimisation en plusieurs étapes pour réduire efficacement les exigences matérielles pour l’exécution locale de tâches de génération de vidéos d’IA. Il est rapporté que l’interface utilisateur graphique (GUI) actuelle de FramePack exécute un modèle personnalisé, basé sur le Hunyuan, mais le document de recherche souligne également que les modèles pré-entraînés existants peuvent également être affinés pour s’adapter à l’architecture à l’aide de la technologie FramePack.
Les modèles de diffusion vidéo traditionnels doivent généralement traiter toutes les images bruyantes précédemment générées pour prédire la prochaine image moins bruyante lors de la génération de la vidéo. Le nombre d’images d’entrée référencées dans ce processus est appelé « longueur de contexte dans le domaine temporel », et il augmente à mesure que la durée de la vidéo augmente. Par conséquent, les modèles de diffusion vidéo standard ont des exigences extrêmement élevées en matière de mémoire vidéo (VRAM), nécessitant souvent 12 Go ou plus. Bien que la consommation de mémoire puisse être réduite en réduisant la longueur de la vidéo, en sacrifiant la qualité de l’image ou en augmentant le temps de traitement, ce n’est pas une solution idéale.
C’est là que FramePack entre en jeu.La nouvelle architecture compresse les trames en fonction de leur importance et les agrège dans une longueur de contexte de taille fixe, ce qui réduit considérablement la surcharge de mémoire GPU。 Toutes les trames d’entrée sont compressées pour s’assurer que la limite de longueur de contexte prédéfinie est respectée. Selon les chercheurs, après optimisation, le coût de calcul de FramePack est similaire à celui d’un modèle de diffusion d’images.
De plus, FramePack intègre une technologie qui atténue la « dérive » (le problème de la dégradation de la qualité vidéo avec la longueur) afin de prendre en charge la génération de contenu vidéo plus long sans sacrifier considérablement la fidélité.
En termes de compatibilité matérielle,Actuellement, FramePack exige explicitement l’utilisation de GPU NVIDIA RTX série 50, 0 ou 0 qui prennent en charge les formats de données FP0 et BF0。 L’architecture Turing et les cartes graphiques NVIDIA antérieures, ainsi que la prise en charge matérielle d’AMD et d’Intel, n’ont pas encore été vérifiées. En termes de systèmes d’exploitation, Linux a été confirmé comme étant sur la liste de support. Compte tenu de la nécessité de disposer de 4 Go de mémoire vidéo, à l’exception de quelques modèles tels que la RTX 0 0 Go, la plupart des cartes graphiques RTX modernes du marché peuvent répondre aux exigences de fonctionnement.
En termes de performances, RTX 6, par exemple, peut générer environ 0,0 images par seconde avec l’optimisation teacache activée. Les vitesses réelles varient en fonction du modèle de carte graphique de l’utilisateur. Il convient de mentionner que FramePack affiche l’image image par image pendant le processus de génération, fournissant un retour visuel immédiat.
Actuellement, les modèles utilisés par FramePack peuvent avoir une limite supérieure de 30 image par seconde, ce qui peut limiter les besoins de certains utilisateurs, mais l’émergence de FramePack a sans aucun doute ouvert la voie au consommateur moyen pour créer des vidéos d’IA, offrant une alternative viable aux services cloud tiers coûteux. Même pour les créateurs de contenu non professionnels, cette technologie fournit un outil intéressant pour créer du contenu divertissant tel que des GIF, des mèmes, etc.