IT之家 4 月 20 日消息,来自 GitHub 的 Lvmin Zhang 与斯坦福大学的 Maneesh Agrawala 合作,共同推出了一项名为 FramePack 的创新技术。该技术通过采用固定长度的时域上下文(fixed-length temporal context)对视频扩散模型(video diffusion)进行了实用化实现,显著提高了处理效率,使得在较低硬件配置下生成更长、更高质量的 AI 视频成为可能。基于 FramePack 架构构建的一个 130 亿参数模型,仅需 6GB 显存即可生成长达 60 秒的视频片段。
وفقا ل IT Home ، فإن FramePack عبارة عن بنية شبكة عصبية ، وتتمثل ميزتها الأساسية في أنها تستخدم تقنية التحسين متعددة المراحل لتقليل متطلبات الأجهزة لتشغيل مهام إنشاء فيديو الذكاء الاصطناعي محليا بشكل فعال. يذكر أن واجهة المستخدم الرسومية الحالية (GUI) ل FramePack تقوم بتشغيل نموذج مخصص قائم على Hunyuan ، لكن الورقة البحثية تشير أيضا إلى أنه يمكن أيضا ضبط النماذج الحالية المدربة مسبقا لتناسب البنية باستخدام تقنية FramePack.
تحتاج نماذج نشر الفيديو التقليدية عادة إلى معالجة جميع الإطارات الصاخبة التي تم إنشاؤها مسبقا للتنبؤ بالإطار التالي الأقل ضوضاء عند إنشاء الفيديو. يطلق على عدد إطارات الإدخال المشار إليها في هذه العملية "طول سياق المجال الزمني" ، وينمو مع زيادة طول الفيديو. نتيجة لذلك ، فإن نماذج نشر الفيديو القياسية لها متطلبات عالية للغاية لذاكرة الفيديو (VRAM) ، وغالبا ما تتطلب 12 جيجابايت أو أكثر. بينما يمكن تقليل استهلاك الذاكرة عن طريق تقليل طول الفيديو أو التضحية بجودة الصورة أو زيادة وقت المعالجة ، فإن هذا ليس حلا مثاليا.
هذا هو المكان الذي يأتي فيه FramePack.تقوم البنية الجديدة بضغط الإطارات بناء على أهميتها وتجميعها في طول سياق ثابت الحجم ، مما يقلل بشكل كبير من النفقات العامة لذاكرة GPU。 يتم ضغط جميع إطارات الإدخال لضمان استيفاء حد طول السياق المحدد مسبقا. وفقا للباحثين ، بعد التحسين ، فإن التكلفة الحسابية ل FramePack مماثلة لتكلفة نموذج نشر الصورة.
بالإضافة إلى ذلك ، يشتمل FramePack على تقنية تخفف من "الانجراف" - مشكلة تدهور جودة الفيديو مع الطول - لدعم إنشاء محتوى فيديو أطول دون التضحية بالدقة بشكل كبير.
من حيث توافق الأجهزة ،حاليا ، يتطلب FramePack صراحة استخدام وحدات معالجة الرسومات من السلسلة NVIDIA RTX 50 أو 0 أو 0 التي تدعم تنسيقات بيانات FP0 و BF0。 لم يتم التحقق بعد من بنية Turing وبطاقات رسومات NVIDIA السابقة ، بالإضافة إلى دعم أجهزة AMD و Intel. فيما يتعلق بأنظمة التشغيل ، تم تأكيد وجود Linux في قائمة الدعم. بالنظر إلى الحاجة إلى ذاكرة فيديو بسعة 4 جيجابايت ، باستثناء عدد قليل من الطرز مثل RTX 0 0 جيجابايت ، يمكن لمعظم بطاقات الرسومات RTX الحديثة في السوق تلبية متطلبات التشغيل.
من حيث الأداء ، يمكن ل RTX 6 ، على سبيل المثال ، إنشاء حوالي 0.0 إطار في الثانية مع تمكين تحسين teacache. ستختلف السرعات الفعلية حسب طراز بطاقة الرسومات الخاصة بالمستخدم. من الجدير بالذكر أن FramePack يعرض الصورة إطارا تلو الآخر أثناء عملية الإنشاء ، مما يوفر ملاحظات مرئية فورية.
حاليا ، قد يكون للنماذج المستخدمة بواسطة FramePack حد أقصى يبلغ 30 إطار في الثانية ، مما قد يحد من احتياجات بعض المستخدمين ، لكن ظهور FramePack قد مهد الطريق بلا شك للمستهلك العادي لإنشاء فيديو الذكاء الاصطناعي وتوفير بديل قابل للتطبيق للخدمات السحابية باهظة الثمن التابعة لجهات خارجية. حتى بالنسبة لمنشئي المحتوى غير المحترفين ، توفر هذه التقنية أداة مثيرة للاهتمام لإنشاء محتوى ترفيهي مثل صور GIF والميمات والمزيد.