IT之家 4 月 20 日消息,来自 GitHub 的 Lvmin Zhang 与斯坦福大学的 Maneesh Agrawala 合作,共同推出了一项名为 FramePack 的创新技术。该技术通过采用固定长度的时域上下文(fixed-length temporal context)对视频扩散模型(video diffusion)进行了实用化实现,显著提高了处理效率,使得在较低硬件配置下生成更长、更高质量的 AI 视频成为可能。基于 FramePack 架构构建的一个 130 亿参数模型,仅需 6GB 显存即可生成长达 60 秒的视频片段。
Menurut IT Home, FramePack adalah arsitektur jaringan saraf, dan keunggulan intinya adalah menggunakan teknologi pengoptimalan multi-tahap untuk secara efektif mengurangi persyaratan perangkat keras untuk menjalankan tugas pembuatan video AI secara lokal. Dilaporkan bahwa antarmuka pengguna grafis (GUI) FramePack saat ini menjalankan model berbasis Hunyuan yang dibuat khusus, tetapi makalah penelitian juga menunjukkan bahwa model pra-terlatih yang ada juga dapat disesuaikan agar sesuai dengan arsitektur menggunakan teknologi FramePack.
Model difusi video tradisional biasanya perlu memproses semua bingkai berisik yang dihasilkan sebelumnya untuk memprediksi bingkai berikutnya yang kurang berisik saat menghasilkan video. Jumlah bingkai input yang direferensikan dalam proses ini disebut "panjang konteks domain waktu", dan bertambah seiring bertambahnya panjang video. Akibatnya, model difusi video standar memiliki persyaratan yang sangat tinggi untuk memori video (VRAM), seringkali membutuhkan 12GB atau lebih. Meskipun konsumsi memori dapat dikurangi dengan mengurangi panjang video, mengorbankan kualitas gambar, atau meningkatkan waktu pemrosesan, ini bukan solusi yang ideal.
Di situlah FramePack masuk.Arsitektur baru mengompresi bingkai berdasarkan kepentingannya dan menggabungkannya ke dalam panjang konteks ukuran tetap, secara dramatis mengurangi overhead memori GPU。 Semua bingkai input dikompresi untuk memastikan bahwa batas panjang konteks yang telah ditetapkan terpenuhi. Menurut para peneliti, setelah pengoptimalan, biaya komputasi FramePack mirip dengan model difusi gambar.
Selain itu, FramePack menggabungkan teknologi yang mengurangi "drifting" – masalah kualitas video yang menurun seiring panjangnya – untuk mendukung pembuatan konten video yang lebih panjang tanpa mengorbankan kesetiaan secara signifikan.
Dalam hal kompatibilitas perangkat keras,Saat ini, FramePack secara eksplisit memerlukan penggunaan GPU seri NVIDIA RTX 50, 0, atau 0 yang mendukung format data FP0 dan BF0。 Arsitektur Turing dan kartu grafis NVIDIA sebelumnya, serta dukungan perangkat keras AMD dan Intel, belum diverifikasi. Dalam hal sistem operasi, Linux telah dikonfirmasi masuk dalam daftar dukungan. Mempertimbangkan kebutuhan akan memori video 4GB, dengan pengecualian beberapa model seperti RTX 0 0GB, sebagian besar kartu grafis RTX modern di pasaran dapat memenuhi persyaratan pengoperasian.
Dalam hal kinerja, RTX 6, misalnya, dapat menghasilkan sekitar 0,0 frame per detik dengan pengoptimalan teacache diaktifkan. Kecepatan sebenarnya akan bervariasi tergantung pada model kartu grafis pengguna. Perlu disebutkan bahwa FramePack menampilkan gambar bingkai demi bingkai selama proses pembuatan, memberikan umpan balik visual langsung.
Saat ini, model yang digunakan oleh FramePack mungkin memiliki batas atas 30 frame per detik, yang mungkin membatasi kebutuhan beberapa pengguna, tetapi munculnya FramePack tidak diragukan lagi telah membuka jalan bagi konsumen rata-rata untuk membuat video AI dan memberikan alternatif yang layak untuk layanan cloud pihak ketiga yang mahal. Bahkan untuk pembuat konten non-profesional, teknologi ini menyediakan alat yang menarik untuk membuat konten yang menghibur seperti GIF, meme, dan lainnya.