Kína válasza az OpenAI fejlesztésére: a Vidu

A Shengshu Technology és a Tsinghua Egyetem bemutatta a Vidu-t, amely Kína válasza az OpenAI által kifejlesztett Sorára, és képes szövegből videót generálni.

A Vidu mesterséges intelligencia alkalmazás egyetlen kattintással 16 másodperces videókat képes előállítani 1080p felbontásban, amelyek rövidebbek az OpenAI Sora 60 másodperces videóinál. A fejlesztés kifejezetten az ázsiai piacra összpontosít, így a kínai írásjeleket is érti.

A rendszer a Universal Vision Transformer (U-ViT) nevű, saját fejlesztésű vizuális transzformációs modellre épül, amely képes valósághű videók létrehozására dinamikus kameramozgással, részletes arckifejezésekkel, valamint természetes megvilágítással és árnyékokkal.

Zhu Jun, a Shengshu vezető tudósa és a Tsinghua MI Intézetének dékánhelyettese a bemutatón kiemelte, hogy bár a Vidu bemutatása szerepelt az ütemtervükben, az OpenAI Sora projektjének leleplezése további motivációt adott a csapat számára.