A VALL-E 2 beszédgenerátor emberi szintű, de túl veszélyes a nyilvánosságnak

A Microsoft által fejlesztett VALL-E 2 mesterséges intelligencia alapú beszédgenerátor képes néhány másodpercnyi hanganyag felhasználásával meggyőzően reprodukálni az emberi hangokat, azonban a visszaélési kockázatok miatt nem kerül kiadásra.

A Microsoft kutatói által létrehozott VALL-E 2 egy szövegből beszédet előállító generátor, amely "pontos, természetes beszédet képes létrehozni az eredeti beszélő pontos hangján, az emberi teljesítményhez hasonlóan" – állítják a fejlesztők egy arXiv pre-print szerveren közzétett tanulmányban. A VALL-E 2 annyira meggyőző, hogy a kutatók szerint összetéveszthető egy valódi emberrel.

A tanulmány szerint a VALL-E 2 következetesen jó minőségű beszédet szintetizál, még olyan mondatok esetében is, amelyek hagyományosan kihívást jelentenek. A mesterséges intelligencia motor két kulcsfontosságú funkciója, az Ismétléstudatos mintavételezés és a csoportosított kódmodellezés révén éri el ezt a teljesítményt.

Az Ismétléstudatos mintavételezés javítja a szöveg beszéddé alakításának módját, megakadályozva a hangok vagy mondatok végtelen ismétlődését a dekódolási folyamat során. A csoportosított kódmodellezés pedig a hatékonyságot javítja a szekvencia hosszának csökkentésével, gyorsítva ezzel a beszédgenerálás sebességét és kezelni a hosszú hangsorok feldolgozását.

A kutatók a LibriSpeech és a VCTK beszédkönyvtárak hangmintáit használták fel, és az ELLA-V értékelési keretrendszert alkalmazták a VALL-E 2 teljesítményének mérésére. A kutatók szerint a VALL-E 2 az első a maga nemében, amely elérte az emberi paritást a benchmarkokon.

A VALL-E 2 képességei ellenére nem kerül kiadásra a nyilvánosságnak a lehetséges visszaélési kockázatok miatt, ami összhangban van a hangklónozással és a deepfake technológiával kapcsolatos aggodalmakkal. A kutatók szerint az AI beszédtechnológia gyakorlati alkalmazásai a jövőben megjelenhetnek, például oktatásban, szórakoztatásban, újságírásban és más területeken. Hangsúlyozták, hogy ha a modellt általánosítják, akkor olyan protokollt kell tartalmaznia, amely biztosítja a beszélő jóváhagyását a hangja és a szintetizált beszédfelismerő modell használatához.

: arXiv pre-print szerveren megjelent tanulmány