Megdöbbentően jó a Google új gépi hangja

2017.12.28. 10:06

Szinte megkülönböztethetetlen a valódi beszédtől a végeredmény.

Ugyan az elmúlt években különösen nagy fejlődésen ment keresztül a számítógép által generált beszéd minősége, ám a Google most a riválisoknak alaposan odapirítva bemutatta a második generációs hangképző technológiáját. A rendszer szinte teljesen tökéletesen képes utánozni annak a személynek a beszédét, akinek a hangmintáival betanították, bár egyelőre csak papírról felolvasós stílusban.

Forrás: Dreamstime

A Tacotron 2 érdekessége, hogy két különálló neurális hálózat segítségével működik. Az egyik rendszer leképezi a bemenetként megadott szöveg spektrogramját, majd átadja a Wavenet nevű másik rendszernek, amely az adatok használatával legenerálja a végleges beszédet.

A rendszer talán legnagyobb fegyvere, hogy angol nyelven a szövegkörnyezet elemzésének, továbbá az írásjelek megértésének köszönhetően igazán remekül tud hangsúlyozni.

Ezen a weblapon meghallgatható néhány a rendszerrel generált példamondat, a legutolsó „Tacotron 2 or Human?" részben pedig összehasonlítható a számítógép által generált beszéd, és a gépi hang alapját adó személy beszéde. Fentről lefelé a második, az első, az első, és a második a gépi verzió.

TOVÁBBI CIKKEK A ROVATBÓL

Ha szeretne még több érdekes techhírt olvasni, akkor kövesse az Origo Techbázis Facebook-oldalát, kattintson ide!