![Zde je návod, jak ve skutečnosti funguje Live Caption pro Android 10 - Zprávy Zde je návod, jak ve skutečnosti funguje Live Caption pro Android 10 - Zprávy](https://a.23rdpta.org/news/heres-how-android-10s-live-caption-actually-works.jpg)
Obsah
Živé titulky jsou jednou z nejlepších funkcí systému Android, které pomocí strojového učení na zařízení vytvářejí titulky pro místní videa a webové klipy.
Google zveřejnil blogový příspěvek s podrobným popisem toho, jak tato šikovná funkce funguje, a ve skutečnosti se skládá ze tří modelů strojového učení zařízení pro začátečníky.
Pro samotné rozpoznávání řeči existuje model opakované transdukce sekvencí neuronových sítí (RNN-T), ale Google také používá k předpovídání interpunkce opakující se neuronovou síť.
Třetí model strojového učení na přístroji je konvoluční neuronová síť (CNN) pro zvukové události, jako je švitoření ptáků, tleskání lidí a hudba. Google říká, že tento třetí model strojového učení je odvozen od jeho práce na aplikaci usnadnění přenosu naživo, která dokáže přepisovat řečové a zvukové události.
Snížení dopadu živého titulku
Společnost tvrdí, že přijala řadu opatření ke snížení spotřeby baterií a požadavků na výkon Live Caption.Pro jednoho, plně automatické rozpoznávání řeči (ASR) běží pouze tehdy, když je řeč skutečně detekována, na rozdíl od neustálého běhu na pozadí.
„Pokud je například detekována hudba a ve zvukovém toku není přítomna řeč, na obrazovce se objeví štítek a model ASR bude uvolněn. Model ASR se načte zpět do paměti pouze tehdy, když je ve zvukovém proudu znovu přítomna řeč, “vysvětluje Google ve svém příspěvku na blogu.
Google také použil techniky, jako je ořezávání nervového spojení (snížení velikosti řečového modelu), snížení spotřeby energie o 50% a umožnění nepřetržitého provozu živého titulku.
Google vysvětluje, že výsledky rozpoznávání řeči se aktualizují několikrát každou sekundu, jakmile se vytvoří titulek, ale predikce interpunkce se liší. Vyhledávací gigant říká, že poskytuje predikci interpunkce „na konci textu od naposledy rozpoznané věty“, aby se snížily nároky na zdroje.
Live Caption je nyní k dispozici v řadě Google Pixel 4 a Google říká, že bude k dispozici „brzy“ na řadě Pixel 3 a dalších zařízeních. Společnost tvrdí, že také pracuje na podpoře dalších jazyků a lepší podpoře obsahu s více reproduktory.