Počítačový převod mluvené češtiny do textové podoby v praxi

1. 3. 2010

Počítačový převod mluvené češtiny do textové podoby v praxi

Alternativa k psaní na klávesnici již bezmála dva roky usnadňuje práci všem, kteří vytvářejí rozsáhlé texty s pomocí NewtonDictate, systému pro rozpoznávání hlasu a přepis lidské řeči do textové podoby v češtině. Vyvinula ho společnost Newton Technologies společně s týmem vědců na Technické univerzitě v Liberci se záměrem, že své primární zákazníky najde zejména v oblasti soudnictví a advokacie, státní správy, zdravotnictví či médií, což se v praxi potvrzuje.

Teprve současný pokrok v oblasti vývoje procesorů a souvisejícího hardwaru však umožňuje plně využívat potenciál systému a významně zvýšit jeho účinnost. Mezi přesností 85 a 90 procent sice na papíře není významný rozdíl, ale v praxi je podstatný. Až přesnost na úrovni 90–95 % totiž povyšuje systém NewtonDictate nad schopnosti profesionální zapisovatelky.

Díky nové generaci procesorů Intel Core se u systému NewtonDictate zkracuje prodleva mezi řečí a jejím zápisem, přičemž není třeba nijak omezovat software. Slovník, který v současnosti obsahuje půl milionu slov a je neustále doplňován, tak může narůst – v případě potřeby – i na dvojnásobek.

Intel Systém pro češtinu je v současné době porovnatelný s ostatními jazyky, ale jeho možnosti dále vzrostou s další generací procesorů, které budou schopné poskytnout ještě vyšší výkon - v ten moment přijde čas pro novou generaci hlasových systémů a technologií.

Dosažení „svatého grálu“ všech výzkumníků v oblasti rozpoznávání řeči, jímž je spolehlivý přepis hovorové řeči, kterou běžně slyšíme kolem nás, se dá podle Petra Heriana očekávat v horizontu 3–5 let. Dosažení tohoto milníku stojí v cestě například podmínka, že při diktování na mikrofon musí mluvčí v současnosti svůj hlas přece jen stylizovat a zřetelně vyslovovat, aby byl přepis úspěšný. V budoucnu se zvýší šance na potlačení všech rušivých prvků prostředí, akustických a fonetických vlivů či nejednoznačného kontextu. Procesory na této dobrodružné cestě objevů určitě sehrají zajímavou roli.

Nedávné úspěchy v rozvoji systémů na rozpoznávání řeči přímo souvisejí s rozvojem výkonu počítačů. Když v roce 1965 zakladatel společnosti Intel Gordon Moore vyslovil tezi (později proslavenou jako tzv. Mooreův zákon), že množství tranzistorů na jednom čipu se zdvojnásobí přibližně každé dva roky, zřejmě netušil, že i po 45 letech bude jeho teorie platit. Úspěšnost systémů, jako je NewtonDictate, a jejich začlenění do běžného života závisí na schopnosti vědců držet stejné tempo inovací jako doposud.

Chronologie významných dat v oboru rozpoznávání řeči a vývoje systému NewtonDictate

1993 Intel Pentium, první procesor pro PC zvládající multimédia, předzvěst dnešních PC
1994 Na Technické univerzitě v Liberci se dává dohromady tým vědců v oboru rozpoznávání řeči
2005 Tým vědců z Liberce představuje první funkční prototyp systému na diktování plynulou řečí v češtině
2006 Společnost Newton Media zahajuje spolupráci s týmem profesora Nouzy
2008 Na Právnické fakultě Masarykovy univerzity v Brně je obhájena první diplomová práce nadiktovaná hlasem.
2008 České soudy testují rozdílné hlasové systémy, NewtonDictate uspěje ve výběrovém řízení
leden 2009 Nasazení 1600 licencí systému NewtonDictate na soudech a státních zastupitelstvích.
leden 2010 Spolehlivost NewtonDictate běžícího na hardwaru s novými procesory se pohybuje nad úrovní 95 %.
2011 Očekávané uvedení nové architektury čipů Sandy Bridge