Малко за технологиите за разпознаване на реч, личният блог на Александър Рогачев

Друг сайт от мрежата NOC CLAIM Blogs

Малко за технологиите за разпознаване на реч.

Речевата комуникация е естествена и удобна за човек. Задачата на разпознаването на реч е да премахне посредника в комуникацията между човек и компютър. Управлението на машината с глас в реално време, както и въвеждането на информация чрез човешка реч, значително ще опрости живота на съвременния човек. Задачата на разпознаването на реч е да се научи машина да разбира без посредник езика, на който хората говорят помежду си.

Всички системи за разпознаване на реч могат да бъдат разделени на два класа:

Системи, зависещи от високоговорителя — настройват се към речта на говорещия в процеса на обучение. За да работят с друг високоговорител, такива системи изискват пълна преконфигурация.

Системи, независими от високоговорителя — чиято работа не зависи от високоговорителя. Такива системи не изискват предварително обучение и могат да разпознават речта на всеки говорител.

Първоначално на пазара се появиха системи от първия тип. В тях звуковият образ на командата се съхраняваше под формата на холистичен стандарт. Методите на динамично програмиране бяха използвани за сравняване на неизвестното произношение и стандарта на командата. Тези системи работеха добре при разпознаването на малки набори от 10-30 команди и разбираха само един говорител. За да работят с различен високоговорител, тези системи изискваха пълно преконфигуриране.

За да се разбере непрекъснатата реч, беше необходимо да се премине към речници с много по-големи размери, от няколко десетки до стотици хиляди думи. Методите, използвани в системи от първи вид, не са подходящи за решаване на този проблем, тъй като е просто невъзможно да се създадат стандарти за такъв брой думи.

Освен това имаше желание да се направи система, която не го направив зависимост от говорителя. Това е много трудна задача, тъй като всеки човек има индивидуален начин на произношение: темпото на речта, тембъра на гласа и характеристиките на произношението. Такива различия се наричат променливост на речта. За да се вземе предвид това, бяха предложени нови статистически методи, базирани главно на математическия апарат наскрити модели на Марков (HMM) илиизкуствениневронни мрежи. Най-добри резултати се постигат чрез комбиниране на тези два метода. Вместо да се създават стандарти за всяка дума, се създават стандарти за отделните звуци, съставляващи думите, така наречените акустични модели. Акустичните модели се формират чрез статистическа обработка на големи речеви бази данни, съдържащи записи на реч на стотици хора. В съществуващите системи за разпознаване на реч се използват два фундаментално различни подхода:

Разпознаване на гласови знаци — разпознаване на фрагменти от реч според предварително записан образец. Този подход се използва широко в сравнително прости системи, предназначени да изпълняват предварително записани гласови команди.

Разпознаване на лексикални елементи - избор на най-простите лексикални елементи от речта, като фонеми и алофони. Този подход е подходящ за създаване на системи за текстови диктовки, при които изговорените звуци се преобразуват изцяло в текст.

Създаването на системи за разпознаване на реч е изключително трудна задача. Особено трудно се разпознава българският език, който има много особености. В момента такава програма като "SIRI", широко използвана в продуктите на Apple, е широко известна. Тази разработка е създадена за английски език.

Популярни са и програмите, използвани в търсачките "Google", "Yandex".

Фролов - Синтез игласово разпознаване. Модерни решения