ЗАВИСИМОСТ ОТ ГОВОРЕЩИЯ СУБЕКТ (ГОВОРЕЩИЯ) Системите за разпознаване на реч се различават по няколко начина.
Системите за разпознаване на реч се различават по няколко параметъра. Зависимостта от говорещия се определя от степента, в която системата използва данни за характеристиките на гласа на конкретно лице, работещо с тази система (или група хора). Системи, които зависят от говорещия (системи, зависими от субекта), разпознават речта само на този човек, чиито речеви стандарти се съдържат в системата. Повечето съвременни системи за разпознаване на реч са субектно-зависими. Системите, независими от говорещия („независими от субекта“) са теоретично способни да разпознават реч, произнесена от всяко лице на определен език. Темно-зависимото разпознаване на реч все още е възможно за малки речникови набори от 10–20 речеви фрагмента. На практика точността на разпознаването зависи от сходството на характеристиките на речта на група хора, използващи дадена система за разпознаване. Така наречените субектно-независими системи могат също да се нарекат системи за разпознаване с групова зависимост от потребителите. Колкото по-ниска е променливостта на характеристиките в група говорители, толкова по-висока е средната точност на разпознаване за група потребители на системата. Например речта, произнесена с чужд акцент, се разпознава по-малко надеждно от речта, произнесена с акцент, приложено към
Таблица 3.1. Нива на езикова вариативност
Езиково ниво Пример
Езиково семейство Романско езиково семейство
Отделен език френски
Диалектен парижки френски
Езикови особености Реч на определена жена
разглеждане на гневна жалба за грешка във фактура
за които е проектирана тази система. Освен това на практика системите, независими от субект, са трудни заразличава речта на мъжа от речта на жената. Например, независима от субекта система, предназначена да разпознава само мъжка или само женска реч, ще осигури по-висока точност на разпознаване от система, предназначена да разпознава мъжка и женска реч.
Подобни езикови характеристики могат да бъдат групирани според различни критерии, като пол, акцент или диалект.
Сегашната практика за разделяне на системите за разпознаване на субектно-зависими и субектно-независими значително стеснява възможния обхват на променливост на разпознаваемата реч. Дори системите, зависими от високоговорителя, са в състояние да разпознаят речта на хора, които не са регистрирани в системата, но точността на разпознаването ще бъде ниска. Разликите между субектно-зависимите и субектно-независимите системи се основават главно на инженерната стратегия за определяне на стандарти (шаблони). Този подход създава погрешна представа за обхвата на променливостта на речта и факторите, които я определят: местен акцент, поле на говорене, стрес или натоварване, страх и т.н. Двата основни проблема при създаването на системи за разпознаване на реч са отчитането на променливостта на човешката реч и големия обем на речника. Напредъкът в тези области ще зависи от фундаменталните изследвания в лингвистиката на всички нива на езиковата структура.
Друг параметър на системите за разпознаване е тоналността на речта, т.е. начинът, по който фрагментите от речта се съобщават на системата. Най-често срещаните системи с разделно произношение на думите. В такива системи потребителят трябва да направи кратка пауза (
100 ms) между елементите на изречената дума. Други видове системи са способни да разпознават думи в рамките на цялостен фрагмент от речта, в който думите не са разделени от изкуствена пауза. Въпреки това отделни думисе произнасят в същия интонационен стил, сякаш се четат от списък. Терминът "разпознаване на непрекъсната реч" често се използва, когато говорим за разпознаване на фрагменти от реч без изкуствени паузи между думите. В тази глава терминът "разпознаване на непрекъсната реч" се използва за обозначаване на разпознаването на фрагменти от реч, произнесени в естествен речеви ритъм с естествена интонация (просодия). Разглежданият термин добавя още един параметър към задачата за разпознаване. Използва се за обозначаване на системи, които се опитват да изпълняват задачи правилно, използвайки непрекъснато въвеждане на реч. Мярката за успеха на такива системи е по-скоро точността на отговора, отколкото точността на разпознаване на думи или точността на разпознаване на съобщения. Опростено, такива системи могат да се нарекат системи, които разбират какво им се казва и придават значение на съобщенията, които получават.
Третият параметър е обемът на речника (лексика). Системите за разпознаване на реч с фиксиран речник трябва да съхраняват проби от думи и фрази, които да бъдат разпознати. В същото време автоматичните системи извършват "акустично" съпоставяне на шаблони на ниво думи и фрази и обикновено техните речници съдържат 100-200 фрагмента от речта. За системи за разпознаване с неограничен брой речници се разработват алгоритми, които анализират речта на ниво фонетични сегменти, определят изговорени думи и евентуално генерират текст с правилен правопис.