Разпознаване на реч на базата на изкуствени невронни мрежи, Статия в сборника на международните научни

статия

Рубрика: 1. Информатика и кибернетика

Библиографско описание:

Създаването на естествени средства за комуникация с компютър за човек в момента е най-важната задача на съвременната наука, докато говорното въвеждане на информация се извършва по най-удобния за потребителя начин. Развитието на технологията за разпознаване на реч учените започнаха с разработването на техника за подчертаване на информативни характеристики, които описват речев сигнал. След това започнахме да решаваме проблема с класифицирането на речеви сигнали по набори от информативни характеристики.

Съществуват следните подходи за избор на информативни характеристики, които описват речевия сигнал:

метод на линейно прогнозиране;

Спектралният анализ се различава от линейното предсказване по това, че оценките на средния шум се изваждат от спектъра, изчислен от шумните данни.

Най-често използваните два подхода за класификация и разпознаване:

мярка за близостта на параметрите (такава функция се нарича метрика);

Вторият подход не използва спомагателни функции, а моделира процеса на разпознаване в биологичните системи. Този подход изглежда по-обещаващ в момента.

Има две основни подсистеми в системите за разпознаване на реч:

подсистема за предварителна обработка на речеви сигнали;

подсистема за класифициране на речеви сигнали.

На фиг. 1 е показана схема за предварителна обработка на речеви сигнали. Тази статия представя модел за разпознаване на реч, базиран на изкуствени невронни мрежи.

Ориз. 1 - Диаграма на предварителната обработка на речеви сигналиМодел за разпознаване на реч, базиран наизкуствени невронни мрежи

Нека говорният сигнал е входът на невронната мрежа. След обработката на аудио данните се получава масив от сегменти на сигнала. Всеки сегмент съответства на набор от числа, характеризиращи амплитудните спектри на сигнала. За да се подготвите за изчислението на изходния сигнал на невронната мрежа, е необходимо да запишете всички набори от числа в таблица, чийто ред е наборът от числа на всеки кадър.

Таблица 1 - Описание на набора от характеристики на речевия сигнал

I– Брой стойности на един набор от числа

N– Брой набори от числа (сигнална рамка след нарязване)

Броят на входните и изходните неврони е известен. Всеки от входните неврони съответства на един набор от числа. И на изходния слой има само един неврон, чийто изход съответства на желаната стойност за разпознаване на сигнала.

невронни
Фиг. 1 - Структура на невронна мрежа с една обратна връзка

Къде е i -тата входна стойност на q -тия набор от числа;

е изходът на неврона на j-тия слой;

е тегловният коефициент на връзката, свързваща i-тия неврон с j-тия неврон;

е коефициентът на тегло на обратната връзка на j-тия неврон;

е изместването на неврона на j-тия слой.

За да изчислите изхода на невронна мрежа, трябва да изпълните следните последователни стъпки:

Стъпка 1: Инициирайте всички контексти на всички неврони на скрития слой.

Стъпка 2: Подайте първия набор от числа към входа на невронната мрежа. Изчислете резултатите от скрития слой за него.

където f (x) е нелинейна функция на активиране.

Стъпка 3: Ако текущият набор от числа не е последният, преминете към стъпка 5, в противен случай преминете към стъпка 4.

Стъпка 4: Запишете изходните данни на невроните в скрития слой в контексти, където. Отидете на стъпка 2 за следващия набор от числа.

Стъпка 5: Изчислете изхода на изходния невронслой.

Нека да разгледаме задача, която се състои в разпознаване на числа от 0 до 9. За да разпознаете едно число, трябва да изградите своя собствена невронна мрежа. И така трябва да се изградят 10 невронни мрежи. Продиктувана е база от 250 думи (числа от 0 до 9) с различни вариации на произношението. Базата данни беше произволно разделена на две равни части - тренировъчни и тестови проби. Когато обучавате невронна мрежа да разпознава едно число, като например 5, желаният изход на тази невронна мрежа трябва да бъде единица за обучаващата извадка с числото 5, а останалите нула.

Обучението на невронната мрежа се извършва чрез последователно представяне на обучителната извадка, с едновременна настройка на теглата по определена процедура, докато грешката на настройката в целия набор достигне приемливо ниско ниво. Функцията за грешка в системата ще бъде изчислена по следната формула:

където N е броят на тренировъчните проби, обработени от невронната мрежа от примери;

– реален изход на невронната мрежа;

е желаният (идеален) изход на невронната мрежа.

За всяка дума от тестовата извадка се изчисляват реални резултати от 10 невронни мрежи за разпознаване на различни числа. Невронната мрежа, която има максимална изходна стойност, е невронната мрежа за разпознаване на дадената дума. И думата, разпозната от невронната мрежа, е резултат от разпознаването.Прилагане на генетични алгоритми за обучение на невронни мрежи

Алгоритъм за обучение на невронна мрежа: изисква се итеративна корекция на матрицата на теглото, като постепенно се намалява грешката в изходните вектори. За да се обучи тази невронна мрежа, не може да се използва алгоритъмът за обратно разпространение и неговите аналози. За първи път през 1989 г. Дейвид Монтана и Лорънс Дейвис използват генетични алгоритми вкато средство за регулиране на теглата на скритите и изходните слоеве за фиксиран набор от връзки.

Помислете как се използват генетични алгоритми за коригиране на теглата на скритите и изходните слоеве. Всяка хромозома (невронна мрежа) е вектор от тегла. Хромозомата се състои от гени, които могат да имат числени стойности. Пригодността съответства на функцията на грешката E .

Популацията е набор от хромозоми (разтвори). Еволюцията на популациите е редуване на поколения, при които хромозомите променят своите характеристики, така че всяка нова популация да се адаптира по най-добрия начин към външната среда.

За генериране на нови популации основните генетични оператори се прилагат към първоначалната популация:

Операторът за избор извършва избор на хромозоми в съответствие със стойностите на тяхната фитнес функция.

Операторът за кръстосване определя прехвърлянето на черти от родители към потомци.

Операторът за мутация е предназначен да поддържа разнообразието от индивиди в популацията.

Операторът на инверсия е, че хромозомата се разделя на две части и след това те се разменят.

Сега, знаейки как да тълкуваме стойностите на гените, нека да преминем към описанието на функционирането на генетичния алгоритъм. Разгледайте схемата на функциониране на генетичния алгоритъм в неговата класическа версия.

Стъпка 1: Започнете начален момент t=0. Генерирайте произволно първоначална популация от индивиди.

Стъпка 2: Изчислете годността на всеки индивид и населението като цяло. Стойността на тази функция определя колко добре индивидът, описан от тази хромозома, е подходящ за решаване на проблема.

Стъпка 3: Изберете един индивид от популацията.

Стъпка 4: С определена вероятност за пресичане изберете второтоиндивид от популацията и произвежда кръстосан оператор на две хромозоми.

Стъпка 5: При определена вероятност за мутация, изпълнете оператора за мутация на новата хромозома.

Стъпка 6: С определена вероятност за инверсия, изпълнете оператора за инверсия върху новата хромозома.

Стъпка 7: Поставете получената хромозома в нова популация.

Стъпка 8: Ако условието за спиране е изпълнено, излезте, в противен случай увеличете номера на текущата епоха t=t+1 и преминете към стъпка 3.

Най-голяма роля за успешното функциониране на алгоритъма играе етапът на подбор на родителските хромозоми на стъпки 3 и 4. Друг важен момент е дефинирането на критериите за спиране.

Компютърно разпознаване и генериране на реч. [Електронен ресурс]. – Режим на достъп:http://speech-text.narod.ru/chap3.html

Стариков, А. Генетични алгоритми – математически апарат. [Електронен ресурс]. – Режим на достъп:http://www.basegroup.ru/library/optimization/ga_math/

Подобни статии

Методиразпознаванереч Статия в Molodoy. »

невроннамрежа,наборчисла,стъпка,говорсигнал,генетиченалгоритъм,предварителнаобработка,моделразпознаванеговор,скритслой,хромозома,линейнопредсказване.

Предварителна обработкаобработкагласовисигнали за системата.

глассигнал, обвивка,предварителна обработкаобработка,сигнал,невроннамрежа, WAV, честотен спектър,обработка на сигналсигнал, амплитуден спектър, бързо преобразуване .

Гласово разпознаване в областта на информационните технологии

Предварителна обработкаобработкагласовисигнали за системата.РазпознаванетоРечта е задачата за класифициране на акустичните модели

Ориз. 1 - СхемапредварителнаобработкаговорсигналиМоделразпознаванеговор на базата на изкуствениневроннимрежи.

Използване на трансформацията на Хилберт-Хуанг за.

Предварителна обработкаобработкагласовисигнали за системата.речсигнал, обвивка,предварителна обработкаобработка,сигнал,невроннамрежа, WAV.

Основни принципи на изграждане на система за синтез наговор

Предварителна обработкаобработкагласовисигнали за системата.

Разпознаванеговор въз основа на изкуствениневроннимрежи. Некаречтасигнал като вход къмневроннамрежа.

Сегментация, намаляване на шума и фонетичен анализ в задачата.

Предварителна обработкаобработкагласовисигнали за системата. краткотрайна енергияречсигнал.

Ключови думи:реч, фонема,модел, единичен спектрален анализ нареч, единична оценка на честотата на тона.

Приложетемоделлинеенпредсказание за анализ.

Един от най-успешнитемодели на акустиченговорсигнал елинейниятмодел, разработен от Phantom.

Тези вокодери използваталгоритмилинейнипредсказания, с помощта на които, когато се анализират в предавателя, се определят.

Математическо моделиране на системи заразпознаване.

Предварителнатаобработка на изображенията е необходима за постигане на максимална точност наразпознаването на системата. Сравнителен анализ наалгоритминевроннимрежа и дървета. Тоест,невроннимрежи, обучени в специфична среда.

Метод на k средни стойности при решаване на проблемаразпознаване на говорещия от.

Отметодите, базирани на изкуствения интелект, често се използваметодътна невроннитемрежи Кохонен.

Аграновски А. В., Леднов Д. А. Теоретични аспекти наалгоритмитеобработка икласификацияговорнисигнали Москва: Издателство за радио и комуникация, 2004 г.