Формантен синтез

Съдържание

Формантен синтез

Има много методи за реализиране на синтез на формантна реч. Всички те се основават на подробно познаване на фонемите и фонетичната дисекция на речта и се основават на две основни концепции: лингвистични - фонеми и акустични - форманти.

Фонемата е основната единица на звуковия състав на езика. Звуковият състав на различните езици има свои собствени характеристики. В българския език има 41 фонеми, от които 6 гласни и 35 съгласни (на английски - 20 гласни и 24 съгласни, на френски - 15 гласни и 20 съгласни). Можем да кажем, че фонемата е най-малката езикова единица, която има семантична разлика. Думите са изградени от поредица от фонеми. Значението на твърдението се изразява чрез верига от думи.

Формантитесе разбират като честотни резонанси (полюси на предавателна функция) на речева акустична система. Параметрите на форманта (честота, ширина, ниво) се определят от акустичните свойства на системата. Най-важният параметър, формантната честота, е тясно свързан с геометричната конфигурация на гласовия тракт. Тъй като конфигурацията на гласовия тракт се променя по време на речта, формантните честоти се променят съответно (фиг. 8.9).

Ориз. 8.9 - Пример за честотен спектър на речта

Задоволителният синтез на реч обикновено изисква две до четири формантни честоти. Те са в диапазона от 200 (първият формант на мъжкия глас) до 2000 Hz (третият формант на женския глас) [23]. Точното местоположение на формантните честоти в звуковия спектър определя звука, който интерпретираме като реч. Освен това всички формантни честоти присъстват в речта едновременно и непрекъснато се движат нагоре и надолу по честотния спектър в съответствие схарактеристики на изговорената дума. Следователно, когато слушате говорещ човек, вие чувате звука не на една отделна честота, а на много обертонове, които се формират чрез филтриране на импулсите, генерирани на изхода на гласовия тракт.

И така, формантният синтез се основава на аналогия с модела на човешката реч. Помислете за образуването на гласни звуци върху модела (фиг. 8.10).

Ориз. 8.10 - Модел на производство на реч

Източникът на възбуждане създава импулси на основния тон, чиято честота на повторение непрекъснато се променя в процеса на формиране на речта. Гласовият тракт по време на образуването на гласни работи като набор от резонатори, в които се филтрира възбуждащият сигнал. В резултат на това се формира спектрален модел, съдържащ редица максимуми. Максимумите съответстват на резонансите на тракта (това са формантите). По този начин формантите са определена честотна област на концентрация на енергия в звуковия спектър. Използват се от два до шест форманта в зависимост от необходимата точност на анализа на речта. Общият изходен сигнал на формантните филтри (резонатори) съответства достатъчно близо на честотния спектър на човешката реч и нашият слух го възприема като речево съобщение.

Ето таблица с честоти на форманти за някои гласни фонеми.

Чрез едновременно генериране на формантни честоти , , съгласно таблица 8.1, могат да се получат гласни звуци.

Блоковата схема на формантния синтезатор на гласни е показана на фиг. 8.11.

Блоковата диаграма на форматния синтезатор на гласни звуци включва главен тон честотен генератор, лентови филтри, настройващи се на формантни честоти, съответстващи на синтезираната фонема с помощта на променливи резистори - и суматор, който сумира сигналите от три филтъра. В спектрограмата на изходния сигналТази схема съдържа три формантни честоти, които са идентични с формантните честоти в речевата спектрограма на човек, произнасящ същите гласни.

Ориз. 8.11 - Структурна схема на формантен синтезатор на гласни

Много по-трудно е образуването на съгласни. Съгласни - звуци на речта, при произнасянето на които в устната кухина се образуват бариери за издишания въздух:

- експлозивен - с пълно затваряне на органите на речта (n, t, k);

- фрикативен - образува се празнина (s, f, x);

- носови съгласни (n, m);

- африката - съгласен звук, представляващ непрекъсната комбинация (h-tsh, c-ts).

За разширяване на обхвата на синтезатора (фиг. 8.11) е необходимо да се въведе източник на шум за образуване на експлозивни и фрикативни съгласни, както и аналог на носната резонансна кухина, симулиращ носови съгласни. Структурата на този разширен формантен синтезатор е показана на фиг. 8.12.

Структурата на пълен синтезатор на формантна реч (фиг. 8.12) не е много сложна в сравнение със синтезатора на гласни. Значително се увеличи броят на корекциите в схемата. Три от тях служат за контрол на амплитудата на фрикативи, гласни и носови звуци, един за регулиране на височината, а останалите пет за контрол на честотите на различни резонанси. Използвайки микропроцесор с подходящ брой входно-изходни портове като регулаторно управляващо устройство, ще получим устройство, способно да прави всички необходими настройки със скорост, достатъчна за приемливо приближение до нормалната човешка реч.

Ориз. 8.12 - Структурна схема на синтезатор на формантна реч

Естествено, колкото повече извиквания към таблицата за търсене ще бъдат направени от микропроцесора за всяка фонема, толкова по-голяма е плавносттасинтетичната реч ще бъде различна и колкото по-близо ще бъде до естествената човешка реч.

Предимството на метода за синтез на форманти е неговата гъвкавост (т.е. възможността да имате неограничен речник), тъй като тук речта се създава от отделно генерирани звуци. Чрез правилното поставяне на звуците можете да произнесете всяка дума.

Тази гъвкавост обаче не се дава безплатно - трябва да платите за нея с влошаване на разбираемостта на речта. Без подходящо обучение е трудно да разберете какво казва синтезаторът.

Допълнителни затруднения при внедряването на голям речник създават множеството съществуващи изключения от правилата за писане и произнасяне на думи. Ако анализираме една и съща фонема, срещаща се в различни думи, тогава може да има няколко опции за произношение за тази фонема. Вариациите на произнесените фонеми се наричат алофони. Алофоните се делят на комбинаторни и позиционни. Комбинаторните нюанси се дължат на близостта на дадена фонема до други фонеми и са резултат от налагането на един звук върху друг. Позиционните нюанси се определят от позицията на фонемата в дума или фраза по отношение на ударената сричка, края и началото на думата и т.н.

Отчитането на всички фактори ни позволява да оценим общия брой алофони, необходими за качествен синтез на българска реч. Общият брой алофони на гласни и съгласни.

Друг клас лингвистични понятия, чието разглеждане е изключително важно при създаването на системи за синтез на реч, са интонацията и ударението. Физически, интонацията и ударението се изпълняват от набор от акустични средства (просодия), които включват:

1) мелодия (движение на честотата на основния тон на гласа);

2) ритъм (текуща промяна в продължителността на звуците и паузите);

3) енергия (текуща промяна в интензитета на звука).

Етапът на преобразуване на печатен текст в последователност от фонеми трябва да бъде придружен от извличане на информация, необходима за задаване на прозодичните характеристики на синтезираните речеви сигнали.

За целта текстът се анализира и по определени правила се разделя на основни единици: фраза, синтагма, акцентна група, фонетична дума.

Тези единици са маркирани съответно с фразови, синтагматични, групови и вербални ударения. На всяка синтагма се задава един от възможните типове интонация. Това е пълнота, непълнота, въпрос или възклицание.

Под синтагма се разбира дума (или група от думи), която е цялостна синтактична интонационно-семантична единица.

По този начин маркираният правописен текст се използва като входна информация на текстово съобщение, т.е. обикновен правописен текст с признаци на словесно, синтагматично и фразово ударение.