14. Оценка на качеството на предаване на речта

Тъй като човек като получател на информация е ключов елемент на всяка телекомуникационна система, качеството на сигнала се оценява от неговото субективно възприемане на речта. Основните показатели за качеството на получената реч включват: разбираемост (разбираемост), сила на звука и естественост.

Разбираемостта на речта е определяща характеристика на пътя за предаване на реч, защото ако даден път не осигурява пълна разбираемост на речта, тогава никакви други предимства от него нямат значение - той не може да се използва. За директно определяне на тази качествена характеристика има само един метод - субективни статистически тестове (STS), които изискват голямо количество речеви материали, обработени от кодеци и пътя на предаване, и участието на група експерти (обучени слушатели и говорители). Разработен е косвен обективен количествен метод за определяне на разбираемостта на речта чрез нейната разбираемост.

Силата на речта определя желаното ниво на приеманите сигнали, при което се постига разбираемост (разбираемост) на речта без напрежение на слуховия апарат от приемника. Естествеността на речта оценява способността на системата да възпроизвежда не само смисъла на предаваната реч, но и нейния тембър и индивидуалните характеристики на гласовете на говорещите, т.е. способността да се гарантира разпознаването на говорещия по глас.

Най-често срещаният обективен метод за оценка на качеството на предаване на речта е методът на артикулация. Основава се на оценка на степента на изпълнение на основното изискване за разговорните пътища - осигуряване на разбираемо предаване на речта. Мярката за разбираемост тук е разбираемостта на речевите елементи. Процесът на произнасяне на речеви елементи се нарича артикулация - оттук и името на метода.

За измервания на разбираемостта,специални (артикулационни) таблици на срички, звукосъчетания и думи, отчитащи срещането им в българската реч (има подобни таблици и за други езици). Няма звукови таблици, тъй като звуци, различни от гласни, не се произнасят отделно, а сричкови таблици или таблици за звукови комбинации се използват за измерване на звуковата разбираемост. Нека, например, 1200 срички са били предадени по време на процеса на измерване, 840 от тях са били приети правилно и 360 са били изкривени.Тогава сричковата разбираемост ще бъде S = 840´100/1200 = 70%. От всички видове артикулационни таблици (сричкови, словесни, фразови) първите две намират практическо приложение. В същото време таблиците за сричкова артикулация се считат за основни, тъй като на практика в повечето случаи се взема предвид сричковата разбираемост.

Разбираемостта се измерва експериментално (съгласно ГОСТ 16600-73) с помощта на артикулационен екип - група от обучени слушатели и оратори - млади хора без увреждания на слуха и говора. Ограничаването на влиянието на субективните фактори се постига чрез строго регулиране на артикулационните измервания. Наредбата засяга набирането и обучението на артикулационни екипи, процедурата за провеждане на предаване, записване и проверка на артикулационни таблици и обработка на резултатите от измерването на разбираемостта.

В табл. 14.1 показва градациите на разбираемостта на речта и съответните стойности на разбираемостта. Вербалната разбираемост под 75% се оценява като „прекъсване на връзката“.

Таблица 14.1

Тези данни са получени за широк речник, т.е. при предаване на разнообразна информация. В случаите, когато има обмен на информация с много по-малък обем (т.е. с ограничен речников запас), разбираемостта на речта ще бъде по-добра, отколкото в общия случай при същата разбираемост на речта. Да, за диспечерска комуникация40% сричкова разбираемост вече отговаря на пълна разбираемост на речта, въпреки че като цяло отговаря на задоволителна разбираемост. За предаване в цифри пълната разбираемост се постига при 30% сричкова разбираемост.

Според резултатите от артикулационните тестове за разбираемост се разграничават класовете за качество на гласовите трактове според процента на правилно възприетите речеви елементи: слаби, задоволителни, добри и отлични (Таблица 14.2).

Таблица 14.2

Тип четливост

Качество на гласните пътища, %

При оценка на качеството на кодиране и сравняване на различни кодеци се оценяват разбираемостта на речта и качеството на синтеза (качеството на звука) на речта. В чужбина методът DRT (diagnostic rhyming test) се използва за оценка на разбираемостта на речта. При този метод се избират двойки думи с подобно звучене, които се различават по отделни съгласни в началото на думата (като "точка - това", "кол - гол"), които се произнасят многократно от определен брой говорители, и делът на изкривяванията се оценява въз основа на резултатите от теста. Методът дава възможност да се получи както оценка за разбираемостта на отделните съгласни, така и обща оценка за разбираемостта на речта.

Критерият DAM (диагностична мярка за приемливост) се използва за оценка на качеството на звука. Тестовете се състоят в четене от няколко говорители, мъже и жени, на няколко специално подбрани фрази (12 фонетично балансирани 6-срични изречения), които се чуват на изхода на комуникационния път от редица експертни слушатели, които дават своите оценки по 5-степенна MOS скала (средна субективна оценка или средна оценка на мнения) в съответствие с данните в табл. 14.3. След това резултатите се осредняват. Въпреки че този метод по своята същност е субективен (подобно на SSI), той води до сравняване на различни типове кодеци при провежданетестовете на едни и същи групи говорители и експерти слушатели са доста обективни и практически всички заключения и решения се основават на тях.

Експерименталните субективно-статистически методи за определяне на качествени оценки са прекалено тромави и дават надеждни резултати само при голямо количество обработен речев материал. Ето защо е много важно да се създаде обективен метод за оценка на качеството с по-малко труд и време. Така че при изследването на речеви кодеци (и през последните години тези изследвания се извършват с помощта на компютри) е желателно да се използват обективни (формализирани) критерии за качество, които се отличават с ефективност и не изискват участието на експерти. Съществуващите обективни критерии за качество обаче отразяват слабо свойствата на слуховото възприятие. Следователно критерият за качество, използван за оценка на кодеци от един тип, може да не е правилен за кодеци от друг тип. Например, такъв широко използван критерий като съотношението сигнал-шум на квантуване (SNR), което доста задоволително оценява качеството на неадаптивните, инвариантни към спектъра кодеци, става неправилно при сравняване на адаптивни диференциални речеви кодеци. Това се дължи на разликата в естеството на изкривяванията на сигнала.

Таблица 14.3.

Субективна оценка на качеството на звука на речта

Нивото на възприемане на речевата информация

MOS резултат

Речта не се разбира изцяло или отчасти

Речта е трудна за възприемане

с интензивно внимание

Речта се възприема свободно, но наличието на дефекти е неоспоримо

Речта се разбира свободно

откриването на дефекти е трудно

Речта се разбира напълно

и без изкривяване

В таблица 14.4предоставя обобщение на най-често срещаните методи за кодиране на реч. Тук оценката на различни методи за кодиране е свързана с възприятието на човешката реч, т.е. със средни субективни оценки по скалата MOS.

Таблица 14.4.

PC метод на кодиране

Стандарт / Година на приемане

Цифрова скорост, kbps

Оценка на качеството по скалата MOS

По този начин, с точно квантуване в PCM, шумът може да се счита за стационарен процес с равномерна спектрална плътност на мощността (PSD). В същото време, при адаптивно квантуване, когато стъпката на квантуване се променя в съответствие с дисперсията на нестационарния RS, дисперсията на грешката на квантуване се оказва свързана с нея, т.е. шумът от квантуване също става нестационарен. Обикновено SNR не отчита нито спектралните съотношения на сигнала и шума, нито техния нестационарен характер. При субективно възприятие е важно съотношението не само на дисперсиите, но и на SPD на RS и шума. Следователно оценките на краткосрочните SD PSD и грешките на квантуване трябва да се приемат като основа на обективен критерий, който взема предвид свойствата на слуховото възприятие. Коректността на критерия за качество на предаване се характеризира със съотношението на обективни оценки, изчислени с неговото използване, и субективни оценки на качеството на предаване.

Обективна оценка на качеството на RS може да се извърши както във времевата област, така и в честотната област. Във времевата област критерият за качество е OSShK. В адаптивните говорни кодеци стъпката на квантуване се променя в зависимост от дисперсията на RS, така че дисперсията на грешката на квантуване зависи от дисперсията на RS. При изучаване на такива кодеци са важни стойностите на краткосрочните SNR, изчислени на къси сегменти на RS с продължителност 10,30 ms. Такъв сегментен SNR отчита сегментния характер на слуховото възприемане на речевите елементи.и е най-добрата мярка за изкривяване, при която паузите в RS не се вземат предвид. За да ги игнорирате обаче, те трябва да бъдат открити.

При кодиране с адаптивно предсказване параметрите на предиктора се променят в съответствие с краткосрочната PSD на RS, което налага да се вземе предвид сегментно-спектралният характер на слуховото възприятие във времевия сегмент на RS. Тъй като областта на звуковите честоти е разделена на критични ленти, тогава във всяка от тях съотношението на спектралната мощност на сигнала и грешката на квантуване е оптимално за слухово възприятие. От гледна точка на простотата на изчисленията, продължителността на речевия материал, необходим за анализ (около 3 s, т.е. една или две фрази), както и добра корелация с обективни оценки на качеството, индексът на качеството, базиран на сегмента SNR, може да се счита за много ефективен инструмент при изследването на кодеци от различни типове.

В честотната област критерият за качество е степента на изкривяване на спектралната обвивка. Установено е, че използването на критерия за качество в честотната област е по-съвместимо със субективните оценки, отколкото критериите във времевата област. По този начин, когато се оценява качеството на звука на сигнала в методите за предаване на вокодер, където формата на реализации на речеви сигнали в дискретно време на входа на енкодера xt и изхода на декодера xt * може да се различава значително, основният индикатор е близостта на оценките на PSD xt и x * t. Има много индикатори, които контролират тази близост. По-специално, определението на критерия за качество в честотната област се основава на LPC кепстралното разстояние (CD). (Терминът "цепструм" е въведен в САЩ в началото на 60-те години на миналия век и сега е общоприет за обозначаване на обратното преобразуване на Фурие на логаритъма на спектъра на мощността на сигнала).Спектралното изкривяване като мярка за качество на речта се дефинира тук по отношение на спектралното разстояние между спектъра на входния и изходния сигнал. От своя страна мярката за спектралното разстояние е кепстралното разстояние CD.

Този метод се използва за оценка на качеството на RS в система за линейно прогнозиране. Той се различава леко от субективния MOS метод (коефициентът на корелация между тези методи е около 0,96) - колкото по-голямо е CD кепстралното разстояние, толкова по-нисък е средният MOS резултат на мнение. Тази зависимост е валидна не само за LPC системи, но и за PCM, ADPCM и други системи.