Метрики за сравнение на аудио сигнали, отчитащи характеристиките на човешкия слух, iLab

Метриката и нейното предназначение

Понастоящем, поради бързото развитие на компютърните технологии за обработка на звук, често възниква задачата за автоматично определяне на степента на сходство на музикалните композиции. Тази мярка за степента на сходство се нарича метрика. Висококачествен метричен алгоритъм, който дава адекватен резултат на ухо, е незаменим при кодиране на звук със загуба, при разработване на алгоритми за възстановяване на високи честоти, филтрирани по време на компресия и т.н. Алгоритъмът може да се използва както при разработването на аудио кодек за проверка на качеството на аудио кодирането и сравнение с други подобни кодеци, така и в процеса на кодиране за кодиране в .

Най-простите показатели (амплитуда-време)

Най-простият клас показатели за сравнение на качеството на аудиото е сравнението на формата на аудио вълната. В тази ситуация стойността на сигналите за всяка точка от времето се сравнява. Например, можете да сравните максималното отклонение на амплитудите на сигнала.

, където векторите a и b -

това са стойностите на амплитудата на двата сигнала. Такъв показател ще бъде изключително чувствителен към отделни разлики в амплитудите на сигнала. Друг критерий за оценка може да бъде средното квадратично отклонение на RMS амплитудите на сигнала:

На практика се използва модификация на тази мярка, наречена PSNR (peak-to-peak signal-noise ratio).

, където mA е максималната възможна амплитуда на сигнала

В сравнение с RMS, тази мярка е добра с това, че се изчислява по логаритмична скала по амплитуда (в децибели). Това е важно, защото човешкото ухо също възприема сигнала по логаритмична амплитудна скала и следователно усилването на амплитудата на сигнала с фактор две не означаваза човек, усилвайки силата на звука със същото количество.

Един от недостатъците на тази мярка е високата чувствителност към средната разлика на сигналите в амплитудата, което може да доведе до грешен резултат в случай, че сигналите се различават леко в средната амплитуда. За да контролирате грешки от този вид, можете да използвате този показател заедно с изчисляването на средната интегрална стойност за сравнявани файлове:

;

При сигнали, които имат еднакви средни интегрални стойности, средната амплитуда също съвпада, което означава, че може да се приложи мярката PSNR.

Проблеми, които метриката амплитуда-време не може да реши

Все още има няколко проблема, които правят тази мярка трудна за използване. Ето най-важните:

  1. Човешкото ухо има различна чувствителност към изкривяване в различните части на честотния диапазон, тъй като има различна чувствителност към звук на различни честоти. (Фиг. 1) Човек чува изкривяванията при ниски и средни честоти по-добре, отколкото при високи. Това се дължи на факта, че ухото е адаптирано предимно за възприемане на реч, чийто основен честотен диапазон е в областта 50-5000 Hz.
  2. Човек чува звуци по същия начин, чиято форма на вълната може да варира значително. Например бял шум ще бъде чут от едно и също лице, независимо от формата на сигнала, съдържащ бял шум.

Метриката PSNR не може да вземе предвид различната чувствителност на ухото в различни честотни ленти и при сравняване на два различни сигнала с бял шум е вероятно да се заключи, че те са напълно различни.

Времево-честотни метрики и психоакустика

Качествено различен метод за сравнение е сравнението на спектрограми, изградени от входния сигнал. За да получите този показателвходните сигнали първо се покриват последователно на малки интервали с известна времева стъпка dt. Във всеки от тези интервали сигналът се разширява в ред на Фурие, след което се изгражда спектър (без да се отчитат фазите на честотните компоненти). Получените спектри се записват в двумерен масив (време, честота) – спектрограма (фиг. 3).

Амплитудите на стойностите на спектрограмата във всяка конкретна област също са представени в логаритмична скала.

Възможно е да се изгради подобна на PSNR метрика за сравняване на получените масиви от двумерни спектрограми.

Предимствата на този показател пред описания по-горе ще бъдат, че е възможно да се сравняват стойностите на сигнала, според данните за възприемането на определен честотен компонент от човек. Тоест да направим сравнение по формулата:

Sa, Sb - двумерни масиви от амплитуди на спектрограми на два входни сигнала a и b.

където коефициентът a зависи от чувствителността на ухото в дадена j-та честотна лента, стойностите за които са получени експериментално и са подобни на стойността на фиг. 1.

Функцията, изобразена на фигура 1, може да бъде приблизително изчислена, както следва:

За този метод, както и за амплитудно-времевия PSNR, също е необходимо сигналите да съдържат еднаква енергия, тоест стандартното отклонение в спектрите за целия аудио сигнал трябва да бъде минимално. В сравнение с обикновената метрика PSNR, тази мярка практически решава проблема със сравняването на сигнали с различни амплитуди и отчита неравномерната чувствителност на ухото към различни честотни компоненти.

За да тествате качеството на компресия на аудио кодеци, е по-правилно да използвате модификация на този метод: Няколко честотни ленти се изрязват последователно от спектрограмата истандартно отклонение.

Честотните ленти са избрани с различни ширини, т.к има повече значима информация за човешкото ухо в района на един килохерц, отколкото в района на двадесет килохерца, следователно лентите в нискочестотния регион се приемат по-тесни, отколкото във високочестотния регион.

Предимството на този метод е, че е възможно да се сравняват аудио сигнали, обработени от нискочестотен филтър, за да се намали количеството кодирана информация. В този случай такива сигнали могат да се сравняват само по честотните ленти, които кодекът е съхранил. Също така в този случай не е необходимо кодекът правилно да съхранява енергия в цялото честотно пространство. Ако енергията на сигнала е правилно съхранена в честотната лента, ще бъде възможно да се изчисли правилно средната звукова разлика в тази лента. На фиг. 4 показва неправилно енергоспестяване както в областта на средната честота, така и в областта на високата честота. При средни честоти вторият сигнал има по-голяма мощност от първия, а при високи честоти сигналът, напротив, се филтрира.

Един от недостатъците е ниската резолюция както по честота, така и по време.

В международния стандарт ISO / R-226 (следните стойности на праговете на слуха се приемат като стандартни (високоговорителят е поставен в свободно поле по оста, слушатели на възраст 18:30):

Въпреки това, за да се изгради качествена мярка, адекватна на човешкото възприятие на звука, не е достатъчно да се използва само знание за неравномерната чувствителност на ухото към различни честотни компоненти в звука. Необходимо е също така да се вземат предвид следните факти, получени експериментално:

  1. Динамичният диапазон на звуците, възприемани от човек от най-тихия до най-силния, е около 96 dB.
  2. Човекът умее да различава0,3% промяна на честотата при 1000 Hz.
  3. Два хармоника, които са на близки честоти, могат да се слеят в един.
  4. честотно маскиране. По-силният звук маскира по-тихите звукови компоненти, които са близки по честота.
  5. временно маскиране. Преди и след остра звукова атака човек не е в състояние да различи звуците в детайли.

Маскиране на честота и време.

Понастоящем използването на ефекта на слухово маскиране е един от най-широко използваните начини за допълнително намаляване на аудио информацията. Този ефект не се отнася до особеностите на ухото, а до особеностите на структурата на човешкия мозък.

Маскиране на честотата:

Да предположим, че има определен тон, на фона на този тон няма да се чуят други звуци, които са близки по честота. Фигура 5 показва зависимостите на степента на маскиране на различни тонове с честоти 500 Hz, 1000, 2000 и 4000 съответно в точки a, b, c и d.

Може да се види, че маскиращият тон скрива по-високите честоти по-добре от естествената си честота.

Маскиране на времето:

Ако има интензивен маскиращ сигнал, тогава малко преди да започне да звучи и известно време след като спре да звучи, човекът не може да улови някои сигнали. Връзката между нивото на маскиращия сигнал и нивото на сигнала, който може да бъде маскиран, е нелинейна; По този начин експериментално е установено, че увеличаването на амплитудата на маскиращия сигнал с 10 dB прави възможно увеличаването на прага на маскиране само с 3 dB. Продължителността на маскиращия сигнал влияе върху степента на маскиране главно само за сигнали, идващи преди маскиращия, и като цяло сигналът, предшестващ маскиращия, се маскира по-добре от този след него.

Схема на работа на метриката с помощта на психоакустика.

INВ резултат на горния анализ на входния сигнал е възможно да се изгради карта на приемливите психоакустични прагове, в рамките на които промяната в сигнала няма да бъде забелязана от обикновения човек. Съответно, когато се сравняват сигналите един с друг, вече не е необходимо директно да се сравнява отклонението на един сигнал от друг (или разликите в техните спектрограми), а данните за допустимите психоакустични прагове в дадена точка на спектрограмата с данни за разликата между стойностите на спектрограмата на един файл от друг. Психоакустичните прагове могат да бъдат получени с по-ниска честотна разделителна способност чрез разделяне на цялото честотно пространство на оригиналния сигнал (Фигура 7.a) на няколко ленти, според тяхното значение за човешкото възприятие. В резултат на това е възможно да се получи двуизмерен масив от региони dT*dF с прагове P(dT,dF), показан на фиг. 7.c. Чрез подобно разделяне на сигналите на честотни ленти може да се получи средното отклонение между сигналите в областта dT*dF:

;

Полученият масив за сигнали 5.a и 5.b за всички dT и dF е показан на фигура 7.d. Следващата стъпка е да вземете съотношението Dmean(dT,dF)/P(dT,dF) за всички области dT*dF, което води до масив, илюстриращ степента на разлика между втория сигнал и първия на ухо (Фигура 7.e). Последващото осредняване на получените стойности във времето дава възможност да се оцени степента, в която сигналите в дадена честотна лента се различават на слух при наличието на всички други честотни компоненти.

; където T е броят на времевите стъпки.

От всичко по-горе, този показател дава резултат, който е най-близък до субективното сравнение на звуци от човек.

По този начин в момента има редица подходи за автоматизиране на сравнението на качеството на звука на звукови фрагменти, сред коитокои показатели могат да бъдат разграничени с помощта на карта на психоакустичния праг. Все още обаче не съществува модел, който точно да отговаря на всички нюанси на човешкото възприятие.