Интервю с Алексей Лукин, iZotope, ProSound
Интервю с Алексей Лукин, iZotope

Имахме възможност да интервюираме Алексей Лукин. Много хора го познават като основен разработчик на програмата RMAA, а в професионалната среда като водещ разработчик на американската компания iZotope, известна със своите плъгини за обработка на звук iZotope Ozone, iZotope RX.
Кратка информация: Алексей Лукин, кандидат на физико-математическите науки, младши научен сътрудник М. В. Ломоносова, разработчик на алгоритми в iZotope, Inc.
Здравей Алексей! Познаваме се отдавна, почти 10 години. Следим вашата кариера и сме много щастливи за вас. Ще плюем три пъти. Страхотно е да видиш успешна история на признание и търсене на специалист от световна класа, прилагане на научните знания на практика в полза на бизнеса. Кажете ми, моля, накратко: какво правихте, докато учехте в университета? В какви проекти участвахте? За кои фирми?
Благодаря ви за такова смислено представяне, но все още не бих пробвал на „световно ниво“. По-скоро съм специалист "широко известен в тесни кръгове".
Когато влязох в университета, на пазара се появиха първите достъпни компютърни звукови карти, MP3 формат, тракер музика. Компютрите се превръщаха в мултимедия. Спомням си, че тогава много се интересувах от качеството на звука на такива евтини звукови карти. Това подтиква изучаването на цифровата обработка на сигнали и трансформацията на Фурие. Отново и отново вземах назаем от библиотеката книга на Рабинер и Голд, излагаща съответната теория. За съжаление в нашия факултет малко хора се занимават с изучаване на звукова и радиоелектроника. Но имаме добри възможности да научим програмиране.
Въпрос относно вашия патентован алгоритъм за оформяне на шумMegaBitMax се среща в много продукти. Разкажете ни накратко как го разработихте, какво дава, кога трябва да се използва?
Тъй като участвахме активно в преобразуването на формата на изображението в лабораторията, започнах да се интересувам и от преобразуването на битова дълбочина за аудио сигнали. Основната цел при разработването на алгоритъма беше да предостави на потребителя широк набор от възможности за настройка на оформянето на шума, преди всичко неговата агресивност. При всяко дадено ниво на агресивност (т.е. максимално допустимото ниво на радиочестотен шум) имах за цел да постигна възможно най-доброто потискане на звуковия шум от квантуване. Повечето от съществуващите по това време системи за оформяне на шума използват филтри от нисък ред, в резултат на което честотната характеристика на шума се оказва пулсираща и неточно приближаваща необходимата форма на спектъра. В MegaBitMax използвах филтри от по-висок ред (до 50-ти) и няколко специални трика за намаляване на пиковете на радиочестотния шум.
Разкажете ни как стигнахте до iZotope? Постоянно ли живееш и работиш в Щатите?
iZotope се заинтересува от моята уеб страница, описваща MegaBitMax, и предложи сътрудничество. Първият ни съвместен проект беше процесорът за ефекти Spectron. Последваха други насоки. Дълго време работех в компанията дистанционно - от Москва. Но сега работният график изисква чести „командировки“ до щатите.
Какво правите във фирмата? Как върви развитието?
През последните пет години посвещавам по-голямата част от времето си в iZotope на разработване на алгоритми за възстановяване на аудио сигнал. Нашият продукт за възстановяване RX се състои от отделно приложение и набор от добавки, които прилагат различни видове намаляване на шума и анализ на аудио сигнала. Аз съм отговорен за математиката на този продукт и мога с гордост да кажа, че многоRX алгоритмите са продължение на моята научна работа и са представени в публикации на такива специализирани конференции като AES.
Въпрос относно продуктите iZotope. Първо имаше само Ozone, сега има цяла гама от продукти. Има дори желязо устройство в реално време. Впечатляващо! Разкажете ни за компанията.
Компанията е основана през 2001 г. в Бостън от възпитаници на Масачузетския технологичен институт (MIT). Когато започнах работа с iZotope (през 2002 г.), тя имаше само няколко души в персонала си, но компанията вече имаше определено име благодарение на своя продукт Ozone. Любопитно е, че в началото на съществуването на компанията имаше няколко малки продукта за изображения, но по-късно напълно преминахме към работа със звук.
През първите няколко години iZotope беше известен изключително с плъгини - плъгин софтуерни модули за обработка на звук. С течение на времето обаче обхватът на нашата дейност се разшири. Разработихме хардуерния инструмент ANR-B за потискане на шума в реално време. Значителна част от нашата работа се състои и от съвместни проекти с други компании и лицензиране на нашите технологии за програми като Audition, Sound Forge, Pro Tools.
Разбира се, това разширяване на обхвата на дейност доведе до увеличаване на персонала на фирмата. Сега в iZotope работят няколко десетки специалисти: разработчици, тестери, дизайнери, търговци. Компанията обаче не може да се нарече международна: единственият офис на iZotope се намира в Бостън, САЩ, и почти всички служители са американци.
Понякога изненадва, например, плъгин за еквалайзер или компресор, където има само имитация на три копчета на хардуерно устройство, дори без пиков метър на сигнала, да не говорим за спектъра, тоест изобщо не използва възможностите на компютъра! Но катооценявате ли текущата ситуация с добавките за обработка?
Малкият брой химикалки не винаги е лошо нещо. Например, най-уважаваните възстановителни тела на Cedar често имат само една дръжка: повече-по-малко. Всичко е свързано с умелото прилагане на алгоритми. В iZotope често отиваме в посоката на предоставяне на голям брой корекции и инструменти за визуализация. Въпреки това, ние се опитваме да гарантираме, че дори неподготвен потребител може бързо да овладее нашия продукт. В новия вокален процесор iZotope Nectar е избран интересен подход: по подразбиране на дисплея се показват само най-необходимите настройки, но напредналите потребители имат възможност да отварят „отметки“ с подробни параметри за всеки модул.
Сегашната ситуация с плъгините е такава, че има все повече и повече плъгини, а делът на добрите плъгини намалява. Когато инструментите за разработка станаха достъпни за почти всички, съвсем логично много плъгини започнаха да се създават от непрофесионалисти със съответните резултати. Като пример ще цитирам плъгина ReLife, който вдигна много шум навремето, уж възстановявайки динамиката на свръхкомпресирани или изрязани записи. При по-внимателно разглеждане се оказа, че тази добавка е просто филтър с всички пропуски, т.е. променя PFC на сигнала по някакъв фиксиран начин. В същото време пиковите нива на лимитирани записи се увеличават, но е глупаво да се говори за промяна в динамиката и като цяло за промяна в звука.
iZotope RX. За историята на този продукт. Как започна всичко, как стигна до там? Каква е основната идея на продукта, какви са предимствата пред конкурентите? Как успяхте да преодолеете вътрешното противоречие на преобразуването на Фурие - висока разделителна способност по време или по честота? Какво беше вашето участие в разработката? какПродуктът приет ли е от професионалната общност?
Идеята за създаване на продукт за възстановяване ни хрумна около 2003 г., когато участвах активно в алгоритми за намаляване на шума в изображенията. Изработен е прототип на плъгин за намаляване на звуковия шум. Въпреки това, скоро стана ясно, че ефективната реставрационна работа изисква инструменти за визуализация и навигация, които не могат да бъдат направени в плъгин. Така започна работа по отделно приложение за възстановяване, което беше пуснато през 2007 г. под името RX.
Основната идея на продукта е да направи работата със звук наистина визуална. И, разбира се, основна роля в това играе спектрограмата. В RX той е много гъвкав: преначертава бързо, настройва мащаба към текущия прозорец и има много настройки, включително уникални. За първи път е възможно да се покаже формата на вълната върху спектрограмата и да се работи и с двете. В нашата спектрограма има няколко специални режима на изостряне на изображението, които превъзхождат по възможности традиционното преобразуване на Фурие. Един от тях се нарича Reassignment и ви позволява абсолютно точно да видите честотата на тона, дори ако тя се променя във времето. Другият се нарича Adaptively sparse - той автоматично настройва размера на FFT прозореца към сигнала за най-голяма яснота на спектрограмата както по честота, така и по време. Тези специални режими на спектрален анализ бяха предмет на моята дисертация.
Между другото, тези методи за спектрален анализ се използват не само при визуализацията на спектрограмата, но и при обработката на сигнали, което ви позволява да постигнете по-високо качество на намаляване на шума от конкурентните продукти. Трябва да кажа, че шумопотискането е нашата силна страна. iZotope има няколко публикации за реставрация в AES, а преди няколко години дори ни поканихаизнесе двучасова образователна лекция по тази тема в Нюйоркската конвенция.
Участвам активно в развитието на RX, всъщност отговарям за всички алгоритмични неща, които обработват и анализират звука. Специалистите по архитектура на приложението и интерфейс работят с мен по продукта и трябва да кажа, че техният принос също е огромен. Като независимо приложение, RX включва обработка на файлове, звукова карта, визуализация, модули за чертане на селекция, както и няколко модула за възстановяване и по-прости компоненти за редактиране. В допълнение, основните модули за възстановяване също са пуснати като добавки.
В професионалната общност RX беше приет много топло. В края на краищата ние направихме висококачествени алгоритми достъпни дори за малки студия. Стандартната RX версия съдържа същите алгоритми за възстановяване като Advanced версията, но с по-малко настройки. Следователно дори и със стандартната версия може да се постигне пълно качество на обработка.
Въпрос за автоматично премахване на немузикални звуци от сигнала - поемане на дъх, мляскане, свирене и т.н. Кажете ми за iZotope Nectar.
Nectar е замислен като аналог на продуктите Ozone или Alloy за работа с вокални песни - един вид комбинация, която ви позволява бързо да постигнете желания звук. Според една от идеите, Nectar трябваше да съдържа някои основни функции за възстановяване на вокали: потискане на мляскане, дишане, издухване на микрофона и т.н. За съжаление, в процеса на работа разбрахме, че пълноценното възстановяване в движение ще изисква твърде много компютърна мощност и продуктът няма да е полезен за проследяване в реално време. Поради това беше решено да се ограничи потискането на дишането. Алгоритъмът е доста интересен: това не е просто порта, аанализатор на спектъра на сигнала, който се опитва да отдели дихателните звуци от полезните съгласни звуци. Разбира се, това е трудна задача, която изисква елементи на изкуствен интелект, но в първото приближение разработеният алгоритъм може да се счита за успешен. Той идентифицира моментите на спиране на дъха и ви позволява да ги ограничите по обем.
Какво е новото в най-новата версия на iZotope RX 2? Какво бихте препоръчали да опитате?
От моя гледна точка, най-голямото подобрение в RX 2 са новите алгоритми за потискане на шума (Denoiser D) и щракане на винил (Declicker/Decrackler и Deconstruct). Мога да препоръчам следната верига от лечения, която дава добри резултати при възстановяване на винил:
- Declicker (две преминавания в многолентов режим),
- декрекер,
- ръчно потискане на оставащите щраквания с модула Interpolate или Spectral Repair,
- обезшумител,
- деконструирам.
Друга патентована тайна: за да потиснете електрическото бръмчене, не бързайте да използвате прорезните филтри от модула Hum. В много случаи по-точни резултати могат да бъдат постигнати с модула Denoiser в D или C режими - той ще повлияе по-малко на желания сигнал при бръмчащи честоти.
В разширената версия на RX Advanced, в допълнение към поддръжката на плъгини, вече има iZotope Radius алгоритъм за висококачествени промени във времето и височината (време / височина), както и специален модул за корекция на азимута за възстановяване на записи от магнитна лента.
Разкажете ни за онлайн проект, сравняващ различни SRC алгоритми. Какъв беше краят на въпроса? Кой спечели? Не стигна ли до сравняване на субективната оценка с обективната?
Идеята да се направи такъв сайт със сравнение на SRC (sampling frequency conversion) алгоритми витае отдавна. Обаче не аз го въплътих първи, а Дейв Хорокс -мастеринг инженер в канадското студио Infinite Wave. Той използва програмата RMAA, за да покаже спектрите на 1 kHz синусоида след преминаването й през различни SRC конвертори. След известно време попаднах на уебсайта на Дейв и предложих да разширим теста, като го допълним с резултати за "плаващ синус" и импулси. Така се роди днешният тестов пакет. Няма да навлизам в подробности за това тук, тъй като вече написах статия по тази тема в Sound Engineer: „Тест на преобразуватели на честота на дискретизация“.
Само да кажа, че според мен повечето тествани конвертори са доста добри. Умишлено използваме широкия динамичен обхват на спектрограмата, за да подчертаем разликите им. Всъщност почти не чувам по-добрата половина от тези конвертори.
В теста на Infinitewave нямаше субективни сравнения. Но това, което чувам от звуковите инженери е, че обективните резултати на Infinitewave като цяло са добро отражение на техните субективни предпочитания. Така че често се отбелязва качеството на алгоритъма iZotope SRC и конвертора на Weiss. Сред безплатните програми високо оценени са SoX и r8brain.
Посещавате ли уебсайта на iXBT в свободното си време? Вашето пожелание към читателите на сайта.
Да, отивам на уебсайта на iXBT. Традиционно се интересувам от ревюта на полупрофесионални звукови карти и монитори за домашни студия. Понякога с интерес разглеждам форума за теми за подобряване на звука на звукова карта чрез подмяна на компоненти. Радвам се, ако видя как RMAA графиките идват на помощ на описателните характеристики в този случай. Пожелавам успех на читателите на iXBT в търсенето на перфектния звук!
- Алексей, много ти благодарим за интервюто и ти желаем успехи занапред!