Биоинформатика, Чебурашка и DREAM-ENCODE
Първият кръг на състезанието по машинно обучение по биология DREAM-ENCODE, посветен на международната конференция DREAM, бе спечелен от отбора на autosome.ru от България. Членове на екипа — Иван Кулаковски, водещ изследовател в Лабораторията по изчислителни методи за системна биология, IMB RAS, Григорий Сапунов, съосновател на Inten.to, и Всеволод Макеев, член-кореспондент на Руската академия на науките, ръководител на лабораторията по системна биология и изчислителна генетика на IOGEN RAS, разказаха за“XX 2 век”за компютърния анализ на регулаторните региони на генома и за някои погрешни схващания за тях в съвременното общество.
XX 2nd CENTURY: Първи въпрос - как може да се обясни какво представляват транскрипционните фактори за тези, които са далеч от науката?
Иван: Те са по същество локални превключватели за генна активност.
Нека си припомним основите на молекулярната биология и да разгледаме генома като абстрактна последователност от нуклеотидни бази - буквите "A, C, G, T". Най-изследваните участъци от последователността, които кодират протеини, тоест гени, кодиращи протеини. Полезно е да се разбере, че при висшите еукариоти протеин-кодиращите гени покриват само малка част от генома, за човешкия геном само 1-2%. Първият въпрос е какво друго е важно, записано в генома, освен гените, кодиращи протеини. Вторият въпрос е как на базата на един и същи геном в един многоклетъчен организъм се реализира цялото многообразие от видове клетки.
XX 2nd CENTURY: Ако учените могат да открият алгоритъма, чрез който протеините се свързват с ДНК, как могат да го използват? И вярвате ли, че този алгоритъм ще бъде открит скоро?
Иван: Глобалната задача е доста мащабна: еукариотните хромозоми са сложно подредени в заплетена топка в клетъчното ядро, някои части от генома са изключително плътно опаковани и недостъпни завзаимодействия, други места вече са свързани от конкурентни протеини. Изобретени са много експериментални методи за картографиране на местата на свързване, заети от специфичен протеин, но самият експеримент е трудоемък, а получените данни са доста „шумни“. Проблемът се усложнява от факта, че има много транскрипционни фактори (при хората - поне една и половина хиляди), а в различни видове клетки те работят в различни комбинации. Тоест, за всеки транскрипционен фактор, експериментът ще трябва да се проведе отделно във всеки тип клетка. И накрая, методично не е толкова лесно да се премине от клетъчни култури, отглеждани "ин витро", към нормални клетки и органи.
На свой ред, чрез експериментално определяне на картата на достъпните региони на генома (така наречения "отворен хроматин") в специфичен тип клетка, може да се предскаже свързването на специфични транскрипционни фактори с помощта на изчислителни методи.
Това не означава, че вече разбираме напълно как един протеин намира своите места на свързване, но използвайки комбинация от експериментални и компютърни подходи, вече е възможно да се получи подробна "геномна карта" на местата на свързване. Картата показва къде се намират регулаторните региони, кои гени са потенциално под техен контрол. Глобалните цели са дешифриране на "граматиката" на регулаторните области, инженерни регулаторни последователности с желаните свойства. От гледна точка на практиката - избор на "коктейли" от транскрипционни фактори и контролирана промяна в клетъчните типове за задачите на регенеративната медицина и моделирането на заболявания на различни тъкани и органи. Дори сега подробна геномна карта на местата на свързване дава възможност да се предскажат последствията от възможни мутации в регулаторните региони, които засягат активността на специфични гени.
Всеволод: Бих искал да обърна внимание на факта, че режмедицинските приложения на редактирането на гени все още са рискован бизнес. Не напразно Иван говори за „моделиране на болестта“, тоест промени, които ви позволяват да възпроизвеждате мутации в „изкуствени органи“, които водят до наследствени заболявания, да изучавате техния курс и по този начин да разберете по-добре механизма на тяхното възникване и възможната терапия. От гледна точка на директните приложения приложенията в областта на биотехнологиите изглеждат по-реални. Можете да опитате да промените динамиката на гените в домашни животни или селскостопански растения, като редактирате регулаторни региони, постигайки появата на нови потребителски свойства.
XX 2nd CENTURY: Разкажете ни за метода, по който спечелихте състезанието.
Иван: Искам да кажа няколко думи за самия конкурс, съвместен проект на международния консорциум ENCODE и инициативата DREAM. ENCODE анотира регулаторни региони в човешки и миши геноми повече от 10 години, използвайки различни експериментални методи. DREAM от своя страна провежда различни състезания по прилагане на методи за машинно обучение за широк спектър от биологични проблеми.
Публикуваните резултати от ENCODE са получени върху "безсмъртни" клетъчни линии, но в новия кръг консорциумът провежда експерименти и върху проби от живи тъкани. Целта на състезанието DREAM-ENCODE е да се предскаже свързването на транскрипционни фактори в нормална тъкан, като се използват познания за отворени хроматинови региони и характеристики на геномната карта на местата на свързване, получени върху клетъчни линии. Този проблем има просто практическо приложение: в бъдеще човек може да се ограничи до минимален набор от експерименти върху първични тъкани и органи и да използва повторно вече подготвените данни, доколкото е възможно.
Нашият метод се основава на смислен избор на данни за „обучение“.За да направим това, измислихме прост алгоритъм, в работната версия наречен "Чебурашка" заради неговия наивен подход. Така Чебурашка стана неформалният талисман на отбора.
А за окончателните прогнози те използваха добре познатата библиотека за машинно обучение - XGBoost. Мисля, че именно комбинираният подход ни позволи да се представим успешно в първия кръг на състезанието, съвпадащ с профилната конференция DREAM. Победителите от първия кръг разкриват своите карти: споделят технически подробности и съображения. Член на нашата група, Андрей Ландо (студент на Московския Phystech), беше поканен с доклад на конференцията DREAM. Вторият кръг ще продължи до началото на 2017 г. и очакваме нашите разработки да бъдат полезни на бъдещите лидери.
XX 2nd CENTURY: Разкажете ни за машинното обучение. Защо имате нужда от специалист в тази област за работата си?
Грегъри: Количеството налични данни в биологията е огромно и нараства. Невъзможно е да се обхванат всички с ума на един човек, изключително трудно е за група хора. Компютрите идват на помощ.
Ако един човек е в състояние да запази в ума си 3-5 променливи, свързани със задачата, тогава компютърът е в състояние да работи едновременно със стотици и хиляди променливи, като взема предвид и взаимодействията между тях. Но вече за 5 променливи има 10 комбинации по двойки, с увеличаване на броя на променливите броят на комбинациите нараства квадратично, плюс има още по-сложни комбинации от три, четири или повече фактора, така че вече е трудно човек да работи с пет променливи.
Допълнителни затруднения създават количеството и обемът на наличните данни. Невъзможно е човек да ревизира стотици хиляди и милиони геномни интервали, необходимо е значително да се намали количеството информация, оставяйки някаква обобщена статистика и друга обобщена информация. И тозивече на половината път към машинното обучение, статистиката е много тясно свързана с областта на машинното обучение и изобретяването на правилния начин за агрегиране на данни вече е по същество дейността по „изобретяване“ на функции, подходящи за решаване на проблема (инженерство на функции) - това е най-важният елемент на класическото машинно обучение (за разлика от дълбокото обучение, дълбокото обучение, което до голяма степен може да бъде спестено от тази стъпка).
В този проблем се ограничихме до класическото машинно обучение. За пълноценни експерименти с дълбоко обучение вече нямахме достатъчно време и изчислителни ресурси, но предварителните експерименти показаха, че този подход е разумен и дава обнадеждаващи резултати, в бъдеще очакваме сериозни пробиви тук.
Като цяло през следващите години и десетилетия най-забележими и осезаеми промени, засягащи качеството на нашия живот, ще настъпят в биологията и медицината. Там вече е натрупано огромно количество данни и през следващите години ще се натрупат дори още порядъци - както поради по-голямото разпространение на секвенирането, така и поради по-голямата дигитализация на целия ни живот (движението Quantified Self е най-очевидният пример тук, тук могат да бъдат включени и електронни медицински досиета). Потенциалът за извличане на стойност от всички тези данни е огромен и прилагането на машинно обучение за това ще бъде необходимост.
XX 2 ВЕК: Докато се провеждат толкова важни състезания, обществото е в плен на страхове за същите ГМО. На какво може да се дължи това – поне у нас?
Всеволод: Според мен проблемът с ГМО е до голяма степен предизвикан от медиите.
XX 2nd CENTURY: Споменах страха от ГМО - може би можете да посочите други погрешни схващания, които са опасни за развитието на науката?
Иван: Слабата връзка между фундаменталната наука и обществото играе в негова полза: приложната наука, иновациите и опитите за въвеждане на нови технологии страдат повече от заблуди.
В същото време, на вълната на „иновациите“ и „въвеждането“, основната цел на фундаменталната наука е маскирана - разширяване на полето на обективното познание за устройството на света. Добре е, когато резултатите от научната работа надхвърлят специализираните списания и намират приложение в живота, но очакването за незабавна практическа полза от научните изследвания е най-опасната заблуда.