De novo сглобяване на транскриптоми

препис

1 De novo сглобяване на транскриптоми Касянов Артем Изследовател Лаборатории по компютърна генетика и системна биология, IOGEN RAS

2 De novo секвениране на транскриптоми срещу de novo секвениране на геноми Геномите на немоделни организми могат да бъдат доста трудни за реконструиране (висок брой повторения, полиплоидия, голям размер). Секвенирането на транскриптоми ви позволява бърз достъп до информация за гените и протеините, използвани за функционирането на тялото. В повечето случаи по-точната анотация на генома ще изисква транскриптомни данни. Секвенирането на транскриптоми е по-евтино от секвенирането на целия геном. Поради развитието на технологиите за секвениране, дължината на четенето нараства. В момента „обединените“ четения на Illumina Miseq достигат една трета от средната дължина на транскрипта, което значително опростява асемблирането и позволява използването на OLC асемблери. 2

3 De novo секвениране на транскриптоми срещу de novo секвениране на геноми Транскриптомите от различни тъкани, взети по различно време, могат да бъдат много различни. 20% от гените дават 80% от показанията. [O'Neil et al. BMC Genomics 2010, 11:310] 3

4 De novo секвениране на транскриптом срещу секвениране на de novo геном Неправилно покритие на транскриптом. [Zhong Wang et al. Нац. Rev. Ген. 2009, том 10] 4

5 Сглобяване на транскриптом срещу сглобяване на геном Програмите за сглобяване на геном очакват повече или по-малко равномерно разпределение на покритието. Събраните региони, за които има увеличение на покритието, се приемат като повторения. Но отделните гени в транскриптома могат да имат много различно покритие. [ _downloads/mb_rnaseq_trans_assembly_sc_2013.pdf] 5

6 Графика на снаждане [ 6

7 Обща схема на сглобяване на de novo транскриптом [Martin & Уанг (2011) Нац. Rev. Ген. 12,671] 7

8 Обща схема на сглобяване на de novo транскриптом [Martin & Уанг (2011) Нац. Rev. Ген. 12,671] 8

9 Обща схема на сглобяване на de novo транскриптом [Martin & Уанг (2011) Нац. Rev. Ген. 12,671] 9

10 транскриптомични асемблера Конструктори, базирани на графики на DeBruijn. (Illumina, SOLiD, IonTorrent ) Trinity (Broad) Velevet (Oases) TransAbyss SOAPtrans OLC базирани асемблери (454, Sanger, PacBio) Mira3 Est2assembly GS/Newbler (Roche) SMRT Pipe (PacBio) 10

11 De novo сглобяване на транскриптоми Предварителна обработка FASTQC, prinseq, trmmomatic, kmc2, kmernator2 Сглобяване Oases, Newbler, Trinity QUAST, BLAST, Prinseq, Bowtie, Оценка на качеството на сглобяване на Transrate. единадесет

12 Предварителна обработка Оценка на качеството на набор от четения (fastqc) Изрязване на четения (prinseq, Trimmomatic) 12

13 Предварителна обработка [Matthew D. MacManes, Front. Genet., 31 януари 2014 г.] 13

14 Предварителна обработка [Matthew D. MacManes, Front. Genet., 31 януари 2014 г.] 14

15 Предварителна обработка Филтриране от kmer(kmernator2 ) За геномни данни За данни за транскриптоми [ 20/maximizing-utility-of-available-rams-in-kmer-world/] [ 1/10/26/k-mer-distribution-of-atranscriptome/] 15

16 Предварителна обработка "Цифрова" нормализация 16

17 Сглобяване на транскриптоми с Trinity Има модул за сглобяване, базиран на референтния геном. Пакетът Trinity съдържа модул за нормализиране на четенията in silico (normalize_by_kmer_coverage.pl). Алгоритъмът е свързан с "основните" алгоритми на Trinity Намалява времето за работа и използването на паметта Подобрява асемблирането, тъй като елиминира K-измерванията/четенията, които е най-вероятно да съдържат грешки. 17

18 Сглобяване на транскриптом с Trinity, написано за работаIllumina чете. Не "възстановява" модула на геномния асемблер. Изискване за памет 1G за 1M100bp Четения на Illumina Време за работа от ½ час до 1 час на 1 милион четения. Най-отнемащата време стъпка е Butterfly. 18

19 Сглобяване на транскриптом с Trinity [Haas BJ et al. Nat Protoc август;8(8):] ​​​​19

20 Сглобяване на транскриптоми с Trinity Подготовка на сдвоени четения (ако не са получени директно от Illumina). В случай на използване на сдвоени четения. Необходимо е двойките да бъдат разпределени в два файла. Освен това първият член на двойката трябва да има наставка /1, вторият /2. Пример: (запис във файл CCGTTCACATGGAACCTTTCCCCTCTTCGGCCTTCAAAGTTCTCATTTGAATATTTGCTACTACCACCAAGATCTGCAC CGACGGCCGCTCCGCCCGGGCTCGCGCCCT + (запис във файл CTTTGAGGTGAAGGCAACTGCTGGTGACACCCATCTTGGTGGGGAAGATTTTGACAACAGAATGGTTAACCA CTTT GTCCAAGAGTTCAAGAG GAAGAGTAAGAAGGAT 20

21 Изграждане на транскриптоми с Как да стартирате Trinity: използване на Trinity Paired reads във файлове - reads_left.fq, reads_right.fq: /path/to/trinity.pl --seqtype fq --JM 4G --left reads_1.fq --right reads_2.fq --seqtype входен файлов формат (fq FASTQ; fa - FASTA). --left и --right са имената на файловете за четене за сдвоените четения. --JM е максималното количество памет за алгоритъма Jellyfish. Други полезни опции: --CPU казва на Trinity, че многонишковостта е разрешена и задава броя на използваните ядра. Основно засяга алгоритъма Butterfly. --output директория за запазване на изходни файлове. По подразбиране е trinity_out_dir. --full_cleanup премахва напълно всички междинни файлове. 21

22 Сглобяване на транскриптоми с Trinity --SS_lib_type. Показва на Trinity, че се използва специфична за нишка библиотека. [Haas BJ et al. Nat Protoc август;8(8): ] --min_kmer_cov=2. Посочва, че е необходимо да се изключат от разглеждане километрите с покритиепо-малко от 2,22

23 Сглобяване на транскриптоми с --jaccard_clip с помощта на Trinity [Haas BJ et al. Nat Protoc август;8(8):] ​​​​23

24 Транскриптомно сглобяване с резултати от Trinity Assembly. Резултатът от компилацията (trinity.fa) е в директорията, указана от изходния ключ, или ако ключът не е указан в директорията trinity_out_dir. Ако ключът --full_cleanup не е зададен, тогава папката с резултати ще съдържа резултатите от всички етапи на алгоритъма. При голямо количество входни данни може да заема много място (за 30 GB входни данни -

1TB). Как да разберем какво означават имената на последователностите в Trinity.fa? >comp0_c0_seq1 len=5528 [3647: : : ] >comp0_c0_seq2 len=5399 [3647: : ].. [Haas BJ et al. Nat Protoc август;8(8):] ​​​​24

25 Transcriptome Assembly с Trinity Trinity включва няколко инструмента за оценка на качеството и последваща обработка на асемблирането: TrinityStats.pl изчисление на N50 и броя на контигите. alignreads.pl и SAM_nameSorted_to_uniq_count_stats.pl подравняване на четене на компилация и оценка на подравняване. TransDecoder инструмент за ORF прогнозиране в резултатите от изграждането. Функционален анотационен инструмент Trinotate 25

26 Сглобяване на транскриптом с Newbler, разработено от Roche. Проектиран за технологични четения 454. Може да се използва и с данни на Illumina. Колектор на низови графи. Работи с данни във формати FASTA и SFF. 26

27 Сглобяване на транскриптоми с Newbler [ 27

28 Сглобяване на транскриптоми с Newbler [ 28

29 Изграждане на транскриптоми с Как да стартирам Newbler? Newbler /path/to/newassembly project1 cd project1 /path/to/adrun -lib libname -p reads_left.fasta /path/to/adrun -lib libname -p reads_right.fasta runproject cdna Командата newassembly създава проект за асемблиране.След това трябва да отидете в папката с новосъздадения проект. С помощта на командата addkun се добавят файлове с четения (-lib указва името на библиотеката, -p показва, че библиотеката е със сдвоени четения). runproject стартира сглобяването (- cdna показва, че сглобяването се извършва от RNA-seq данни). 29

30 Изграждане на транскрипции с Newbler Можете да укажете редица допълнителни параметри за runproject: -cpu num брой процесорни ядра, които компилаторът може да използва. -m ви позволява да съхранявате информация за четения в паметта, което ще ускори изграждането, но значително ще увеличи изискването за памет. тридесет

31 Асемблиране на транскриптоми с Newbler След асемблирането се създават следните файлове в подпапката Assembly: 454AllContigs.fna - бърз файл, съдържащ всички контиги, по-големи от 100 bp. 454LargeContigs.fna - бърз файл, съдържащ >500bp контиги. 454NewblerMetrics.txt статистика за резултатите от изграждането. 454Isotigs.fna - бърз файл с isotigs. 31

32 Компилация Резултати Четения Build Contigs Transfrags Isothigs Singletons Скелета 32

33 Оценяване на качеството на изработка Картографирането се чете обратно към изработката. > 60% от четенията са картографирани - норма. >80% от четенията са картографирани - много добър резултат. Оценка на броя на контигите. Трябва да бъде в рамките на размера на транскриптома (A. Thaliana

гени) Оценка на средното покритие на контигите. Оценка на броя на уникалните bp. Колкото повече, толкова по-добре. Оценка на N50 контиги. Трябва да съответства на транскриптома N50. (А. Талиана

1900 b.p., H. sapiens

2500 bp) Оценка на броя на контигите> 1 kb Колкото повече, толкова по-добре. 33

34 Оценка на качеството на бластното сглобяване на базата на протеин/транскриптом на близък организъм. Това ще помогне да се разбере каква част от транскриптома е била сглобена. Броят на съвпаденията, намерени в протеиновата/транскриптомната база. [ 34

35 Оценка на качеството на сглобяване Задна анотация: Картографиране на референтни протеини към контиги. Броят на съвпаденията, открити по време на обратна анотация. [ 35

36 Оценка на качеството на сглобяване. Коефициентът на попадение на ортолог (ohr) е мярка за пълнотата на сглобяването на транскрипта. [enovo-transscript-assembly.pdf] 36

37 Оценка на качеството на сглобяване Факторът на свиване (CF) е мярка за повторно сглобяване на транскрипта. [vo-transscript-assembly.pdf] 37

38 Оценка на качеството на сглобяването От показателите, използвани при оценката на геномни сглобки, най-надеждните отразяват качеството на сглобяването на транскриптоми: % от показанията, използвани в сглобяването. Брой контиги > 1 kb Броят на уникалните bp За да се използват показатели като N50, броят на контигите, е необходимо да има оценки за размера на изследвания транскриптом. Метриките, базирани на анотации, могат да се използват само ако има достатъчно пълна протеинова база, било то изследваният организъм, или тясно свързан такъв. % от четенията, картографирани за изграждане, n50, средно покритие, среден OHR трябва да се използва за целия набор от резултати от изграждането (contigs + singletons). Среден CF, броят на съвпаденията с протеиновата база за предна и обратна анотация само на контиги. 38

39 Постобработка на сглобяването на транскриптоми „Имам твърде много контиги, какво трябва да направя след това?“ Много асемблери на транскриптоми (по-специално Trinity) дават голям брой контиги (>100k) Възниква въпросът как да се намали броят на контигите. Можем да формулираме следното правило: Няма нужда да групирате, трябва да филтрирате. Групирането ще доведе до колапс на паралози, алтернативни изоформи и генни семейства. Групирането води до появата на химери. Филтрирайте по % изоформи, покритие, ORF, blast hits и т.н. Можете да прецените колко загуба на данни в резултат на филтриране чрез картографиране на четения към контиги.39

40 Сложности на сглобяването на транскриптоми Замърсяването в оригиналната проба води до много фрагментирани сглобки. Броят на контигите е много по-висок от очакваното и N50 е малък. Човек може да се опита да филтрира показанията, като ги сравни с транскриптоми/протеини на възможен замърсител. Процедурата е много дълга и болезнена, изискваща много компютърни ресурси. Не гарантира резултати. 40

41 Паралози Сложности на сглобяването на транскриптом В случай на голям брой паралози в целевия транскриптом, например, ако сглобяването е извършено за полиплоиден транскриптом, ще се наблюдават две ситуации за различни набори от параметри на асемблер/асемблер (или броят на контигите е значително по-малък от очаквания с повече или по-малко постигната цел N50, или огромен брой контиги с малък N50). Пример. Статия [Schreiber et al. BMC Genomics 2012, 13:492]. Събран по препис на T. aestivum. 41

42 Сложности на транскриптома 14 563 748 четения Illumina GAIIx 1 495 941 четения GS FLX монтаж Oases Брой гени в ориза

.975 контига. Средна дължина 840 bp Групиране на четения по MIRA контиги 128 628 контига. 42

43 Сложности на сглобяването на транскриптоми Алтернативни изоформи. Неравномерно покритие. повтарящи се последователности. Химерни контиги. 43

44 Софтуер за финализиране на сглобяване STM протеиново скеле. [Съгласуване на сглобяването] MIX [Оценка на качеството на сглобяването. ALE[ Transrate[ 44