Схема за получаване на данни в EMBL, TrEMBL, SwissProt
Схема за получаване на данни в EMBL, TrEMBL, SwissProt
EMBL е банка от всички декодирани нуклеотидни последователности (както ДНК, така и РНК)
EMBL » GenBank » DDBJ. И трите банки съдържат една и съща информация. Несъответствията са свързани само с момента на включване на новопостъпилия запис в следващото издание.
TrEMBL (=преводи на EMBL) е банка от протеинови последователности, получени чрез автоматична транслация на нуклеотидни последователности от EMBL.
В много нуклеотидни последователности от EMBL са посочени в специални полета
( FT CDS ……………………………… където CDS = кодиращи последователности)
региони, кодиращи протеини.
Тези последователности се превеждат автоматично (от компютър) в 20-буквен протеинов код (един кодон, т.е. следващите три букви от 4-буквения нуклеотиден код - в една буква, кодираща един аминокиселинен остатък на протеина)
Такъв автоматичен превод е единственият източник на нови записи в TrEMBL.
SwissProt (=Swiss Protein Databank) е банка от аминокиселинни последователности на естествени (= налични в жива клетка) протеини.
Тази технология за попълване на SwissProt помага за значително подобряване на анотациите (= описанията) на последователностите и ги прави по-формализирани, намалява броя на грешките в банката с данни. Това също води до намаляване на скоростта на зареждане на SwissProt в сравнение с TrEMBL.
Кураторът също така има право самостоятелно да коментира записа, взет от него от TrEMBL, като използва същата технология за проверка.В този случай липсата на пряко експериментално потвърждение за съществуването на протеина се отбелязва от него в записа със специален термин („хипотетичен протеин“).
Когато се добави нов запис към SwissProt, кураторът го изтрива от TrEMBL.