Превод на XML документи с xml tm
Има различни подходи за оптимизиране на процеса на превод.
Машинен превод
Езиковите технологии се развиха по доста различни начини през последните 40 години. Ранните надежди за евтин автоматичен превод скоро доведоха до фрагментацията и по същество незначителната роля на тази технология, която сега се използва за разбиране на значението на някои текстове на чужд език. През този период езиковите технологии напреднаха значително и ние всички се наслаждаваме на плодовете им всеки ден, когато използваме граматика, правопис и сложни търсачки. Въпреки това все още сме далеч от практическия машинен превод на произволен текст, въпреки че има известен напредък, ако текстът е много строго контролиран и е от много тясна област.
Преводна памет
С бързо променяща се документация, отразяваща подобрения и иновации в жизнения цикъл на продукта, най-добрият отговор за намаляване на разходите за превод досега беше използването на преводаческа памет. В сравнение с машинния превод този подход към езиковата технология е относително примитивен, но носи осезаеми ползи.
Същността на преводаческата памет е групирането на предварително преведен текст на целевия език с изходния език. Това се прави ръчно или автоматично с помощта на контролирана среда за процеса на превод. Групирането обикновено се извършва на ниво изречение, което дава най-доброто ниво на практически детайли. Групираният изходен и целеви текст се съхраняват в базата данни. Следващият път, когато документът бъде актуализиран, в базата данни се търси текст, който не е променен. Когато се открият такива фрагменти, текстът на оригиналния език може да бъде замененна прицел. Този метод, макар и нискотехнологичен, има предимството да прави превода по-последователен и да намалява разходите.
Основният недостатък на подхода е фактът, че преведената част от текста на даден език може да зависи от контекста. Когато извлича текст от база данни с преводна памет, той не улавя контекстуалната информация, с която е съществувал в оригиналния документ. Поради факта, че няма информация за текста на целевия език, преводачът все пак трябва да препрочете и, ако е необходимо, да коригира избрания текст. Докато процесът на корекция е по-евтин от пълния превод, той отнема време и пари.
Превод на XML документи
Особено внимание заслужават някои важни базирани на XML стандарти относно технологията за превод:
Всички тези страхотни стандарти са за обмен на информация с помощта на XML, а не всъщност за превод на XML документи.
xml:tm се основава на концепцията за "текстова памет". Текстовата памет се състои от два компонента:
Спомен на автора
Следващата диаграма показва как пространството от имена tm е обвързано със съществуващ XML документ:

По-долу е даден пример за фрагмент на документ, използващ xml:tm. Елементите xml:tm са маркирани в червено, което показва как xml:tm е обвързан със съществуващ XML документ.
И свързаният документ:

Преводна памет
Когато документ в пространството от имена xml:tm е готов за превод, самото пространство от имена указва текста за превод. Пространството tm може да се използва за създаване на XLIFF документ за превод.
Текстът, маркиран в розово, показва места, където преведеният текст ще замени текста на изходния език,както по-долу:
След като преводът приключи, текстът на целевия език може да бъде обединен с изходния документ, за да се създаде нова версия на документа на целевия език. Резултатът е идеално подреден изходен документ и документ на целевия език.
Следва пример за преведен xml:tm документ:
Ето пример за свързан преведен текст:

Изходният и целевият текст са свързани на ниво изречение чрез уникални идентификатори xml:tm. При редактиране на документ на променени и нови текстови единици се присвояват нови идентификатори. Когато извличате текст за превод от актуализиран изходен документ, текстовите единици, които не са били променени, могат автоматично да бъдат заменени с текст на целевия език. Полученият XLIFF файл може да изглежда така:
Перфектно съвпадение
Следната диаграма показва как работи перфектното съвпадение:

Съвпадение xml:tm
xml:tm предоставя много по-фокусирани типове съвпадения от традиционните системи с памет за превод. Съществуват следните видове съвпадения.
Паметта на автора дава точни подробности за всички промени в документа. Когато текстовите единици за предишния преведен документ не са променени, можем да кажем, че имаме перфектно съвпадение. Концепцията за перфектно съвпадение е ключова. При традиционните системи с памет за превод преводачът все още трябва да проверява всяко съвпадение, тъй като няма начин да провери дали съвпадението е подходящо. Проверката обикновено се таксува в размер на 60% от цената на стандартния превод. При перфектно съвпадение няма нужда от проверка, което има положителен ефект върху цената на превода.
Регулируеми съвпадения в документа.
xml:tmможе също да се използва за регулируеми съвпадения в документ, които ще бъдат по-подходящи за даден документ от обикновените регулируеми съвпадения на преводаческата памет.
Когато превеждате xml:tm документ, процесът на превод гарантира перфектно съвпадащи текстови единици на изходния и целевия език. Те могат да се използват последователно и автоматично за създаване на допълнителна памет за преводи.
Неясни съвпадения в документа.
Текстовите единици, съдържащи се в базата данни с регулируема памет, могат също да се използват за създаване на размити съвпадения с подобен преди това преведен текст. На практика размитите съвпадения са малко полезни за преводача, освен ако текстовите единици не са достатъчно дълги и разликата между оригинала и съществуващото изречение е много малка.
В техническите документи често можете да видите голям брой текстови единици, съставени само от цифри, букви, цифри, пунктуация и мерни единици. С помощта на xml:tm такива единици могат да бъдат определени при писане на текст и маркирани като непреводими, като по този начин се намалява броят на думите за превод. За текстови единици, състоящи се само от цифри и мерни единици, разделителите за десетици и хиляди могат да бъдат автоматично конвертирани според изискванията на целевия език.
Следното е пример за непреводим текст в xml:tm:
И пример за свързан текст:

Брой думи
Резултатът от процеса на извличане на текст се използва от клиента за автоматично преброяване на думи и съвпадения. Това дава възможност да се контролира броя на думите към него, а не към доставчика. Тази разлика е значителна, тя ви позволява да контролирате по-строго разходите.
XLIFF и онлайн превод
Схематрадиционен превод:

В схемата за превод xml:tm цялата обработка се извършва в клиентската среда:

Ползи от използването на xml:tm
По-долу е даден списък на основните предимства на подхода xml:tm за създаване и превод на текстове:
Автоматично генериране на статистика за писане на текст.
Автоматично подравняване на изходния и целевия текст.
Перфектно съответствие на превода за непроменени текстови единици.
Регулирани съвпадения и съвпадения на променени текстови единици в документа.
Автоматично генериране на статистика за броя на думите.
Автоматично създаване на перфектни, регулируеми, предварително модифицирани или размити съвпадения.
Защита на структурата на оригиналния документ.
Възможност за създаване на онлайн достъп за преводачи.
Възможност за незабележимо използване за преходни трансфери.
Заключение
xml:tm е технология, базирана на пространство от имена, създадена и поддържана от компанията Xml-Intl, която разчита на XML и XLIFF в полза на XML общността. Подробности за дефинициите xml:tm (дефиниция на XML тип данни и XML схема) са на сайта Xml-Intl. В допълнение, Xml-Intl предоставя имплементация на xml:tm с помощта на Java и Oracle, включително лингвистично насочени съвпадения, както управлявани от база данни, така и размити.
Предвижда се да се разшири пространството на имената на текстовата памет с граматическо пространство на имената, за да се позволи вграждане на граматическа информация в XML документи и нейния обмен между приложения.
xml:tm е най-подходящ за внедряване на корпоративно ниво за фирми с големи годишни нужди от превод и големи системи за управление на документи. В процес на внедряване на xml:tmинтегриран в системата за управление на документи на клиента.
Подходът xml:tm намалява разходите за превод по следните начини:
Преводната памет се съхранява от клиента в документи.
Перфектното съвпадение намалява разходите за превод, като елиминира необходимостта преводачите да проверяват такива съвпадения.
Съпоставянето на преводната памет е много по-добре фокусирано, отколкото при традиционните системи с преводна памет, което води до по-добри резултати.
Възможност за междинна обработка на преводната памет чрез преходен език.
Цялата преводна памет, извличането и обединяването се извършват автоматично, не е необходима ръчна намеса.
Преводът може да се извърши директно през сайта на клиента.