вторник, 9 юни 2009 г.

Google translator kit - бомбата гръмна


Преди десет месеца писах за мистериозната услуга на Google: Google Translation Center. Беше изтекла една информация, някакви хора я бяха надушили, Google свали грандиозния проект и ни остави толкова време да се чудим ще я прави ли тази революция в превода или няма.

Е още на 9 юни новината бе съобщена*: Google ще ни помогне да преведем информацията на света с пакета инструменти за преводачи Google translator kit.

Моментално използвах гугълския си профил и проучих ситуацията. Google са решили, че ще обяснят на масовия потребител какво всъщност са сторили, като са направили връзка с машинния превод и услугата Google Translate, посочвайки, че носителите на езиците вече имат възможност да редактират превежданите автоматично текстове и така например да зареждат преводите на статии в Wikipedia и Knol в съответната езикова версия.

Аз ще разгледам новото постижение от гледна точка на преводачите:

1. Информацията отпреди 10 месеца беше, че „Google Translation Center (ще) е портал, където можете да търсите платен (или доброволен) превод на ваш текст за 40 езика.“ Да ама не. Името е сменено (старите връзки към „центъра“ вече сочат към „пакета инструменти“), защото е сменена идеята на продукта.

Google translator kit е онлайн програма за превод с помощта на компютър. Т.е. софтуер за сегментиране и превод на текстове чрез ползване на т.нар. „преводачески памети“. Взаимодействието с другите потребители се ограничава до споделянето на определени непублични памети.


2. Лесен и изключително интуитивен интерфейс. Бързо откривате, че не можете да създавате памет, а само да качвате съществуващи такива в ... .tmx формат (айде попариха масовия потребител). Ако речете да преведете даден документ, Google уведомява, че ако не си качите ваша памет, ще трябва да ползвате глобалната, която е публична.

Тоест: Google ще ползва вашите преводи за подобряване на своята система за статистически машинен превод, а останалите потребители на Google translator kit ще се възползват от труда ви, в случай че превеждат текст с подобна тематика (например някой устав на акционерно дружество).

3. Можете да превеждате: HTML (.html), Microsoft Word (.doc), OpenDocument Text (.odt), Plain Text (.txt), Rich Text (.rtf), уебстраници онлайн, статии в Wikipedia, статии в Knol.

4. За самата работа с Google translator kit:
- Одобрявам: вижда се колко думи е превежданият текст и до колко процента е завършен; много лесно се преминава между сегментите - има функция за масово търсене и заместване. В екрана за превод с едно натискане се показва прозорец с няколко раздела:

- Translation Search Results - ако има пълно или частично съвпадение с вече превеждан (от човек) текст, той се показва тук.
- Computer Translation - автоматичен превод на сегмента от Google Translate
- Glossary - ако сте си качили речник, ще виждате предложенията от него в този раздел
- Dictionary - речникът на Google

- Далеч не одобрявам: извиването на ръцете с паметите: защо пък да не можеш да си създадеш памет, ами трябва да ползваш тези от своя компютър или едната глобална памет? Клавишните комбинации са страшно неудобни. Не може да се търси отделна дума или израз в „човешките“ преводи, а само цели сегменти.

Ето и кратко разяснително видео:


Та определено това ще е новата ми софтуерна играчка. Ако сред вас има някой със същото намерение, може да обменим памети ;) - имейлът ми е metafrasi.org@gmail(.)com.

*Научих за събитието благодарение на връзката в туитър от Атанас Боев. Огромни благодарности :)
** Превежданото текстче на примерния екран по-горе е от сайта на SAP: реших да потърся класически gobbledygook с думите flexible tool functionality leading и се оказа, че SAP спечелиха най-висок резултат. Честито.
*** И понеже тръгнах с бонусите ;), ето един забавен блог за преводачи: http://mox.ingenierotraductor.com/. Прати ми го един много скъп приятел на блога, който е загрижен, че от толкова много политика, не ми остава време да се занимавам с любимите си теми :)

7 коментара:

  1. Абе я да си гледат работата. При наличие на толкова безплатни инструменти със същата функционалност да ползвам техния, при което и да им оставям резултатите от труда си - не, благодаря.
    Все пак ми е интересно каква съдба ще сполети този проект. Опитът за превод на Google на български от доброволци беше провал, по мое мнение. Интересно дали и тук ще действат същите фактори, или обратно, професионалистите ще го харесат, което ще вдигне качеството.
    От друга страна, на ProZ.com има една на пръв поглед похвална инициатива - glossary building. Екипът на сайта пуска разни въпроси за по-завъртени термини по езиковите двойки с идеята от отговорите да се направи публичен речник. Да, ама поне в английски-български работата нещо замря напоследък. И мисля, че разбирам защо. Интересно е дали този проект на Google ще мине по същия път.
    Е, аз изчезвам да работя със старите инструменти, от някои от които ми се повръща, но се изискват от клиента.

    ОтговорИзтриване
  2. Всъщност сетих се за едно предимство на този продукт. Позволява няколко души лесно да споделят преводни памети. Въпросът е дали това улеснение натежава срещу факта, че Google има достъп до тези памети, и до необходимостта да се използва уеб базиран интерфейс.

    А за TMX - не виждам какво те притеснява. Това е стандартен и отворен формат, тъй че ако някой продукт (като например орязаната безплатна версия на Idiom - Idiom Worldserver Desktop Workbench) не поддържа експорт към него, толкова по-зле за него.

    ОтговорИзтриване
  3. Добре си го казал :) Ще си ползваме старите инструменти, ще следим как се развива проектът и току-виж си направим общност за споделяне на памети.

    Иначе аз по-горе съм си казала всичко, но все пак: инструментът не е направен така, че да може да се ползва и от пълни лаици - много знае масовият потребител какво е tmx и с какво да си го направи... Но пък Гугъл са си прави за себе си: нема мое, нема твое...

    ОтговорИзтриване
  4. Translation's a bitch. It's either ugly or unfaithful. I think Voltaire said that some 2-300 years ago.

    ОтговорИзтриване
  5. Според мен закачката е другаде.

    Големите играчи на пазара за преводи ги тресе от някое време насам една мания: да си направят толкова всеобхватни бази от ТМ, че да могат да си внедрят машинен превод. И да ползват "живи" преводачи само за това, което остане след притранслейтването. (Друг въпрос е какво ще е крайното качество и колко ресурс ще им трябва за управление и поддръжка на тази база данни, но като са мераклии... ;)

    И тук Гугъл се намесва изневиделица. Без да е производител на CAT софтуер и без да е преводаческа агенция. На всичкото отгоре, осигурявайки TMX съвместимост, бие директно по всички агенции, залагащи на този формат, включително и по мастодонта SDL (които си трупат TM-и чрез собствената си глобална агенция SDL International още откак купиха Trados преди няколко години). Не че ще започнат (Гугъл, де) да "експроприират" потайно всички качени при тях памети - но просто по някое време ще излизат с по някой offer that you can't refuse - и сам ще се съгласяваш да ти ползват паметите.

    В добавка, Гугъл подсказва, че като нищо може да се ориентира към разработване на онлайн платформа за работа на преводачески екипи. Със споделяне на ТМ в реално време, средства за управление на проекти и all that jazz. Ако успее да осигури необходимата функционалност и сигурност, при това създавайки достатъчно просто за употреба приложение, направо ще издуха от пазара всичките workgroup варианти на съществуващите CAT инструменти - защото те станаха като слонове тежки вече, то направо не се трае. В момента се мъча с един Transit NXT, който (при това - в сравнително "лека" конфигурация) на Core Duo 1.6 GHz с 1.5 GB памет под Vista върви така, като че ли съм го пуснал на 486 :(

    А Гугъл разполага с няколко много важни ресурса за горепосочените цели. Първо, с търсещия си алгоритъм: concordance search по контекст - безценно! :) Второ, с достатъчно опит в сигурността на данните. Трето, с глобален изчислителен и storage ресурс плюс ноу-хау. И не на последно място - да си представим едно CAT приложение, което е качено някъде в Нет-а, използва distributed computing и ти дава достъп до търсене в огромни ТМ-и плюс фирмени речници, плюс уикипедии, онлайн дефиниции и т.н. - плюс инструменти за работа във виртуален екип. Като при това почти не ти товари компа, само иска стабилна Нет връзка. Ако това направят, направо ще убият змея.

    Но да видим какво ще стане. Сега-засега това, дето са го пуснали, ще бъде интересна занимавка за много хора, които въобще не са чували за CAT. И с тази занимавка Гугъл ще си съберат полезни наблюдения, ще дадат мегдан за проява на нови тенденции, а може би ще се излюпи и някой съвсем нов подход за преодоляване на езиковата бариера в глобален мащаб. Нещо съвсем различно от "модела Babelfish" - който все още служи като стандарт за компютърно подпомогната транс-езикова комуникация, въпреки че повече е повод за вицове, отколкото да върши кой знае каква работа.

    Въобще - в никакъв случай няма да скучаем :D

    ОтговорИзтриване
  6. Връщам се към тази тема, понеже в момента ми се налага да се позадълбоча в този инструмент. Някои от нещата, написани по-горе като недостатъци, вече са премахнати - можеш да си направиш своя празна памет.
    Но за жалост обемът на качваните документи е много малък: "total upto 1MB". А това е несериозно, защото е достатъчно да има три картинки от екран в документа от Word и той да стане 1 MB. Тъй и тъй документите се конвертират, преди да се вкарат за превод, така че изходният им обем не би трябвало да е ограничаващ.

    Коментар към коментара:
    "Не че ще започнат (Гугъл, де) да "експроприират" потайно всички качени при тях памети - но просто по някое време ще излизат с по някой offer that you can't refuse - и сам ще се съгласяваш да ти ползват паметите."
    Като прочетем общите условия, виждаме, че няма нищо потайно, а всичко е явно уговорено и подобно поведение е заложено от самото начало:
    By submitting your content through the Service, you grant Google the permission to use your content permanently to promote, improve or offer the Services. If Google publicly displays any of the content you submitted through the Service, Google will display only portion(s) and not the entirety of the content at one time.

    А това е проблем не само защото някой ще се възползва от труда ми, а и от гледна точка на конфиденциалност на информацията.

    И още един коментар по коментара - по повод работата онлайн. Инструментите на Lionbridge много се доближават до описаното хипотетично CAT-приложение. Имат почти всичко от описаното. Само че като нямаш връзка със сървърите, загиваш. И интересно, че каквито проблеми съм имал с връзката, са били от страна на сървъра, не от моята връзка. Разбира се, Lionbridge може и да са най-големите, но със сигурност са далеч зад Google като сървърни и мрежови ресурси.

    ОтговорИзтриване

Други публикации

С питане и до Цариград се стига

Големи компании вече показаха, че няма страшно в това да „пенсионират“ някои от услугите си, така че аз ще последвам примера им. Преди десет...