Синдром Вордфаста?

Что вижу, то и пою

Записки на манжетах сумасшедшего по поводу перевода

В данный момент вижу всякое разное относительно новое из инструментария для переводчика (TEnT, так сказать). Года два на такое не глядел, т. к. нашел нечто меня устраивающее.

Наблюдается, как мне кажется, забавная тенденция. Опиум становится доступнее для народа, но народ не очень-то реагирует на возможность заторчать по-своему. :=)

Вот что имеется в виду…

Лет тридцать тому назад инструментарий для перевода разрабатывали только очень крупные акулы (Сименс, Ай-Би-Эм и т. п.) исходя из собственных интересов (т. е. явно не для переводчика).

Лет десять-пятнадцать тому назад такой инструментарий стали разрабатывать гораздо менее крупные акулы и даже просто всякая мелочь пузатая без мотора (см. ForeignDesk, Rainbow, WordFisher, OmegaT, Wordfast и т. п.), которые стали заводить разговоры насчет учета нужд отдельных производителей переводов.

В последние несколько лет, как кажется, заняться инструментарием может практически кто угодно. Причем практически все выступают под лозунгом «сделано переводчиками для переводчиков»,

Вот тут-то и начинается синдром Вордфаста! (Собственно говоря, все то же самое применимо, как кажется, и к Омеге.) Поначалу все звучит очень заманчиво: обещают делать инструментарий под переводчика. В конечном счете, появляется маленький и более дешевый Традос, т. е. вместо инструмента, подстраиваемого под переводчика, появляется еще один инструмент, под который переводчику предлагается подстроиться.

В чем тут дело? У переводчиков не сложился образ полезного инструментария (машины для производства денег с нулевым налогообложением не рассматриваются)? Писать техническое задание ломает? Предлагаемый инструментарий более чем устраивает? Деньги не пахнут? Или?

Рубрики: CAT notes
20 июля 2009 Константин Лакшин \| 51 комментарий

51 комментарий Синдром Вордфаста?

Mikhail

Проблема в том, что у переводчиков очень разный и часто низкий уровень владения компьютером вообще. Т.е. для кого-то освоить достаточно простой инструмент типа Традоса в Ворде уже проблема, а кто-то сам пишет под свои нужды макросы и пр. Нету сформировавшейся более-менее единообразной по своим навыкам целевой аудитории. Отсюда и такое количество разного ПО. Помню пару лет назад читал у Йоста Деште, что в мире только 10% переводчиков пользуются средствами САТ. С тех пор мало что изменилось.

20 июля 2009 21:34 Войдите, чтобы ответить
Юрий В.

Аффтар жжот нипадецки! Но честно сознаюсь: смысл пламенного призыва к написанию ТЗ переводчиками от меня ускользает — неужели кто-то озаботится выпуском индивидуальных моделей бюджетных инвалидных колясок по чертежам будущих влалельцев? Или чО имелось ввиду?

20 июля 2009 21:38 Войдите, чтобы ответить
Boris Popov

Константин, Ив Шампольон (Yves Champollion) — «папа» WordFast — был в свое время переводчиком-фрилансером. Так что пример с WF не очень удачный.
А причина появления орды «кошек» ничем не отличается от причины появления множества программ для редактирования текстов. Разработчики в первую очередь хотят заработать денег, за редкими приятными исключениями типа MT 2007.
До уровня Déjà Vu, Trados и Transit дотянуть сложно — поэтому вместо работы над стабильностью и функциональностью продукта начинается агрессивная рекламная компания. Наглядный пример — реклама Nero Across (или как оно там называется) — кошка глючная и слабенькая, но интенсивный пеар дает свои плоды.
В результате одурманенные впендюрингом переводчики долго, упорно и без особых успехов пытаются въехать на горку на разномастных распиаренных «велосипедах» с двенадцатигранными колесами, погнутыми рулями и отваливающимися педалями.
А пользователи «большой тройки» (DV, Trados, Transit) c улыбкой смотрят на этот детский сад, и особо не торопятся переползать на новые велосипеды. Если ежикам так хочется обласкать кактус — пусть себе ласкают 🙂

20 июля 2009 22:13 Войдите, чтобы ответить
Константин Лакшин

Понимаете, Михаил, само по себе количество программ для переводчиков меня не смущает. Понятно же, что отрасль по определению сильно фрагментированная и разработать универсальное решение — задача та еще! Смущает же меня то, что, если, например, судить по обзорам и видео того же Йоста, новое ПО (1) преимущественно весьма однообразно и (2) по философии и структуре кажется продуктом эн-летней давности. Ведь сами пишут под свои нужды (понимая, полагаю, все недостатки написанного), не из принципа, а из-за того, что «под свои нужды» больше взять неоткуда! Доколе?! :=)

21 июля 2009 9:13 Войдите, чтобы ответить
Константин Лакшин

Борис, насколько я понимаю, вы относитесь к числу квалифицированных, если не чрезмерно квалифицированных, пользователей большой тройки. Так?

Соответственно, возникает вопрос: в любом из инструментов этой самой тройки есть все, что вам нужно?

21 июля 2009 10:16 Войдите, чтобы ответить
Константин Лакшин

Юрий, а как вы определяете «бюджетную» (инвалидную коляску)?

Мне кажется, что вложить процентов десять годового дохода в инвалидную коляску, повышающую его же, например, на двадцать,совершенно нормальное решение. Причем есть подозрение, что в абсолютном выражении, такая инвалидная коляска принесет разработчику больше денег, чем иные лимузины для крутых БП.

21 июля 2009 10:26 Войдите, чтобы ответить
Юрий В.

Константин, я вопрос выбора рабочего CAT давно решил в пользу Традоса.

21 июля 2009 17:25 Войдите, чтобы ответить
Kosta

а кто такой Йост Деште и где его можно почитать/посмотреть?

21 июля 2009 17:47 Войдите, чтобы ответить
eCat-Erina

Т сливает DV по части usability, потому что DV сделана для людей, а Т — для маркетологов и прибыли.

21 июля 2009 19:19 Войдите, чтобы ответить
Юрий В.

«машины для производства денег с нулевым налогообложением не рассматриваются»

21 июля 2009 19:29 Войдите, чтобы ответить
eCat-Erina

Юр, ты что хотел сказать? Не поняла, извини.

21 июля 2009 19:45 Войдите, чтобы ответить
Юрий В.

Да все просто, Кать. Ты сравни стоимость дежи и стоимость традоса. Если принимать их в расчет, то комплект из традос+sdlx покроет дежу как бык овцу.

21 июля 2009 20:29 Войдите, чтобы ответить
Mikhail

To Costa
Йост Деште — http://internationalwriters.com/
Рекомендую подписаться на рассылку — выходит два раза в месяц, описывает новое и неновое, но полезное ПО для переводчиков. На английском языке.

22 июля 2009 7:53 Войдите, чтобы ответить
Константин Лакшин

Для протокола… Про «машины для производства денег с нулевым налогообложением не рассматриваются» было сказано в шутку. Под «машиной для производства денег с нулевым налогообложением» подразумевался некий аналог скатерти-самобранки и золотой рыбки в одном флаконе, производящий деньги для переводчика.

А теперь из предыстории вопроса… На тему кошек публично выступал дважды, в самом конце прошлого тысячелетия (1998 и 1999). Не исключено, что довыступался до того, что оказался папой конкорданса в больших кошках. Прошу это заявление не воспринимать слишком всерьез, но…

…Мое первое выступление про кошек было довольно злобным и сводилось примерно к следующему: товарищи разработчики, вы предлагаете инструменты, в которых отсутствует ряд необходимых для нормальной работы функций; все эти функции широко используются и лингвистами, и программистами в их собственном инструментарии; алгоритмы известны и во многих случаях их можно получить бесплатно. Далее следовали нудные примеры перевода с использованием кошек в существовавшей на тот момент форме в сравнении с переводом того же самого с использованием бесплатных или малобюджетных средств, не упакованных как инструментарий для переводчика. Не подгладывая в архивы, помню, что речь шла о конкордансе, частотном анализе (на предмет выявления устойчивых словосочетаний) и регулярных выражениях. (Упоминались, вероятно, и еще какие-то функции.) Помню, что после доклада самые разные люди, в т. ч. представители разработчиков, просили рассказать еще или прислать ссылок насчет упомянутых «технологий». Ссылок прислал и забыл. Сильно задним числом обнаружил (как кажется), что конкорданс стал стандартной фичей больших кошек, судя по всему, начиная примерно с 1999 г.

Еще раз повторяю, что не надо меня воспринимать слишком всерьез. Тем не менее, я до сих пор не могу отделаться от впечатления, что даже один отдельно взятый транслейтор может (теоретически, гипотетически, в сказке) мало-мало повлиять на эволюцию инструментария.

Это к вопросу о писании ТЗ. Если долбать, то есть хотя бы минимальный шанс. Если не долбать, то шансов никаких.

22 июля 2009 8:48 Войдите, чтобы ответить
Юрий В.

И тем не менее, Константин, фраза «машины для производства денег с нулевым налогообложением не рассматриваются» очень хороша! 🙂

22 июля 2009 10:06 Войдите, чтобы ответить
Ronny

Константин, правильно ли я понял вашу мысль: вы не сильно довольны тем, что большинство переводчиков, попробовавших CAT-ы, остановились на одном (обычно первом) инструменте и не хотят развиваться дальше? Т.е. им проще привыкнуть к тому, что предложили, чем пытаться его докручивать или родить идею «своего» инструмента с нуля?

22 июля 2009 12:16 Войдите, чтобы ответить
Юрий В.

Скорее несколько удивлён, как мне кажется. Хотя ничего странного я тут не вижу.

23 июля 2009 12:14 Войдите, чтобы ответить
Константин Лакшин

Я бы сказал, что даже и не удивлен. Так, когнитивный диссонанс в легкой форме.

Посудите сами…

Казалось бы, что переводчики должны бы быть заинтересованы в функциональных возможностях инструментария где-то и как-то больше, чем производители, ибо именно они помогают переводчику жить лучше и веселей.

Переводчики пользуются компьютерами уже лет двадцать. Казалось бы, за это время можно было усвоить, чем компьютер отличается от печатной машинки. Лет десять-пятнадцать исходные документы в электронной (и редактируемой) форме — почти норма жизни, и примерно те же десять-пятнадцать лет существуют нормальные распознавалки.

С другой стороны, примерно столько же лет и Интернету для народных масс.

При этом, как кажется, наблюдается некоторый перекос. Например, кажется, что ряд полезных для переводческого инструментария функций реализован практически в любом поисковике (и тем более, в системах, заточенных на работу с корпусами текстов) в гораздо большей степени, чем в «кошках».

Зачинателей кошачьей темы, предположим, можно пропустить: не стреляйте в музыканта — он играет, как умеет. Идеологию они вынесли из больших корпораций, работавших совсем не в тех условиях, в которых работает современный переводчик, а существовавшие на тот момент технологии не сильно способствовали инновациям и экспериментам.

Дежа, как кажется, стала пинком в правильную сторону. Но в силу ряда причин все более-менее ограничилось пинком, т. е. на преобладающий тон общения разработчиков с пользователями (и наоборот) ее появление повлияло недостаточно.

Вордфаст, если память меня не подводит, был первым проектом под лозунгом «для переводчиков». Соответствует ли результат заявленному лозунгу? На мой взгляд — не соответствует.

С тех пор прошло еще лет десять. Кошек расплодилась масса. Тот же упоминавшийся ранее Йост на своем сайте сравнивает 15 (пятнадцать) «лидеров».

При этом возникает впечатление, что ни один из лидеров не соответствует по своему функционалу тому, чего можно было бы ожидать от кошки «мирового класса» в 2009 году;

Возникает вопрос: а почему? Музыкант по-прежнему играет, как умеет, а пипл хавает?! Почему до сих пор нет кошки (пусть с глюками) действительно «для переводчика»?!

24 июля 2009 8:41 Войдите, чтобы ответить
eCat-Erina

Костя, а чем ДВ не кошка «для переводчика»? Только стоимостью или еще чем-то на ваш взгляд?

24 июля 2009 8:44 Войдите, чтобы ответить
Ronny

А такой вот вопрос: у многих ли переводчиков сформировалось представление, какой ДОЛЖНА быть CAT? Я начинал с Trados-а, и мне тогда казалось, что это и есть идеальный вариант помощи переводчику (по сравнению с переводом в двух сплитах Ворда). На DVX перешел позже и то в силу обстоятельств (на второй компьютер Традос не встал, а нужно было работать на 2 местах с синхронизацией), и поначалу дергался на форумах: а вот в Традосе можно было так, а как же повторить это в DV? Сейчас излазил ДеЖу вдоль и поперек, и понял, что мои потребности она полностью удовлетворяет (еще бы небольшой список глюков долечить, и все). В сторону Тралоса и не гляжу теперь. Так что если меня бы попросили написать техзадание на CAT, боюсь вышло бы нечто сильно похожее на DVX (вот уж точно — дежавю :))

Может, мне повезло: инструмент лег идеально на решаемые задачи. У вас, вероятно, и опыта больше и задачи сложнее, что заставляет вас экспериментировать (давно читаю ветку про МТ2007).

Вопрос с подковыркой: а Windows вас устраивает? 🙂

24 июля 2009 9:47 Войдите, чтобы ответить
Юрий В.

Меня Word не устраивает. Он и сейчас по ряду возможностей компоновки документов сливает такому редактору (вернее, текстовому процессору), как WordPerfect 5.1 RU.

24 июля 2009 17:22 Войдите, чтобы ответить
Константин Лакшин

Катя и Ронни, я правильно понимаю, что вы говорите о «большой» Деже (professional и выше)?

Если да, то в ней, безусловно, содержится много возможностей и полезностей именно «для переводчика». Как, кстати говоря, и в Транзите, особенно в последнем.

Но вот, что интересно: похоже, что почему-то именно то, что «для переводчика» (в моем кривом понимании), в «базовые» версии не попадает.

Итак, встречный вопрос…

Кате — что именно в ДВ вы считаете предназначенным «для переводчика»?

Ронни — в силу каких особенностей «инструмент лег идеально на решаемые задачи»?

Предварительный ответ Кате…

1) А чем цена не угодила? Вроде бы при «правильных» обстоятельствах она должна отбиваться довольно быстро.

2) Кроме того, во всех кошках, условно говоря, прошлого тысячелетия имеется ряд, имхо, общих для них недостатков по части подгонки к процессу работы именно переводчика, а не всех прочих участников процесса. Пока напущу туману, а потом постараюсь расписать подробно. :=)

24 июля 2009 21:59 Войдите, чтобы ответить
Константин Лакшин

Мне и самому интересно «у многих ли переводчиков сформировалось представление, какой ДОЛЖНА быть CAT». Если верить опросу насчет кошек 2006 г. (http://www3.imperial.ac.uk/portal/pls/portallive/docs/1/7307707.PDF), то получается, что около 3% опрошенных сами для себя нечто пишут вместо готовенького, а чуть ли не 70% готовы поучаствовать в формировании образа кошки с человеческим лицом, т. е. поделиться своими соображениями с разработчиками.

При этом интересно, а что получится, если танцевать не от инструмента, а от пользователя, т. е. попросить переводчиков вспомнить, как они работают и составить, например, список операций, которые можно было бы (хотелось бы, было бы целесообразно) доверить железной пиле, т. е. кошке.

Собственно говоря, большАя часть проблемы состоит (как мне кажется) именно в том, что многие операции и функции, которые можно было бы передать машине с пользой для переводчика и без создания особых сложностей для разработчика, просто-напросто выпадают из поля зрения разработчиков, возможно, и потому, что переводчики не в состоянии внятно их сформулировать.

Простейший пример отсутствующего на поверхности функционала, для реализации которого у разработчика все необходимое имеется. Имеем в оригинале 000 Company, 111 Company и т. д. до 999 Company. Предположим, что в переводе должно быть «компания 000», «компания 111» и т. д. Предположим также, что речь идет о договоре или нескольких договорах, в которых переводчику практически с первой страницы видно, что все эти компании (с 000 по 999) «переводятся» единообразно, и интуитивно понятно, что каждая из них упоминается несколько десятков раз. Как в классических кошках (а) проверяется правильность «женской интуиции» переводчика, (б) задается правило (сегмент, терминологическая единица — нужное подставить, ненужное вычеркнуть), согласно которому все «### Company» преобразуются в «компания ###»?

Насчет Windows…

Во-первых, я изначально, человек маковский, т. е. они меня как бы не устраивают по определению, гы. Во-вторых, как бы не вижу подковырки. Выигрыш от пользования компьютером вместо карандаша и бумаги вроде бы очевиден. Возможности избежать операционной системы при пользовании компьютером вроде бы нет. Т. е. нет вариантов: если от компьютера есть выигрыш, приходится пользоваться и ОС. С кошками многое не столь явно: выигрыш в реальной производительности от пользования именно предлагаемым инструментарием для переводчика (по сравнению с другими компьютерными же решениями) гораздо менее очевиден, т. е. есть вариант кошками не пользоватся. Поэтому про ОС я помалкиваю, а про кошек выступаю. (Хотя бесит, например, что с разгону не получается выбрать эн документов в папке и скопировать их названия хотя бы в текстовый файл.)

25 июля 2009 8:54 Войдите, чтобы ответить
Ronny

Ох, столько вопросов, не упустить бы чего. Попробую:

1. Правильно, говорим о «большой» Деже. У меня воркгруп, хотя по таблице версий и профешнл устроила бы.
2. Особенности следующие: я не отношу себя к профессиональным переводчикам и не учился этому. Переводить начал в качестве мунлайта (подработки) и сразу с использованием CAT (я писал уже — начал с Традоса). Поэтому, какой процесс мне предложили (да собственно — какой уж там workflow у Традоса…), тем и пользуюсь, и наивно полагаю, что большинство переводчиков так и работает [хотя после «Сумерек» Глуховского оказалось — яка романтычна профессия… 🙂 ].
Меня же не учили, из чего состоит работа переводчика, как надо переводить и т.п. Все постигал сам, опять же опираясь на инструмент. Т.е. собственного видения техпроцесса переводчика, отличного от навязанного CAT, у меня не сформировалось. А по моей специфике текстов DVX подходит хорошо.
3. «попросить переводчиков вспомнить, как они работают» Думаю, что компьютеризированные молодые переводчики опишут свою работу в тесной связи с инструментом. Людям старой закалки вон вообще и Мультитран не нужен 🙂
4. По поводу вашего примера с компаниями. Возьмем тот же DVX. Как «### компания» он переведет, цифры подставит и потом можно по всему тексту проверку запустить на соответствие номеров. А вот чтобы получилось «компания ###»… Если это сочетание употребляется в одинаковых предложениях, то отличающиеся номера будут расставлены правильно. А если эта конструкция в разных предложениях, придется вручную менять местами «компанию» и «###» (благо, в DVX это одним шорткатом делается). А вообще поэкспериментирую!
5. По поводу подковырки с Windows 🙂 Я подумал, что тут причина может быть в явлении, которое описал С. Голубицкий — «каузалгический Улучшай», он же «Невроз Альтернативы». Дисклеймер: никому диагноза не ставлю 🙂

25 июля 2009 11:52 Войдите, чтобы ответить
Ronny

Без экспериментов обошелся, вспомнил (это про номера и ДеЖу). Например, в тексте: Figure X shows a screenshot Y of a… Мне нужно переводить так, чтобы числительные относились к существительному (если их 2 — то к первому), т.е.: Фиг. X показывает снимок Y экрана… Если занести в термбазу «screenshot = снимок экрана», то на выходе ДеЖи будет: Фиг. X показывает снимок экрана Y, мне нужно поменять место числительного. А если занести в лексикон всю конструкцию с номером, т.е. «screenshot Y = снимок Y экрана», то это сработает только на одинаковых номерах снимков. В каких-то случаях это прокатывает, скажем, «модуль 234 преобразования» упоминается по всему тексту с тем же номером 234. Но если номер сменится, то ДеЖа не подставит ничего в случае жесткого «screenshot Y = снимок Y экрана», а в случае гибкого «screenshot = снимок экрана» останется только поменять местами цифру (будет новая) и существительное. Потому что не интеллектуальничает, а тупо проверяет совпадение строк. Пока работаем так… Но и это по мне уже большая помощь

25 июля 2009 12:09 Войдите, чтобы ответить
Юрий В.

«Но вот, что интересно: похоже, что почему-то именно то, что “для переводчика” (в моем кривом понимании), в “базовые” версии не попадает.»

Элементарно, Ватсон ©

Ну на самом деле, Константин — это же банальные маркетинг и сегментирование процукции aka желание продать свое know-how подороже. Вот и всё.

25 июля 2009 19:14 Войдите, чтобы ответить
Константин Лакшин

«это же банальные маркетинг и сегментирование процукции aka желание продать свое know-how подороже»

Именно поэтому мне и бросилось в глаза, ЧТО ИМЕННО в той же Деже до сих вырезают.

26 июля 2009 5:45 Войдите, чтобы ответить
Константин Лакшин

Смотрите, Ронни, как интересно получается…

Вы сами объявили, что Традос лучше, чем Ворд, а Дежа гораздо лучше Традоса. Так ведь?

После этого вы же описали несколько операций в ДВ, включая правку вручную, ведущих к результату, который в Ворде достигается как бы «легким движением руки», т. е. одной глобальной заменой.

Это я не к тому, что Дежа, мол, сливает, а просто в качестве иллюстрации некоторой неоднозначности вопроса о реальной отдаче от использования тех или иных технических средств для переводчика.

Более того, в том же Ворде можно, например, быстренько сориентироваться на предмет того, что в сегменте Figure X shows a screenshot Y of a… правильнее заносить в «лексикон» (только сегмент целиком, с переменными, естественно, для X и Y, отдельные его части или и то и другое).

26 июля 2009 6:09 Войдите, чтобы ответить
Юрий В.

Константин, ну так ведь ДЕНЕГ ХОТЯТ. Что же тут удивляться?

26 июля 2009 12:18 Войдите, чтобы ответить
Константин Лакшин

ну так ведь ДЕНЕГ ХОТЯТ. Что же тут удивляться?

И поэтому то, за что деньги стоит платить, старательно прячут?! Могли бы Auto-Assemble, например, включить так, чтобы увидеть можно было бы, а в перевод вставить — фиг.

27 июля 2009 10:12 Войдите, чтобы ответить
Ronny

> т. е. одной глобальной заменой

Я бы не сказал, что в Ворде это тривиально. Подскажите, как заменить во всем документе сочетание «компания ХХХ» на «ХХХ компания», где ХХХ — любое число?

Тут, к.м.к., несправедливо сравнивать — в Ворде вообще переводить нельзя, можно набивать текст перевода 🙂 А вот Дежу с Традосом — можно. Первая мне нравится гораздо больше.

27 июля 2009 10:59 Войдите, чтобы ответить
Константин Лакшин

Подскажите, как заменить во всем документе сочетание “компания ХХХ” на “ХХХ компания”, где ХХХ — любое число?

Можно, я слегка сжульничаю и прочту «ХХХ — любое число» как «XXX — любая последовательность из трех цифр»? :=)

Если можно, то ответ такой…

Ctrl + H
Поставить галку Use Wildcards
В поле Find: компания ([0-9][0-9][0-9])
В поле Replace: \1 компания
Жмем Replace All

27 июля 2009 20:12 Войдите, чтобы ответить
Константин Лакшин

Тут, к.м.к., несправедливо сравнивать — в Ворде вообще переводить нельзя, можно набивать текст перевода А вот Дежу с Традосом — можно.

Хм, я уже собирался рявкнуть, что, мол, переводят в голове, а не в программе, а потом понял, что обязан вас категорически поблагодарить за подкинутую мысль, которая мне в голову не приходила.

Ведь головой и последующей набивкой текста перевода дело, пожалуй, никогда не ограничивалось.

Вот, даже в цепочке карандаш и бумага-машинистка последняя была, предположим, только для набивки перевода, а карандашу и бумаге доставались некоторые функции протеза головы. Собственно говоря, те же самые, что и современным кошкам, например, закладки на предположительно повторяющихся фразах (ТМ), выписывание терминологии (лексикон), иногда даже теги (печатать в р а з р я д к у).

Забавно, что механическая пишущая машинка, пожалуй, заставляла в большей степени переводить в голове без протезов. Хотя она же облегчила накопление долгосрочной ТМ (печатать под копирку менее муторно, пмсм, чем писать).

Потом появился компьютер… Сначала документы на перевод поступали в основном на бумаге, т. е. на входе мало чего изменилось. Зато на последующих этапах работы «жить стало лучше, жить стало веселее» (с).

Оказалось, что можно вечером вывалить «на бумагу» непропеченный кусок перевода (pre-translate), а утром довести до ума. Стало просто переводить не в линейной последовательности и чередовать то, что можешь перевести во сне, с кусками, для которых действительно нужна голова (а у такого workflow, кстати говоря, есть еще пара полезных побочных эффектов). Выписанные давным-давно термины оказалось возможным вытаскивать тупым поиском. Стало просто копировать повторяющиеся или похожие куски и складывать новый перевод из старых. Появилась экономящая массу усилий функция автоматической замены (autocorrect).

Потом появились оригиналы в электронной форме. Протезирование продолжалось. Многое стало решаться средствами поиска и замены. Появился стимул для создания ТМ и терминологических баз в табличном формате и полуавтоматического «перевода» макросами с подглядыванием в них. После появления поддержки регулярных выражений и поиска в контексте (конкорданса) во многих текстовых процессорах они стали весьма эффективными средствами автоматизации переводческого труда.

А потом (точнее говоря, в то же время) началось нашествие кошек. И тут возникло несколько любопытных, пмсм, тенденций, о которых постараюсь написать в следующий раз…

27 июля 2009 23:32 Войдите, чтобы ответить
Константин Лакшин

Кошка — враг переводчика и лентяя.

Шутка — типа того. Но не совсем.

Никак не могу, понять что же (если отвлечься от впендюринга) произошло во времена первого нашествия кошек. (Хотя отвлечься от впендюринга довольно сложно.)

Возможно, мне мешает то, что поначалу я смотрел на них глазами технолога БП в большей степени, чем глазами переводчика.

Первые кошки были, насколько я помню, животными беспомощными, привередливыми, требующими ласки, внимания, ухода и преданности, но при этом совершенно неблагодарными.

Простейший пример с моей тогдашней колокольни… К моменту появления на свет, условно говоря, второй редакции проектной документации на обустройство какого-нибудь наземного месторождения средней руки, практически все, что может про него сказать проектировщик, уже сказано. Остаются только вариации и перепевы. Моя работа в течение нескольких лет в большой степени заключалась в том, чтобы поймать и записать мелодию перепевов и настроить механическое пианино соответствующим образом.

При этом все эти вариации и перепевы на тот момент плохо укладывались в сознании кошек. Сходство между спецификацией, опросным листом и упаковочным листом с разгону они понимали гораздо хуже, чем тупейшие макрос с БД в текстовом формате, которые, к тому же не лезли, куда их не просят.

Кошки же требовали алайнмента, а еще и того, и сего, и другого, и третьего, а потом выдавали чушь собачью. Поскольку я никак не Куклачев, мне было проще плюнуть и не пытаться дрессировать кошек.

Потом мне пришлось взглянуть на них с другой стороны, глазами переводчика (но не повязанного по рукам и ногам требованиями БП). Кошки к тому времени поумнели и многому научились, но, увы, не совсем тому, чего мне хотелось. Т. е. получалось баш на баш: в чем-то признанные кошки выигрывали, а в чем то уступали подручным и доморощенным средствам…

Но это все так — прелюдия…

Сказанное вами, Ронни, навело меня на мысль, что дело может быть еще и в том, что сам факт объявления чего-то инструментом для перевода (переводчика), с одной стороны, (1) привлек внимание заметно более широкого круга пользователей к возможности урвать нечто «на халяву» за счет железной компьютерной пилы, а с другой, (2) навязал «халявщикам» заданную систему координат. В результате, полезные свойства существующих кошек пользователям видны, а структурные недостатки как бы не укладываются в голове.

29 июля 2009 7:55 Войдите, чтобы ответить
Юрий В.

На мой неискушенный взгляд основных преимуществ у кошек два:

1. Возможнось стандартизации используемой терминологии (в том числе — с разбивкой по клиентам). Это конкорданс и/или терминологические базы.
2. Помощь в переводе за счет ассистирования — т.е. подсказка переводчику ранее использованных вариантов при заданной похожести текстов.

А вот к недостаткам кошек можно (да и нужно) отнести навязываемую ими сегментацию текста. По этой самой причине я предпочитаю использовать в работе с текстами не Tageditor+Workbench, а Word+Workbench. Почему? В случае с Word’ом проще, как правило, растягивать сегментацию в соответствии с требованиями языка перевода.

29 июля 2009 11:22 Войдите, чтобы ответить
Константин Лакшин

А вот к недостаткам кошек можно (да и нужно) отнести навязываемую ими сегментацию текста.

Юрий, я правильно понимаю, что вы говорите о следующих ситуациях?

1. В оригинале ТРИ предложения (или сегмента, если с точки зрения кошки), а в переводе должно быть ОДНО.

2. В оригинале ТРИ предложения (1-2-3) и в переводе ТРИ предложения, НО 3-2-1.

——————

Я, кстати говоря, когда писал про «древних» кошек, что «вариации и перепевы на тот момент плохо укладывались в сознании кошек», имел в виду как бы оборотную сторону медали или модели сегментации и структуризации кошками того, что было на входе, т. е. неспособность и неготовность вычленять «формулы» в тексте.

В качестве упрощенной иллюстрации…

Предположим, как-то там перевели «Карл у Клары украл кораллы».

Потом появляется «А Клара у Карла украла кларнет». Кошку эта мысль поражает новизной. Совместными усилиями справляемся с задачей.

Через некоторое время возникает «Жан у Жанны украл бананы».

А потом: «A Жанна у Жана украла багет».

Бьемся с кошкой в истерике, поскольку такого у нас впереди еще немеряно, а Дедушка Лев приближается (напоминаю, что речь шла о древних кошках, в которых добавить чего-нибудь от себя в терминологическую базу на ходу было задачей не вполне тривиальной).

30 июля 2009 7:46 Войдите, чтобы ответить
Константин Лакшин

Продолжаю петь, что вижу (или видел) на этой неделе. Поставил пробную версию Дежи… Первые впечатления…

Неприятно удивила медлительность импорта. Сдуру стал импортировать файл, с которым сейчас работаю. Страниц под 150. Состоит из несложных таблиц в Ворде. На импорт ушло минут семь-десять, т. е. через десять он был импортирован, а через шесть на экране еще был градусник.

Как и ожидалось, довольно много «для переводчика». Лексикон, например, т. е. возможность относительно быстро задать некоторые предпочтительные варианты для текущего проекта, не вдаваясь в подробности terminology management.

Негатив (с точки зрения переводчика) про тот же лексикон, терминологическую базу и частотный анализ (не исключено, что сам дурак и не разобрался): понятно, что в программе, как в Греции, «есть все», но почему-то из основного окна перевода вносить терминологию (и вхождения в лексиконе) приходится вслепую, т. е. очевидно, что про любое слово или словосочетание известно (как минимум), сколько раз оно встречается в проекте но мне об этом с разгону ничего не рассказывают.

Как переводчика, меня лично обычно проспективная часть интересует больше, чем ретроспективная, т. е. поддержка оперативного принятия правильных и обоснованных решений отсюда и до дедлайна мне важнее, чем просто вытаскивание (с последующей рихтовкой) переведенного когда-то там давно. Но это, вероятно, специфика того, что мне доводится переводить. Документы, в которых предложения одни и те же, а вот порядок их меняется настолько, что Track Changes дохнет, мне попадаются не слишком часто. Скорее наоборот — по содержанию и структуре все в достаточной степени однообразно, а по форме (которую способны уловить кошки) — фиг вам.

8 августа 2009 8:04 Войдите, чтобы ответить
Boris Popov

Константин, а попробуйте сперва сделать RTFM, а потом уже высказывать мнение о программе.
А то пока получается в духе «я прочитал только предисловие, но автора уже осуждаю».

8 августа 2009 23:10 Войдите, чтобы ответить
Константин Лакшин

«…попробуйте сперва сделать RTFM…»

Упражнениями на тему RTFM я последний раз занимался на позапрошлой неделе. Только забыл спеть, чего видал.

А вот про «прочитал только предисловие» подмечено совершенно верно. У меня, собственно говоря, имеется собственная ретроградская система знакомства с инструментарием, в которой есть место и для «прочитал только предисловие». (И пусть дурь моя каждому видна будет — авось, кому пригодится. Я же, в конце концов, не приговор выношу, а просто делюсь впечатлениями.)

Первый шаг, если после чтения TFM по диагонали желание знакомиться не пропало, состоит из двух или трех частей: (1) открытие файла предложений из пяти и изучение в нем общего функционала; (2) перевод небольшого документа, в котором от накопителя никакой особой пользы не ожидается, чтобы понять, насколько новая среда влияет на привычный ход работы (замедляет, ускоряет, никак не влияет) и, если замедляет или ускоряет, то насколько (и чем именно) (понятно, что если замедляет непривычностью интерфейса и (или) горячих клавиш, то с этом бороться не очень сложно, можно и даже (вероятно) нужно, а вот если, предположим, замедляет тем, что после перебора нескольких вариантов настройки, на сохранение каждого сегмента из трех слов уходит по 30 секунд, то желание бороться быстро пропадает.); (3) открытие того, что переводишь в данный момент, или какого-нибудь достаточно (для меня лично) представительного файла, про который еще не все забыл напрочь, и прикидочное сравнение производительности и организации труда в привычной модели работы (с кошкой или без нее) с тем, как оно происходит (для меня чайника) в новом инструменте.

С Дежей я п.(2) пропустил, т. к. ничего подходящего под рукой не было.

В качестве первой проверки использовал описание правил игры в камень-ножницы-бумага.

По п. 3 использовал то, что сейчас перевожу.

В результате…

(1) Не нашел возможности при выборе как бы термина *тут же* узнать, сколько раз он встречается в «проекте» (хотя строящий лексикон анализатор это знает) или хотя бы увидеть все вхождения в разных контекстах в удобочитаемой форме. Надеюсь, не надо объяснять, чем получение такой информации «легким движением руки» с прагматической точки зрения отличается от получения ее же после пяти кликов. Это к вопросу о «вслепую».

(2) Не нашел возможности свести правила игры в камень-ножницы-бумага к регулярным выражениям (хотя они напрашиваются именно на такую обработку).

(3) Был несколько удивлен медлительностью импорта (.doc и .rtf), хотя это, вероятно, не очень принципиально.

Буду рад, если ткнут носом в ответы насчет (1) и (2).

10 августа 2009 9:06 Войдите, чтобы ответить
Ronny

ПО поводу (1) и (2) как раз не ткну :), а вот наблюдения по п. (3) имеются. Заметил, что сильно долго импортирует файл doc, в котором много кодов (которые в Деже потом выливаются в такие неприятности, как «ass{3}emble{4}», к примеру. Мне помогает сборник макросов CodeZapper, обсуждаемый на форумах ДеЖи и в техгруппе Yahoo. Там есть макрос для вычистки этих rogue codes — в разы (!)становится меньше, остаются действительно нужные — символы других алфавитов, нижние индексы и проч. Конечно, если вам нужен чистый документ — скажем, включенный track changes оставляет очень много кодов, и макрос их все вынесет. Мне они как раз не нужны, а кому-то очень даже.

10 августа 2009 9:45 Войдите, чтобы ответить
Ronny

Не слышал про регулярные выражения в Деже. Хотя алгоритм подстановки есть. Скажем, если в термбазе (или в лексиконе) есть «silver cat», и потом встречается «black cat», и так же есть отдельно «silver» (не уверен, что нужен, и «black» (точно нужен), то ДеЖа подставит «черный». Несколько раз наблюдал. Также наблюдал и очевидные глюки — есть в лексиконе, а не подставляет. А если еще раз добавляешь — и издевается: мол, есть уже пара в лексиконе!
Да, самому помечать фиксированную и переменную часть конструкции было бы удобно (это к вопросу о перестановках, который мы выше обсуждали)

10 августа 2009 9:51 Войдите, чтобы ответить
Mikhail

Константин, не уверен, что правильно Вас понял, но по пункту (1) в Деже есть хорошая функция Filter on Selection — выделяете слово (или словосочетание), нажимаете правую кнопку мыши, выбираете Filter on Selection — в окне остаются только те предложения, в которых встречается это слово (словосочетание). Работает как в отношении исходного текста, так и перевода (когда документ уже переведен). Лучше всего работает, естественно, в отношении английского и других не-флективных языков.
Насчет скорости импорта — у меня ДВ зависала минут на 10, когда импортрировались большие таблицы в Excel или презентации в Power Point. Много «паразитных» кодов дают файлы, распознанные через FineReader. Об этом довольно много говорилось на нашем форуме.

Вообще, ДВ это такой разнообразный инструмент, что после 4 лет практически ежедневной работы с ним я постоянно открываю для себя новые и полезные функции.

11 августа 2009 7:10 Войдите, чтобы ответить
Ronny

Filter on Selection — хорошая функция, но мне хватило пары раз, когда она НЕ показала сегмент, содержащий вхождение, который отыскивался через простой Find. Не знаю, почему. С тех пор не доверяю.
К.м.к., Константин имел в виду возможность тут же узнать, стоит ли вносить слово/словосочетание в лексикон, если оно потом лишь пару раз по тексту встретится. Узнать это можно (как минимум, уже 2 способа есть), но для этого нужно сделать несколько телодвижений, чему Константин и противился…

11 августа 2009 12:09 Войдите, чтобы ответить
Mikhail

2Ronnny
У меня функция Filter on Selection работает вполне корректно.
При построении лексикона в ДВ можно выстроить слова (фразы) по количеству повторений в тексте. Чтобы самые частотные были вверху.

11 августа 2009 13:39 Войдите, чтобы ответить
Константин Лакшин

Узнать это можно (как минимум, уже 2 способа есть), но для этого нужно сделать несколько телодвижений, чему Константин и противился…

Я не противлюсь *нескольким* телодвижениям чисто из принципа.

Я просто деньги считаю — те самые, которые время.

Предположим, что некто печатает со скоростью 60 wpm (условных слов (по пять знаков каждое) в минуту). Понятно же, что если некто задумывается о том, чтобы добавить что-нибудь тупое (название организации, например) хоть в Autotext, хоть в лексикон, хоть в терминологическую базу, то тратить на добавление названия длиной 3 wpm, которое встречается в данном проекте 10 раз, больше 27 секунд не очень интересно.

Это все к тому, что сама по себе возможность получить требуемый результат — это замечательно. Но, как известно, дорога ложка к обеду.

У меня же пока складывается впечатление, что на получение оперативной справки о том, сколько времени (или мозговых ресурсов) можно сэкономить, если правильно «угадать», что стоит «запомнить на ближайшее будущее», а что нет, даже в Деже уходит непропорционально много времени.

Вот такая иллюстрация про ложку к обеду с преднамеренным преувеличением, если угодно… У, предположим, меня имеется идеальный механический переводчик. Переводит не хуже условного меня и в десять раз быстрее. Одна беда — загрузка исходника занимает не меньше часа. Имеет ли смысл включать его, если просят перевести десять слов в ближайшие полчаса?

17 августа 2009 10:13 Войдите, чтобы ответить
Mikhail

Константин, ваши соображения понятны и близки. Однако можно посмотреть и в более широком контексте — т.е. учесть, что у вас предвидится целый поток документов по этой теме. Тогда ценность внесения в Лексикон фраз и терминов повышается в разы.

17 августа 2009 17:47 Войдите, чтобы ответить
Константин Лакшин

Пожалуй, пора попробовать ответить на Катин вопрос, безответственно, но с некоторыми подробностями.

Чем Дежа не кошка «для переводчика»?

Если совсем коротко, то масштаб не тот, и философия половинчатая

1. Сначала про половинчатость философии…

Про традиционных кошек Майкл Бенис в хвалебной статье про DVX (2003 г.) писал вот такое:

«Translation Memory … largely being of use in the application for which it was originally intended, namely revisions of previously translated documents or families of documents with highly modular content.»

И это правильно! Надеюсь не надо напоминать, кто, когда и зачем начал разрабатывать и внедрять TM?!

Там же (в качестве предисловия к хвалебной оде Деже):
«When you buy a CAT tool, you’re not just buying Translation Memory, you’re buying an integrated suite of products, all expressly designed to help improve the quality and productivity of a translator’s work.»

И это верно! И Дежу он дальше в той же статье правильно хвалит.

Но в Деже впрягли-таки в одну телегу…

В результате получилось, что большой набор средств и функциональных возможностей присутствует — это бесспорно, а вот насчет их «заточенности под переводчика» возможны разные мнения.

Мое личное мнение такое…

«Заточенный под переводчика» инструмент должен обладать следующими фундаментальными свойствами:

1. не отвлекать от профильного занятия, т. е. перевода;
2. в максимальной степени подстраиваться под переводчика, а не навязывать свою схему;
3. давать ощутимый положительный эффект на объемах, сопоставимых с выработкой за один рабочий день.

Все остальное, пожалуй можно свести к этом трем свойствам.

Что я, не полностью прочтя предисловие, заметил в Деже…

1. Отвлекающие факторы:
1) коды (особенно, когда они становятся четырехзначными);
2) индикатор ошибки в кодах.

2. Дефекты по части подстройки под переводчика:
1. индикатор ошибки в кодах, отвлекающий при перескакивании через сегменты при включенном auto-xxx и, если не ошибаюсь, невозможность спрятать (или проигнорировать) все теги;
2. отсутствие средств для включения подстановочных символов в сохраняемое в лексиконе/терминологической базе — особенно на фоне их использования в поиске и задании разделителей сегментов;
3. ограничения на раскладку окон оригинала, перевода, найденного и пр.;
4. как кажется, некоторые сложности по части настройки обработки форматов дат, разделителей и т. п. (или я не там искал?).

3. Про эффект на суточной порции судить не берусь, т. к. не пробовал.

18 августа 2009 6:58 Войдите, чтобы ответить
Константин Лакшин

Однако можно посмотреть и в более широком контексте — т.е. учесть, что у вас предвидится целый поток документов по этой теме. Тогда ценность внесения в Лексикон фраз и терминов повышается в разы.

Безусловно, можно и учесть. Но тут возникает два вопроса: (а) определение темы и (б) нарезка потока?

(а) Если «тема» по определению похожа на то, для чего изначально делались средства работы с ТМ, то все именно так.

А если тема «трубопроводы магистральные», с подтемами КТК, Сах-1, Сах-2 и далее по порядку номеров, Штокман и пр.? Плюс обстоятельства от переводчика не зависящие: изменение состава участников, смена ген. подрядчика, изменение взглядов заказчика? OPF, EPF, IPF?

Что вносить прикажете, чтоб в разы повысить?

(б) Во-первых, что считать целым потоком? У меня, например, в некотором смысле «тем» раз-два и обчелся. Но при этом поток из одного источника может состоять из порций слов, предположим, по пятьдесят тысяч раз в квартал, и все по разным объектам. Причем каждая порция запросто может начинаться с пяти тысяч слов без обещания «потока». На уровне «темы» (при оценке человеком) они все практически одинаковые. На уровне перевода (и даже оригинала, если подходить с точки зрения формы, отлавливаемой кошками) «фраз и терминов» между ними не так уж и много общего.

Что делать?

18 августа 2009 7:37 Войдите, чтобы ответить
Ronny

Коды действительно раздражают. Особенно, когда из-за их вклинивания между словами ДеЖа не распознает совпадение из лексикона/термбазы — типа, это разные сочетания: слово1+слово2 и слово1+код+слово2. Я нашел, как мне казалось, панацею от этого: набор макросов CodeZapper, о котором писал выше (это для Ворда). Хотя буквально сегодня столкнулся с тем, что вычищенный Заппером документ спокойно открывается в Ворде, причем со всеми объектами, но Дежа не может его импортировать (и не говорит, почему — просто imported 0 documents). Какой-то лишний код убран, видать, который Ворду не мешает жить, а Дежа спотыкается. Пригодился бекап файла. Сижу вот снош… ковыряюсь с кодами, но хоть на этот раз по-божески: на 457 сегментов 361 код. Так что юзать с осторожностью.
Я просил программиста посмотреть код макроса, чтобы понимать, что тот вычищает. Возможно, попробуем сделать его настраиваемым, чтобы не все коды убирать, и тем самым не пугать Дежу.

19 августа 2009 17:37 Войдите, чтобы ответить
kirborisov

Очень интересная дискуссия, сохранил…

На самом деле, проблема намного шире: организация автоматизированной обработки и представления текстов. Здесь вам не только теги, глоссарии и подстановки из памяти, но и совместная работа, контроль версий и многое другое. Программисты сталкиваются с похожими задачами и успешно их решают. Правда, им проще 🙂

Что касается исходного сообщения, на этот счет у меня сложилось вполне определенное мнение. С одной стороны, 95% переводчиков крайне (!) нелюбопытны и консервативны. Им не то что на новую кошку перейти — TRADOS или SDLX выучить недосуг. Эти люди не будут составлять требования к идеальному CAT tool, куда-то писать, отправлять багрепорты и т.п. С другой стороны, крупные компании, у которых внедрен тот же Традос, по финансовым и организационным причинам не могут взять и «перескочить» на что-то радикально новое.

Третья причина, она же основная: чтобы написать идеальную «кошку», надо съесть собаку на крупных проектах по локализации чего-нибудь, желательно софта. У меня есть определенные соображения на этот счет, но не буду раскрывать их раньше срока.

30 июня 2010 19:31 Войдите, чтобы ответить

Вы должны авторизоваться, чтобы оставлять комментарии.