Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация О нас пишут Награды Читальня Конкурсы Опросы
Страницы
Рубрики
Архивы

Что вижу, то и пою

Записки на манжетах сумасшедшего по поводу перевода

Подписаться на RSS  |   На главную

« »

Не прошло и полгода…

Получил на посмотреть в полуфункциональном состоянии первый модуль программы-наследника MT2007.

Проект наследника в большой степени, можно сказать, хулигански-развлекательный (подразнить крупных кошачьих, кодовое имя Catnip).

Одна из дразнилок — встраивание лингвистических алгоритмов для (а) сегментации, (б) создания «терминологических» баз с морфологией, (в) поиска похожего и автоматической сборки возможно правильных переводов.

Еще одна дразнилка — создание «терминов» и правил их подстановки на основе регулярных выражений с упрощенным интерфейсом и набором шаблонов для наиболее вероятных преобразований (типа «поменять местами», «вставить посередине нужное из списка моделей», «согласовать род и падеж» и пр.).

Еще из нового (по сравнению с МТ2007) в наследнике…

1. Поддержка проектов из нескольких файлов (черновик модуля создания проекта я, собственно говоря, и разглядывал). Из интересного, как мне показалось: возможность включать в проект (в дополнение к переводимым файлам, существующим ТМ и пр.) «справочную литературу», т. е. документы, на которые ТМ нет, но в которые заглядывать приходится.

(Кстати, поскольку в том, на что я смотрел, пока сегментация на основе лингвистических данных (WordNet) не встроена, вдруг становится очевидно, насколько при подключении «лингвистики» сегментация лучше.)

2. Модульная архитектура с возможностью встраивания дополнительных правил и процедур обработки для конкретных языков или типов текстов.

Пока выглядит довольно интересно. Бум посмотреть.


20 Февраль 2010 Константин Лакшин | Комментариев (5)


комментариев (5) к Не прошло и полгода…

  • Наследник как и пращур под вантуз написан?

  • Увы, под вантуз (хотя эти и не очень правильно). Поскольку пользователей раз, два и обчелся, а настырных пользователей и того меньше, пишется в том, в чем разработчику на данный момент интересно «на кошках потренироваться» (.NET 3.5), и то, о чем настырные пользователи просят в первую очередь. Наиболее настырному пользователю (т. е. мне) хочется потрогать руками TEnT с морфологией и возможностью задания дополнительных правил обработки более-менее «на лету», что и было прописано в ТЗ. Требования к универсальности, или хотя бы к возможности работать на «правильной стороне» моего MacBook’a в ТЗ не фигурировали.

  • Сейчас рулят веб-приложения, облачные вычисления и совместная работа.

    Если программа не умеет чего-нибудь из этого, она отстала безнадежно.

  • А как дела еще через годочек?

  • А как дела еще через годочек?

    Пять вечеров! Ну, не пять, наверное, а все-таки двадцать пять.

    Примерно столько, по моим прикидкам, потрачено разработчиком за год на собственно писАние наследника.

    Тем не менее, появился новый костяк, перенесенный в .NET 4 (отчасти — прихоть разработчика, отчасти — производственная необходимость, т. к. под NET 4 появился ряд интересных опенсорсных модулей, включая морфологию) и снабженный комментариями. Кроме того, в нем реализовано несколько структурных решений общего характера, повышающих быстродействие и облегчающих встраивание сторонних модулей.

    Руки у разработчика чешутся, но (в отсутствие интереса со стороны переводчиков) катастрофически не доходят.

Вы должны авторизоваться, чтобы оставлять комментарии.