Получил на посмотреть в полуфункциональном состоянии первый модуль программы-наследника MT2007.
Проект наследника в большой степени, можно сказать, хулигански-развлекательный (подразнить крупных кошачьих, кодовое имя Catnip).
Одна из дразнилок — встраивание лингвистических алгоритмов для (а) сегментации, (б) создания «терминологических» баз с морфологией, (в) поиска похожего и автоматической сборки возможно правильных переводов.
Еще одна дразнилка — создание «терминов» и правил их подстановки на основе регулярных выражений с упрощенным интерфейсом и набором шаблонов для наиболее вероятных преобразований (типа «поменять местами», «вставить посередине нужное из списка моделей», «согласовать род и падеж» и пр.).
Еще из нового (по сравнению с МТ2007) в наследнике…
1. Поддержка проектов из нескольких файлов (черновик модуля создания проекта я, собственно говоря, и разглядывал). Из интересного, как мне показалось: возможность включать в проект (в дополнение к переводимым файлам, существующим ТМ и пр.) «справочную литературу», т. е. документы, на которые ТМ нет, но в которые заглядывать приходится.
(Кстати, поскольку в том, на что я смотрел, пока сегментация на основе лингвистических данных (WordNet) не встроена, вдруг становится очевидно, насколько при подключении «лингвистики» сегментация лучше.)
2. Модульная архитектура с возможностью встраивания дополнительных правил и процедур обработки для конкретных языков или типов текстов.
Пока выглядит довольно интересно. Бум посмотреть.
|
Наследник как и пращур под вантуз написан?
Увы, под вантуз (хотя эти и не очень правильно). Поскольку пользователей раз, два и обчелся, а настырных пользователей и того меньше, пишется в том, в чем разработчику на данный момент интересно «на кошках потренироваться» (.NET 3.5), и то, о чем настырные пользователи просят в первую очередь. Наиболее настырному пользователю (т. е. мне) хочется потрогать руками TEnT с морфологией и возможностью задания дополнительных правил обработки более-менее «на лету», что и было прописано в ТЗ. Требования к универсальности, или хотя бы к возможности работать на «правильной стороне» моего MacBook’a в ТЗ не фигурировали.
Сейчас рулят веб-приложения, облачные вычисления и совместная работа.
Если программа не умеет чего-нибудь из этого, она отстала безнадежно.
А как дела еще через годочек?
А как дела еще через годочек?
Пять вечеров! Ну, не пять, наверное, а все-таки двадцать пять.
Примерно столько, по моим прикидкам, потрачено разработчиком за год на собственно писАние наследника.
Тем не менее, появился новый костяк, перенесенный в .NET 4 (отчасти — прихоть разработчика, отчасти — производственная необходимость, т. к. под NET 4 появился ряд интересных опенсорсных модулей, включая морфологию) и снабженный комментариями. Кроме того, в нем реализовано несколько структурных решений общего характера, повышающих быстродействие и облегчающих встраивание сторонних модулей.
Руки у разработчика чешутся, но (в отсутствие интереса со стороны переводчиков) катастрофически не доходят.