Пара слов про машинный перевод…

Музыкой, т. е. работой, навеяло. В окрестностях НГ я кое-чего успел почитать про «достижения» МП за прошлый год (Adaptive MT, NMT vs. PBMT (и когда они успели еще одно сокращение выдумать?!)) и т. п. С тех пор все собираюсь, да никак не соберусь, что-нибудь [злобное] про состояние MT написать.

А за последнюю примерно неделю была пара заказов, заставивших в очередной раз задуматься.

Первый – примерно 600 слов на как бы примитивнейшую тему ССБТ (система стандартов безопасности труда).

Своими словами содержание мог бы (без особых искажений) пересказать за две минуты.

Угробил практически целый день на чтение стандартов ЕС (на которые ссылались создатели документа), их пересказов по-русски, ГОСТов Р, СТП, СТО и т. п.

Попытался представить себе (и даже проверил), что система МП сотворила бы на моем месте.

Второй – слайды на тему некоторого набора достаточно традиционных (не хайтек) технологий и связанных с ними ТУ, регламентов и пр.

При переводе второго возник ряд вопросов к автору по поводу физической бессмысленности написанного. (Должно же быть ровно наоборот!) После третьего (примерно) прочтения дошло, что автор, может быть, и крив, но я с претензиями — так и вовсе неправ.

Пример моей неправоты (кривой и «условно говоря») – написано автором и прочитано переводчиком: «во избежание таких-то нежелательных последствий необходима максимальная пластичность при таких-то температурах». На самом деле означает (примерно и тоже криво) «во избежание таких-то нежелательных последствий необходимо задать предел пластичности, которая при таких-то температурах не должна превышать…». (Автор всего лишь не очень внятно процитировал давно сидящий у него в печенках стандарт, который он слайдов за десять до того упоминал.)

К чему я все это излагаю?

К тому, что, разработчики МП, похоже, свято веруют в то, что, если найти волшебную палочку (нынешняя, как кажется, нейронные сети; до того были «большие данные», «чистые данные» и пр.), то, произведя некоторые манипуляции такой палочкой, пригодный к употреблению результат можно получить по схеме «набор закорючек > набор закорючек», больше никуда не подглядывая и об устройстве мира за пределами наборов закорючек ничего не зная.

Два упомянутых заказа мне представляются довольно наглядной иллюстрацией связанных с таким подходом проблем.

1. 600 слов про ССБТ
Один «канонический» исходник по версии ЕС – много разных и разнородных изложений [примерно] того же самого по-русски. Как выбрать более-менее уместный вариант?

2. Как ни толкуй набор закорючек сам по себе, получается бессмыслица. Чтобы понять, о чем это было, нужно заглянуть хотя бы в (а) учебник по сопромату и (б) в несколько мест в другом не обозначенном прямо наборе закорючек (стандарте в печенках автора).

И как этим ходам «научить» МП?

Рубрики: Разное
26 февраля 2017 Константин Лакшин \| 7 комментариев

Никита Сироткин

Наверное, дело в том, что ключевое умение переводчика — чётко и правильно излагать мысль на родном языке. А одна из фундаментальных проблем работы переводчика — в том, что мысли на языке оригинала очень часто изложены недостаточно правильно и не вполне чётко. Тогда получается, что необходимо автоматизировать процесс редактирования, придания правильности и чёткости. Но это, похоже, совсем не та задача, которую ставят перед собой разработчики систем машинного перевода. Или в этом направлении работа тоже ведётся7

27 февраля 2017 8:10

Uncle A

«Как этим ходам «научить» МП?»
Известно — как. Создать искусственный интеллект, образовать и воспитать его, а потом послать работать. См., например, А.Азимова «Я — робот». Там все исчерпывающе изложено.

2 марта 2017 20:58

Bruja Agata

Разработчики МТ этого не афишируют, но они же работают не на голом энтузиазме и не из любви к искусству. Или, вернее, из любви не только к искусству. По тому, как интенсивно продвигают редактирование машинного перевода и как популярна эта тема становится на разных площадках, думается мне, первичная цель заказчиков этих разработок — совсем не решение основной переводческой задачи со всеми ее переменными (эквивалентность, адекватность и пр). 🙂
Цель — удешевить переводческий труд, а, следовательно, и затраты бизнеса на перевод.

В общем-то, вполне естественный процесс.

2 марта 2017 22:06

Бычара

Цель совсем не в одешевлении, сами понимаете же, а в одушевлении прагматичного МП для терпких-слащавых текстов, когда на этапе послередактирования «выход» становится человеческим. Для справки: 1 млн знаков за 1200 рублей = профит, не нужно вообще ничего, кроме денег, для подписки у Google.

PS @@их пересказов по-русски, ГОСТов Р, СТП, СТО и @@
Странно ссылаться на ГОСТ Р, который чисто для справки теперь.

16 мая 2017 18:10 Войдите, чтобы ответить
- Bruja Agata
  
  Отличная бизнес-модель, только нам в ней нет места. Буду зубами держаться за вымирающих заказчиков, но пока можно прожить без PEMT, принципиально не буду им заниматься.
  
  16 мая 2017 18:38 Войдите, чтобы ответить

drudjuk

Сильно подозреваю, что у Гугла (говорю только про него) одна из основных целей — это отработка алгоритмов для анализа текстов (сюда же все «волшебные палочки», которые можно назвать).

А алгоритмы эти — это, во-первых, источник рекламных денег и власти (поиск через интернет) и, во-вторых, источник доходов при решении каких-то более специфических задач. В том числе, может быть, связанных и с переводом в каких-то ограниченных, формальных условиях. Но не обязательно. Если подумать, как часто при работе над какими-то массивами данных нужен анализ текста, — выходит так, что это должно быть лукративное дело.

То есть я согласен, что «сильный ИИ» современными средствами не построишь. Но, я думаю, Гугл и другие — отнюдь «не дураки» и стремятся вовсе не к этому. «Сильный ИИ» — это такое очень неконкретное понятие и игрушка для нас, дилетантов. Ну, ещё для философов…

3 марта 2017 1:36

Moonranger

Лучший из МТ пока Гугл. И прогресс очень большой за последние 5 лет. Все и почти все тексты с формальной семантической структурой- уставы, доверенности, спецификации, контракты Гугл переводит лучше, чем очень многие переводчики со средней квалификацией.
В общем очевиден прогресс в разработке алгоритмов, хотя прорыв пока не намечается в силу того, что нужен принципиально другой подход к разработке этих алгоритмов, который реализовать невозможно на данный момент по причине технологической. Вопрос времени.

18 марта 2017 15:22

Что вижу, то и пою

Пара слов про машинный перевод…

7 комментариев Пара слов про машинный перевод…