Еще про языки и Гугл-переводчика

Недавно заполнял анкету, составленную в основном по-английски, но содержавшую несколько вопросов по-испански. Из чисто хулиганских побуждений ответил на них на моем топорном испанском. А потом пришло в голову прогнать написанное через Гугл-переводчика. Результаты, по-моему, довольно забавные (испанский – как бы оригинал; остальное – перевод Гугла).

Veo que es solamente para interpretes españoles. Pero estudiaba ambos idiomas en la Unión Soviética hace tantos años, aunque no puedo decir que los aprendí. Además, producir oraciones completas en español es demasiado para mi después de vivir mas que la mitad de mi vida en los Estados Unidos.

I see that it is only for Spanish interpreters. But I studied both languages in the Soviet Union so many years ago, although I can not say I learned them. In addition, producing complete sentences in Spanish is too much for me after living more than half of my life in the United States.

Je vois qu’il est seulement pour les interprètes espagnols. Mais les deux langues étudiées dans l’Union soviétique il y a plusieurs années, bien que je ne peux pas dire que j’appris. Produisent également des phrases complètes en espagnol est trop pour moi après avoir vécu plus de la moitié de ma vie aux États-Unis.

Vedo che è solo per gli interpreti spagnoli. Ma entrambe le lingue studiate in Unione Sovietica, molti anni fa, anche se non posso dire che ho imparato. Inoltre producono frasi complete in spagnolo è troppo per me dopo aver vissuto più di metà della mia vita negli Stati Uniti.

Я вижу, что это только для испанских переводчиков. Но оба языка учился в Советском Союзе много лет назад, хотя я не могу сказать, что я узнал. Также производит полные предложения на испанском языке слишком много для меня после того, как живет более половины своей жизни в Соединенных Штатах.

Рубрики: Разное
8 апреля 2017 Константин Лакшин \| 11 комментариев

ubiquit

Интересно, чего тут роль больше (в сравнительном качестве перевода): сходства языков по каким-то признакам или внимания разработчиков к английскому языку… Попробовал перевести с русского на английский.

> Вижу, тут только для испанских переводчиков. Но я учил оба языка в Советском Союзе много лет тому назад, хоть и не могу сказать, что выучил. К тому же составлять сложные предложения на испанском — это для меня слишком, так как больше половины своей жизни я прожил в Соединённых Штатах.

> I see, here only for Spanish translators. But I taught both languages in the Soviet Union many years ago, although I can not say what I learned. Besides making complex sentences in Spanish is too much for me, since I have lived more than half of my life in the United States.

Надо, конечно, более сложные тесты составлять, чтобы делать какие-то более понятные выводы. Но что за тесты и что за выводы…. Пока прослеживается только такой, довольно жалкий: найдите мне машину, которая сообразит, в каких случаях можно и даже полезно писать «потому что» вместо «после», а в каких — категорически не нужно. Статистические методы, может быть, и сработают при выборе между синонимами, а при оценке логической целесообразности выражений нужно, наверное, что-то совсем другое…

10 апреля 2017 3:00

Bookworm

Качество GT (что с нейронными сетями, что без) очень сильно зависит от конкретной пары языков. Если это языки более-менее схожие, хотя бы одной романской группы, получается терпимо, с чем и связан весь этот hype вокруг GT, так как в парах En-Fr, En-Es, En-Ge он дает примерно 35-40% «почти верного» перевода (с месяц назад статья попалась, где это анализировали). И даже в паре En-Ch что-то получается — как я понимаю, по причине крайне простой грамматики китайского.
А вот с флективным языками полный швах — по оценкам той же статьи, в парах En-Ru
-En более-менее прилично у GT выходят лишь 5% сегментов. Увы, про эту семикратную разницу иностранцы не подозревают и продолжают петь сладкие тирады про успехи МТ.

10 апреля 2017 19:00

ubiquit

Я могу сделать предположение: культурное влияние => общность привычек мышления => «чистота» машинного перевода. Ведь именно там, где для перевода обязательно нужно выразить мысль иначе, чем в оригинале, машина «ломается». Если надо выразить мысль через другие понятия, то и слова для используемых понятий не должны попадать в словарную статью; и по какому признаку варианты перевода тогда выбирать из словарной статьи, выбранной согласно исходному тексту, — уже безразлично, потому что нужного варианта там всё равно нет. Хоть по фиксированным соответствиям выбирать вариант, хоть через обучаемые нейронные сети.

Вывод (если принять это предположение): между английским и испанским — d’accord, договоримся; а вот что делать, скажем, с венгерским? Или, тем более, с турецким?

Менее грандиозный вывод: что делать там, где роль «привычек мышления» сведена к минимуму? Задача: перевести тысячу паспортов подряд… Потом ещё тысячу… Ещё… Неужели здесь нельзя работу механизировать уже сейчас?

11 апреля 2017 20:16 Войдите, чтобы ответить

MRT2

Кажется, лучше всего гугл переводит оригинал по цепочке Es-En-Ru:

«Я вижу, что это только для испанских переводчиков. Но я изучал оба языка в Советском Союзе много лет назад, хотя я не могу сказать, что я их изучил. Кроме того, производить полные предложения на испанском языке для меня слишком много, прожив более половины моей жизни в Соединенных Штатах.»

11 апреля 2017 18:36

Ради хохмы: попробуйте перевести в Гугле «Штатным переводчикам в технических компаниях проще: мы можем созвониться с инженером и сразу по ходу дела выправить как перевод, так и оригинал.» (Именно так, целым предложением.) Тут уж никаких высоких материй, тут Гугл просто-напросто подводит грамматика. 🙂

17 апреля 2017 19:28

Moonranger

…купили мужики пилу и подставили под нее лом….

Но не надо подставлять лом под пилу.
Вот пример отличного перевода, сделанного гуглом (без редактуры, коей процентов 5% потребовалось). Заказчик удовлетворен.

Ecologically safe and does not contain harmful to human health and environment substances;
-Wide viscosity range allows providing rational oil consumption and considering the features of the technology process at the customer’s production;
-Has an effective anticorrosion property provided by specialized additives which extends form life and provides an excellent surface finish on the concrete parts;
-Ready for use, doesn’t require water dilution which reduces time and operational costs;
-Has excellent wetting properties that resulted in improved surface finish on the concrete parts and in excellent appearance of the end product;
-High adhesive ability helps to avoid staining on the surface.
1. Экологически безопасен и не содержит вредных для здоровья человека и окружающей среды веществ;
2. — широкий диапазон вязкости позволяет обеспечить рациональное потребление масла и учитывать особенности технологического процесса на производстве заказчика;
3. — Обладает эффективным антикоррозионным свойством, обеспечиваемым специальными добавками, которые продлевают срок службы и обеспечивают отличную чистоту поверхности бетонных деталей;

4. — готов к использованию, не требует разбавления водой, что сокращает время и эксплуатационные расходы;
5. — Обладает отличными смачивающими свойствами, что улучшает качество поверхности бетонных деталей и превосходный внешний вид конечного продукта;
— Высокая адгезионная способность помогает избежать окрашивания на поверхности.

Вывод такой: использовать гугл надо правильно, то есть в предложениях с формальной синтаксической структурой, «не веря гуглу на слово» и устраняя возникшие сомнения с помощью добротных словарей.
Успехов

11 мая 2017 15:09 Войдите, чтобы ответить
- Bookworm
  
  Да, при нормальном, корректном построении исходной фразы результат вполне приемлемый. Но в любом случае мы без работы не останемся, так как есть масса случаев (особенно в техническом переводе), когда правильный перевод исходной фразы не содержит ни одного словарного значения слов фразы исходной. Израиль Соломонович Шалыт приводил замечательный пример:
  
  Исходник:These units are equipped with a local switch used as general terminal board.
  Google: Эти блоки оснащены локальным переключателем, используемым в качестве общей клеммной колодки.
  Правильный перевод: В данных агрегатах питающий кабель подключается непосредственно к главным выводам вводного выключателя.
  
  И вот тут ни одна нейронная сеть не вытянет. А в техническом переводе таких мутно сформулированных фраз, где надо долго докапываться до смысла — выше крыши.
  
  11 мая 2017 15:30 Войдите, чтобы ответить
  - Константин Лакшин
    
    > ни одна нейронная сеть не вытянет. А в техническом переводе таких мутно сформулированных фраз, где надо долго докапываться до смысла — выше крыши.
    
    По-моему, вы не совсем правы. Общая идея SBMT/NBMT именно в том, насколько я понимаю, что при наличии [достаточно большого] корпуса правильных/приемлемых переводов, система может «научиться» плевать на словарные значения.
    
    Другое дело, что не очень понятно, насколько реально найти/сформировать такой корпус.
    
    И еще на правах оффа…
    
    Так получилось, что буквально вчера я пообщался сначала с коллегой переводчиком, который вещал про то, насколько хорош новый (бета) движок GT, а потом со старинным приятелем программистом (он занимается все тем же deep learning применительно ко всяким стоматологическим прибамбасам), который заявил, что (с его точки зрения) модным технологиям до замены **вменяемых** переводчиков еще шагать и шагать.
    
    7 июня 2017 9:42 Войдите, чтобы ответить
    - Bookworm
      
      Боюсь, что такой корпус в принципе невозможен, так как в каждом конкретном тексте фантазии у авторов разные и не повторяющиеся. Скажем, в рассматриваемом примере мысль «В данных агрегатах питающий кабель подключается непосредственно к главным выводам вводного выключателя» может быть передана по англ. двумя десятками способов — в зависимости от степени владения автора языком, понимания тематики и пр. И скорее всего в корпусе на 20 этих вариаций найдутся 20 неправильных переводов, так как Шалыт у нас один, а текстов много )))
      Пример из практики. В тексте по электротехнике попалась «сборная камера». Мультитран в три голоса утверждает, что это assembly chamber. В Гугле тоже assembly chamber, правда, только на сайтах .ru. Но находится замечательно, и, соответственно, GT только такой вариант и выдает. А он абсолютно неправильный. Правильно — cubicle, так это не камера, которую собирают, а ящик такой, в которой собирают разные электрические детали. И такой перевод найти в сети практически невозможно — встречается однократно в обсуждении на ProZ где-то на третьей странице выдачи Гугла. И никакая нейронная сеть не сможет принять решение, что cubicle — это правильно, а assembly chamber — нет.
      Я в Уфе не зря спрашивал у Дворковича из Яндекса — а как они при поиске и создании корпуса определяют, что один текст является переводом другого? Он пояснил, что чаще всего ищется по URL: если есть странички, условно говоря, abc.com/ru и abc.com/en, то, скорее всего, это параллельные тексты. Но при таком подходе мы никогда не сопоставим исходник и правильный его перевод — как в нейронную сеть занести критерии правильности? Там же весь смысл ее работы на «голосовании большинства», что чаще встречается, то и идет в дело.
      
      7 июня 2017 17:34 Войдите, чтобы ответить
      - Константин Лакшин
        
        > … как в нейронную сеть занести критерии правильности? Там же весь смысл ее работы на «голосовании большинства», что чаще встречается, то и идет в дело.
        
        По-моему, если не замахиваться на «счастье всем», то не исключено, что возможно: вес голоса Шалыта = 1000%, ПУЭ = 750% и т. п.
        
        8 июня 2017 3:46 Войдите, чтобы ответить
        
        Bookworm
        
        Да, Вы совершенно правы, нужны весовые коэффициенты «правильности». Но проблема в том, что оценить правильность может только человек. А вручную переработать корпус текстов абсолютно нереально…
        
        8 июня 2017 3:48 Войдите, чтобы ответить

Что вижу, то и пою

Еще про языки и Гугл-переводчика

11 комментариев Еще про языки и Гугл-переводчика