Параграф 17 Системы перевода и распознавания текстов ©
1. Что такое электронные словари?
Электронный словарь — база данных со словарными статьями. Позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).
2. Какие дополнительные проблемы возникают при переводе текстов?
Чтобы понять смысл текста, не всегда хватает понимания значений всех входящих в него слов. Одно слово может иметь несколько значений или может иначе звучать на другом диалекте, и в связи с этим возникают проблемы, какое именно слово выбрать.
3. Что отличает систему перевода текста от электронного словаря?
Система перевода позволяет производить поиск по электронным словарям и переводить тексты, а так же редактировать перевод, работать с различными тематическими словарями, выполнять как простой и быстрый, так и сложный и профессиональный перевод.
4. Почему отсканированный текст нельзя сразу обрабатывать текстовым редактором?
Все, что введено с помощью сканера, хранится в памяти компьютера как изображение, а не текст.
5. Что такое распознавание текста?
Распознавание текста — это перевод графического изображения в текстовые символы.
6. Подготовьте доклад по теме «Системы компьютерного перевода».
Первые словари были созданы около 5 тысяч лет назад в Шумере и представляли собой глиняные таблички, разделенные на две части. В одной части записывалось слово на шумерском языке, а в другой — аналогичное по значению слово на другом языке, иногда с краткими пояснениями.
Современные словари построены по такому же принципу. В настоящее время существуют тысячи словарей для перевода между сотнями языков. Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности с помощью систем компьютерного (машинного) перевода.
Системы машинного перевода делятся на три категории: системы на основе грамматических правил (Rule-Based Machine Translation, RBMT), статистические системы (Statistical Machine Translation, SMT) и гибридные системы, сочетающие преимущества первых двух групп. Есть ещё один, относительно новый вид машинного перевода — нейронный.
Системы RBMT анализируют текст и строят его перевод на базе встроенных словарей и набора грамматических правил для данной языковой пары. ПРОМТ и Systran — самые известные примеры RBMT-систем. Качество таких переводов оставляет желать лучшего, но они до сих пор используются (например, во всеми любимых переводах названий товаров на Aliexpress).
Среди плюсов RBMT можно отметить морфологическую точность (слова при переводе не путаются), воспроизводимость (всегда одинаковый результат) и возможность настроить систему под предметную область (обучить специальным терминам).
В системах SMT применяется принцип статистического анализа: в программу загружаются огромные объёмы текстов на исходном языке и их переводы, выполненные человеком. Программа анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. п., затем опирается на неё при выборе вариантов перевода — это и есть самообучение.
Тут уже в дело вступает нейронный машинный перевод (англ. Neural Machine Translation, NMT), т.к. самообучение характерно, в первую очередь, для перевода на базе нейросетей. Данный вид перевода начал появляться в 1990-х годах и сейчас является основным видом машинного перевода.
Нейросеть — математическая модель, построенная по принципу сетей нервных клеток живого организма. Возможность обучения является одним из главных преимуществ нейронных сетей перед традиционными алгоритмами перевода. Систему может обучать и человек, корректируя результаты перевода. Именно так и работают онлайн-переводчики Яндекс и Google. Благодаря самообучению качество перевода у них повышается с каждым новым переведённым текстом.
В середине 2000-х годов популярность приобрело «глубинное обучение» (англ. Deep learning). Главное его отличие от классических нейросетей в том, что его сети обучаются находить характерные свойства объектов, не задаваясь вопросами об их происхождении. Таким образом, при таком виде перевода независимо друг от друга действуют два механизма: сначала одна нейросеть кодирует текст на основе каких-либо характеристик, затем вторая декодирует их в текст переводного языка. Студенты переводческого отделения наверняка сейчас вспомнили любимую фразу преподавателей: «Переводите смыслы, а не слова» J
За последние несколько лет нейросети превзошли всё, что было придумано в переводе за последние 20 лет. Они даже научались согласовывать роды и падежи в разных языках (сами!). Кроме того, впервые стало возможно напрямую переводить между языками, у которых не было ни одного общего словаря. Ранее методы статистического перевода всегда работали через английский язык. Нейронному переводу же это не нужно.
А теперь неожиданный вопрос — вы когда-нибудь задумывались, чем отличается Яндекс-переводчик от Google-переводчика? Ничем? А вот и нет, различия всё-таки есть, пусть они и незаметны на первый взгляд.
GOOGLE TRANSLATE
В 2016 году Google включил нейронный перевод девяти языков между собой, в 2017 был добавлен и русский. Google разработал собственную систему под названием Google Neural Machine Translation (GNMT). GNMT улучшает качество перевода, применяя метод машинного перевода на основе примеров (англ. Example-based machine translation, EBMT). Таким образом, система обучается на основе аналогии, используя базу примеров переводов, выполненных человеком.
ЯНДЕКС ПЕРЕВОДЧИК
Яндекс запустил свой нейросетевой перевод в 2017 году и среди своих главных отличий выделял гибридность. Яндекс переводит предложение сразу двумя методами — статистическим и нейросетевым, а потом с помощью специального алгоритма находит наиболее подходящий. Google пользуется только нейросетевым методом.
У гибридного метода есть ряд преимуществ. Например, нейронный перевод не всегда хорошо справляется с короткими фразами. Простой статистический перевод, как правило, лучше находит эквиваленты устойчивых словосочетаний. Получается, что в этом плане Яндекс продвинулся немного дальше.
При этом, когда дело касается перевода предложений целиком, лучше добавлять точку в конце предложения. Тогда система включает механизм нейронного перевода и работает лучше, чем через статистический перевод. С Google-переводчиком такое срабатывает не всегда. Выходит, и тут Яндекс впереди.
Можно ли однозначно утверждать, что один онлайн-переводчик лучше другого? Скорее всего нет, так как учтены далеко не все факторы. Но это уже тема для отдельного исследования, а пока решать вам, каким переводчиком пользоваться. Ну а если верить преподавателям нашего факультета, то лучше ими не пользоваться вовсе и выполнять переводы самим – если даже нейросеть учится, то и вы точно можете!