Как изменился процесс перевода текстов с рогатого Моисея до нейросетей
Перевед
ИИ
Как изменился процесс перевода текстов с рогатого Моисея до нейросетей
Искусственный интеллект в перевод привели Google и Baidu в 2010-е годы. С того момента обманывать учителя английского стало проще, а отличить написанный нейросетью текст — сложнее. Но так было не всегда: переводчики и технические специалисты долго мучались для такого результата.
Один из случаев известной ошибки — перевод Ветхого Завета с древнееврейского на латынь Иеронимом Стридонским
(3-4 век д. н. э.). Из-за одного неверного слова Моисей надолго остался рогатым на статуях
и портретах.
Необходимость понимать чужие тексты появилась еще в античности, когда наука, философия и религия начали пересекать границы цивилизаций. Один из первых известных случаев переводческой работы — перевод древнеегипетских и месопотамских текстов, а позднее и греческой литературы на латынь. Например, так перевели произведения Гомера и Геродота.
Печатный станок, изобретенный Иоганном Гутенбергом в XV веке, сделал возможным массовое издание текстов и словарей. Первый двуязычный, англо-русский словарь был издан
в 1772 г. как приложение к грамматике английского языка, составленной П. И. Ждановым. Этот словарь был построен по тематическому принципу и имел всего 3 тысячи слов. Однако
и перевод со словарем — это сложно и долго.
С развитием лингвистики в XIX веке
возникла идея создания машин,
способных переводить автоматически. В 1930-х годах советский ученый Петр Смирнов-Троянский предложил первую идею механического перевода на основе специального словаря и морфологических правил,
что осталось на уровне идеи.
Во времена холодной войны в 1950-е годы в США и СССР начались активные исследования в области машинного перевода, поддерживаемые государством. Именно они стали основой для первых попыток механического перевода.
Переломный момент наступил с развитием статистического машинного перевода в 1980-е годы. Исследователи из IBM создали системы, в которых перевод строился на вероятностных моделях, обученных на больших объемах параллельных текстов. IBM Model 1, разработанная в середине 1980-х, позволила анализировать миллионы двуязычных предложений и использовать вероятности для предсказания переводов.
Эти системы хорошо справлялись с задачами технического перевода и работали по принципу обучения на корпусах параллельных текстов, таких как Еврокорпус — большая база параллельных текстов на языках стран Европейского союза. Позже Еврокорпус и другие аналогичные проекты стали основой для обучения более сложных машинных систем.
В 1954 году американская компания International Business Machines (IBM) совместно с Джорджтаунским университетом продемонстрировали «Джорджтаунский эксперимент» — первый успешный пример перевода текста с русского на английский
с помощью компьютера. Машина смогла перевести 60 предложений в области химии, что стало значительным достижением, хотя и было весьма ограничено по возможности адаптации перевода к разным контекстам.
Основное различие между машинным переводом и генеративным переводом — в подходе к созданию текста. Первый переводит по правилам и шаблонам, у него есть алгоритм, написанный человеком, четко по которому он совершает действия. Второй — создает текст с нуля, используя массивы данных для имитации человеческой речи.
С помощью чего переводили раньше
Переход к нейросетям
N+1 протестировали NMT на текстах Википедии и новостных пабликов. Они получили высокие результаты в переводе на английский и испанский языки. Показатели качества перевода приблизились к 60-87% по сравнению с человеком.
DeepL Translator — еще один пример NMT. Его запустили в Германии в августе 2017 года. Со временем сервис расширил диапазон до 33 языков.
Появление Google Translate произвело впечатление на всю сферу лингвистики. Он не только до сих пор занимает большую долю рынка перевода, но и вдохновил другие платформы на создание своих сервисов.
В 2016 году Google Translate внедрил в свой переводчик нейросеть, перейдя от модели машинного перевода к нейронному машинному переводу (NMT). Это значительно улучшило качество перевода, предоставив пользователю читать бегло без потери контекста. NMT использует для генерации перевода глубокие нейросети. То есть те, что базируются на изучении большого объема данных.
К 2020 компания OpenAI создала третье поколение нейросети Generative Pre-trained Transformer — GPT-3. На тот момент она стала самой сложной и многогранной моделью. А в 2024 году компания представила новейшую модель GPT-4o, которая может работать с диалектами. Скорость и производительность программы значительно выросла, делилась команда проекта.
И если пару лет назад перевод на китайский язык был проблематичен, то уже в 2023 году появился аналог ChatGPT — Doubao. Al-бот пользуется популярностью в Китае: по данным российского СМИ Interfax количество пользователей за месяц составило 47 миллионов человек. Kimi является еще одной китайской нейросетью, располагающей большой языковой моделью (LLM). А продукт международного бренда Яндекса Yango, голосовой помощник Yasmina, научился распознавать диалекты арабского.
Потенциал ИИ продолжит расти. Учёные Сибирского Федерального университета прогнозируют, что темпы развития ИИ будут преобразовываться по мере увеличения объема данных. В будущем письменный и устный переводы смогут полностью выполняться машиной, считают они.
Однако есть существенные различия в переводе различных языковых групп, особенно если это касается редких и высококонтекстуальных языков.

Еще один вызов — это устный и синхронный перевод. Это связано с тем, что процесс устного перевода включает в себя не только преобразование языков, но и вовлечение эмоций и произношения, стоящих за ними. Шаг к решению проблемы пытаются сделать крупные международные компании, Meta*, например, предложила очки Orion, которые в тестовом режиме синхронно переводят речь.

*Meta признана экстремистcкой организацией в России
Что думают языковеды?
Важно Важно Важно Важно Важно Важно Важно Важно Важно
Представленный проект был создан в рамках хакатона генеративных медиа ScienceMedia AI 2024. Данные, выводы и их визуализация нуждаются в доработке.
Мария Викулова — редактор, райтер, верстка
Анастасия Патрушева — райтер, верстка, генерация музыки
Николь Игнатьева — райтер, генерация идей
Евгений Павлов — генерация фото и видео
Елизавета Терехова — верстка