Внутренняя гонка Google за нейронный перевод

Адаптированный перевод фрагмента статьи The New York Times Magazine «The Great A.I. Awakening» от Gideon Lewis-Kraus (опубликована 14 декабря 2016 года). Английский оригинал: https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html. В работе над русской версией принимали участие специалисты из бюро переводов английского языка.

Засада

К 2014 году исследователи Google Brain доказали в академической работе: нейронные сети способны переводить с языка на язык целыми предложениями, удерживая контекст. Но это был лабораторный результат на ограниченных данных. Между академической демонстрацией и работающим продуктом для сотен миллионов пользователей лежала пропасть, которую кто-то должен был перейти первым — и Brain решил, что это будет Google.

Эстафету подхватывает Майк Шустер

Статья Ле показала, что нейронный перевод возможен, но он использовал лишь относительно небольшой открытый набор данных. (Небольшой для Google, то есть — на самом деле это был самый большой открытый набор данных в мире. За десять лет работы старая система Translate накопила производственные данные, которые были в сотни или тысячи раз больше.) Что ещё важнее, модель Ле не очень хорошо работала с предложениями длиннее примерно семи слов.

Майк Шустер, который тогда был штатным научным сотрудником Brain, подхватил эстафету. Он знал: если Google не найдёт способ масштабировать эти теоретические идеи до производственного уровня, это сделает кто-то другой. Проект занял у него следующие два года. «Думаешь, — говорит Шустер, — чтобы перевести что-то, нужно просто взять данные, запустить эксперименты — и готово, но так не работает».

Шустер — поджарый, сосредоточенный, не поддающийся возрасту человек с загорелой головой в форме поршня, узкими плечами, длинными камуфляжными шортами-карго, завязанными ниже колена, и неоново-зелёными Nike Flyknit. Выглядит он так, будто проснулся в позе лотоса, надел свои маленькие безоправные эллиптические очки, принял калории в виде скромной порции консервированных желудей и на пути в офис расслабленно выиграл пустынное десятиборье; в реальности, как он мне рассказал, это всего лишь 18 миль на велосипеде в один конец.

Шустер вырос в Дуйсбурге, в районе доменных печей бывшей Западной Германии, изучал электротехнику, а затем переехал в Киото работать над ранними нейросетями. В 1990-х он проводил эксперименты с нейросетевой машиной размером с конференц-зал; она стоила миллионы долларов, и её нужно было обучать неделями, чтобы сделать то, что сейчас вы можете сделать на своём рабочем столе меньше чем за час. Он опубликовал статью в 1997 году, на которую почти не ссылались полтора десятилетия; в этом году на неё сослались около 150 раз. Он не лишён чувства юмора, но часто носит выражение некоторой суровости, что я принимал за его фирменное сочетание немецкой и японской сдержанности.

Проблемы, с которыми столкнулся Шустер, были запутанными. Во-первых, код Ле был написан под заказ и несовместим с новой платформой машинного обучения с открытым исходным кодом, которую тогда разрабатывал Google, — TensorFlow. Дин направил к Шустеру двух других инженеров, Юнхуэя Ву и Чжифэна Чэня, осенью 2015 года. У них ушло два месяца только на то, чтобы воспроизвести результаты Ле в новой системе. Ле был рядом, но даже он не всегда мог понять, что они натворили.

Как выразился Шустер: «Кое-что было сделано не в полном осознании. Они и сами не знали, почему это работает».

Засада в обеденный перерыв

В феврале этого года исследовательская организация Google — рыхлое подразделение компании, насчитывающее в общей сложности около тысячи сотрудников, посвятивших себя перспективным и не поддающимся классификации проектам, — собрала своих руководителей на выездном ретрите в Westin St. Francis на Юнион-сквер, роскошном отеле, немногим уступающем собственному филиалу Google в Сан-Франциско, расположенному примерно в миле к востоку. Утро было отведено под серии «молниеносных докладов» — быстрых обновлений, охватывающих весь исследовательский фронт, а после обеда время было убито на межведомственные «фасилитированные дискуссии». Надежда была на то, что ретрит создаст условия для непредсказуемых, нелинейных, в духе Bell Labs обменов идеями, которые поддерживают плодотворность зрелой компании.

Во время обеда Коррадо и Дин объединились в поисках Макдаффа Хьюза, директора Google Translate. Хьюз обедал в одиночестве, и два члена Brain заняли места по бокам от него. Как выразился Коррадо: «Мы устроили на него засаду».

«Итак, — сказал Коррадо настороженному Хьюзу, затаив дыхание для эффекта. — Нам нужно тебе кое-что сказать».

Они сказали Хьюзу, что 2016 год кажется подходящим временем, чтобы полностью пересмотреть Google Translate — код сотен инженеров за 10 лет — с помощью нейронной сети. Старая система работала так же, как весь машинный перевод на протяжении примерно 30 лет: она изолировала каждый последующий фрагмент предложения, находила эти слова в большой статистически выведенной таблице словаря, а затем применяла набор постредакционных правил, чтобы добавить правильные окончания и переставить всё так, чтобы имело смысл. Этот подход называется «фразовый статистический машинный перевод», потому что к тому моменту, когда система переходит к следующей фразе, она уже не помнит предыдущую. Вот почему вывод Translate иногда выглядел как встряхнутый пакет с магнитами для холодильника. Замена от Brain, если бы она удалась, могла бы читать и порождать целые предложения одним махом. Она улавливала бы контекст — и нечто похожее на смысл.

Долгосрочные ставки и стратегия

Ставки могли показаться невысокими: Translate приносит минимальную выручку и, вероятно, будет приносить её всегда. Для большинства англоговорящих пользователей даже радикальное улучшение работы сервиса вряд ли было бы встречено иначе, как ожидаемое постепенное наращивание. Но можно было утверждать, что машинный перевод человеческого качества — это не только краткосрочная необходимость, но и разработка, которая в долгосрочной перспективе, скорее всего, окажется преобразующей.

В ближайшем будущем она жизненно важна для бизнес-стратегии компании:
• По оценкам Google, 50 процентов интернета находятся на английском языке, на котором говорит, возможно, 20 процентов населения мира.
• Если Google собирается конкурировать в Китае — где основная доля рынка поискового трафика принадлежала её конкуренту Baidu — или в Индии, приличный машинный перевод будет незаменимой частью инфраструктуры.

Сама Baidu опубликовала новаторскую статью о возможности нейронного машинного перевода в июле 2015 года.

А в более отдалённом, умозрительном будущем машинный перевод был, возможно, первым шагом к созданию общей вычислительной компетенции в области человеческого языка. Это ознаменовало бы собой серьёзный переломный момент — возможно, главный переломный момент — в разработке того, что ощущалось бы как истинный искусственный интеллект.

Реакция Макдаффа Хьюза

Большинство людей в Кремниевой долине осознавали машинное обучение как быстро приближающийся горизонт, так что Хьюз ожидал этой засады. Он оставался скептиком. Скромный, коренастый мужчина раннего среднего возраста с взлохмаченными рыжеватыми волосами, седеющими на висках, Хьюз — классический рядовой инженер, тот самый мастеровой, который не был бы лишним за кульманом в Boeing 1970-х.

Карманы его джинсов часто выглядят отягощёнными любопытными инструментами неудобных размеров, будто он таскает с собой рулетки или термопары, и, в отличие от многих более молодых сотрудников, которые ему подчиняются, его гардероб не зависит от корпоративной экипировки. Он знал, что разные люди в разных местах в Google и за его пределами годами пытались заставить нейронный перевод работать — не в лаборатории, а в производственном масштабе — но безуспешно.

Хьюз выслушал их аргументы и в конце осторожно сказал, что ему кажется, возможно, они смогут провернуть это через три года.

Дин думал иначе. «Мы сможем сделать это к концу года, если как следует возьмёмся». Одна из причин, по которой людям так нравился и внушал уважение Дин, заключалась в том, что у него был долгий послужной список успешного «взятия за ум». Другая — что ему совсем не было неловко говорить искренние вещи вроде «если как следует возьмёмся».

Хьюз был уверен, что конверсия не произойдёт в ближайшее время, но лично ему не хотелось быть причиной. «Давайте готовиться к 2016-му, — вернувшись, сказал он своей команде. — Я не буду тем, кто скажет, что Джефф Дин не может обеспечить скорость».

Прорыв в качестве: +7 пунктов BLEU

Месяц спустя они наконец смогли провести параллельный эксперимент, сравнив новую систему Шустера со старой системой Хьюза. Шустер хотел запустить его для пары английский-французский, но Хьюз посоветовал попробовать что-то другое. «Английский-французский, — сказал он, — уже настолько хорош, что улучшение не будет очевидным».

Это был вызов, которому Шустер не мог противостоять. Базовый показатель оценки машинного перевода называется BLEU-счет; он сравнивает машинный перевод со средним значением множества надежных человеческих переводов. На тот момент лучшие BLEU-показатели для пары английский-французский были в районе верхних 20-х. Улучшение на один пункт считалось очень хорошим; улучшение на два — выдающимся.

Нейронная система для пары английский-французский показала улучшение по сравнению со старой системой на семь пунктов.

Хьюз сказал команде Шустера, что за последние четыре года в их собственной системе не было и половины такого сильного улучшения.

Чтобы убедиться, что это не случайность в метрике, они также обратились к своему пулу внешних подрядчиков для проведения параллельного сравнения. Показатели восприятия пользователями, при которых образцы предложений оценивались от нуля до шести, показали среднее улучшение на 0,4 — что примерно эквивалентно совокупному улучшению старой системы за всё время её разработки.

В середине марта Хьюз отправил своей команде электронное письмо. Все проекты на старой системе подлежали немедленной приостановке.