Корпорация Google объявила 16 июня о запуске в Европе исследовательского центра, который займется разработками в области искусственного интеллекта. Применение технологий, основанных на машинном обучении, сейчас ограничено; они справляются с решением специфических задач — распознаванием изображений, пониманием речи, вождением автомобиля. Журналист «Медузы» Султан Сулейманов побывал в цюрихском офисе Google и рассказывает, как искусственный интеллект изменится в ближайшем будущем.
2019 год
1. Разработчики Instagram представили новую функцию: теперь приложение анализирует все фотографии, опубликованные вами ранее, а также лайки всех ваших друзей, чтобы автоматически выбрать фильтр, с которым ваша фотография наберет максимальное количество лайков. Алгоритмы, встроенные в мобильный клиент, позволяют увеличить лайкоемкость в среднем на 15-20%. В платной версии Instagram также доступна функция выбора лучшей фотографии из серии.
2. Госдума приняла в третьем чтении законопроект о внедрении системы СОРМ-5. Система, которой пользуются мобильные операторы, в режиме реального времени анализирует разговоры, вычленяя из них ключевые слова и выражения и, если необходимо, передавая сигнал тревоги полиции. В пояснительной записке к документу говорится, что закон направлен на повышение эффективности в борьбе с терроризмом; система не будет применяться для слежки за простыми гражданами.
3. В Лувре устроили выставку картин, написанных искусственным интеллектом. Робот сам определил сюжет для работы и изобрел свой собственный стиль, не похожий на манеру художников-людей. В первую неделю выставку посетило рекордное количество людей.
4. Автоматизированная охранная система зоопарка Цинциннати расстреляла дротиками со снотворным двух посетителей-афроамериканцев, ошибочно приняв их за сбежавших из загона горилл. Один из пострадавших находится в критическом состоянии. Родственники готовят многомиллионные иски против зоопарка и разработчиков системы.
Наши дни
Все примеры выше — выдуманные. Однако они показывают, как искусственный интеллект через несколько лет изменит нашу жизнь. И у каждого из этих примеров есть реальное основание:
1. Российские разработчики выпустили приложение Prisma, которое с помощью нейросетей превращает обычную фотографию в картину, будто бы написанную художником (применение нейросетей означает, что это не предустановленные фильтры, но алгоритм, который учился на реальных изображениях).
2. Речевые технологии «Яндекса» — как, впрочем, и других компаний — способны не только расшифровывать услышанную фразу, но и вычленять из нее смысловые объекты; это нужно для дальнейшей обработки.
3. Программа AlphaGo, научившаяся играть в го лучше человека, смогла обыграть своего сильнейшего соперника благодаря интуиции, которую она приобрела в процессе обучения.
4. Пара чернокожих пользователей сервиса Google Photos, автоматически распознающего содержимое фотографий, обнаружили свои селфи в разделе «гориллы».
Машинное обучение — технология, лежащая в основе искусственного интеллекта, — стала одним из самых интенсивно развивающихся направлений в IT-сфере. Причем события разворачиваются сейчас на наших глазах: новейшие научные разработки внедряются в массовые продукты. Facebook использует машинное обучение, чтобы распознать на фотографии ваше лицо даже с того ракурса, с которого соцсеть прежде вас не видела. Голосовой помощник Siri в айфонах благодаря этой технологии адаптируется под интересы пользователя и даже его манеру говорить. Один из множества экспериментальных сервисов Microsoft описывает, что происходит на загруженном вами фото. «Яндекс.Навигатор» понимает таксистов, разговаривающих по-русски с сильным акцентом, — потому что нейросеть учится понимать эти акценты. Google Photo автоматически склеивает фото и видео, сделанные в одном месте или в одно время, в мини-фильмы или гифки. Переводчик Google успешно переводит тексты, даже встречаясь с незнакомыми фразами, опираясь на прошлый опыт. И так далее, и тому подобное.
* * *
Эммануэль Можне (в центре) и его коллеги на презентации исследовательского центра Google
Фото: Екатерина Кондратьева
16 июня в Цюрихе открылся исследовательский центр Google Research Europe, сотрудники которого будут целенаправленно заниматься развитием технологий искусственного интеллекта — машинного обучения, компьютерного зрения и понимания естественного языка. Первое направление включает в себя как теоретические исследования, так и внедрение их результатов в реальные продукты. Задача второго — обучить компьютеры понимать нетекстовую информацию: фото, видео, звуков, речи. Наконец, естественный язык нужен, чтобы вести диалог с пользователем на максимально близком ему языке.
«Раньше мы не понимали, что спрашивает пользователь. Алгоритмы просто находили в базе ссылок те, которые лучше всего подходят под запрос, — отмечает Эммануэль Можне, руководитель Google Research Europe. — Сейчас мы учимся понимать, что именно спрашивает пользователь, чтобы давать настоящие ответы».
В Цюрихе расположен крупнейший офис Google за пределами США. В представительстве трудятся 1800 человек; и хотя об этом мало кто знает, они работают над важнейшими продуктами корпорации — поиском, геосервисами, рекламой, YouTube и машинным обучением. При этом Google Research Europe не будет замыкаться только на внутренних проектах: Можне пообещал, что центр займется поддержкой и внешних академических исследований.
Найди кошку
В том, что Google уделяет особенное внимание искусственному интеллекту, нет ничего удивительного. Машинное обучение уже работает во многих продуктах компании — поиске, голосовом вводе, фильтрации спама в почте, переводе текста и изображений с одного языка на другой.
Если не считать ошибки в алгоритме, из-за которой афроамериканцев отнесли в категорию горилл, возможности Google Photos поражают. Приложение загружает фотографии пользователя в облако, анализирует их и расставляет теги в зависимости от содержания. Пользователю достаточно ввести в поиск «Рига», «Рождество» или эмодзи «😺», чтобы получить, соответственно, фотографии с видами столицы Латвии, рождественскими сюжетами или кошками.
Кошки, к слову, любимый пример многих исследователей, объясняющих принцип работы машинного обучения. На первый взгляд кажется, что нет ничего проще, чем объяснить компьютеру, что такое кошка: усы, лапы и хвост — это даже ребенку известно. Но для компьютера все куда сложнее: ему нужно разобраться во всех возможных признаках кошек. А если она выглядывает из-за угла? А если свернулась калачиком? Или прижала уши, приготовившись к атаке? А если это сфинкс?
Эксперт по компьютерному зрению Фей-Фей Ли рассказывает, как нейросети учатся понимать изображения
Фото: TED
Таких примеров может быть слишком много, и жестко прописывать в коде каждую вариацию — путь муторный и тупиковый. Вместо этого нейросеть учится самостоятельно: ей дают миллионы фотографий с кошками, а она уже сама находит характерные признаки. Нейросети состоят из слоев нейронов, каждый из которых занимается разбором конкретной характеристики, будь то направление линий или цвет. Суммируя сигналы от нейронов, машина в итоге приходит к выводу, что с определенной долей вероятности перед ней именно кошка, а не, к примеру, лев.
Правда, с тем, чтобы отличать одних кошек от других, у искусственного интеллекта пока есть трудности. Корреспонденту «Медузы» удалось слегка смутить разработчика Google Тома Дьюрига, занимающегося распознаванием изображений, вопросом о том, нужно ли сделать миллион фотографий своего кота, чтобы научить Google Photos отличать его от других кошек. В итоге Дьюриг предположил, что к кошкам можно с некоторыми оговорками применить разработки в сфере распознавания лиц людей, и отметил, что реализация такой возможности — вопрос недалекого будущего.
Окей, гугл
Google активно развивает и речевые технологии. В 2015 году поисковых запросов со смартфонов и планшетов стало уже больше, чем с настольных компьютеров, и с переходом поиска в мобильники все важнее предоставлять пользователю новый интерфейс, который заменит клавиатуру — потому что ей неудобно пользоваться на маленьком экране. Со временем количество мобильных устройств вокруг нас будет только расти, предсказывает Бешад Безади, занимающийся голосовым поиском в Google (а точнее, руководящий направлением «разговорного поиска»): нас будут окружать «умные часы», «умные автомобили», «умная домашняя техника». Наиболее удобный способ взаимодействия с ними — речь (об этом же в интервью «Медузе» рассказывал и руководитель направления речевых технологий в «Яндексе» Денис Филиппов: «С кофеваркой надо разговаривать»).
Чтобы сделать общение с виртуальным помощником проще, Google учит его разбирать речь даже в шумных условиях, понимать сказанное бытовым языком (тот самый естественный язык), отвечать на поставленные вопросы или выполнять указания. Уже сейчас голосовой поиск в смартфонах на Android может отвечать на цепочки вопросов, опираясь на контекст: «Какова высота Эйфелевой башни?» — «Покажи рестораны рядом» — «Только итальянские» — «Позвони в первый». Он также умеет управлять приложениями (например, отправлять сообщение через Telegram, не открывая сам мессенджер) и контролировать время пользователя (добавлять заметки в календарь или напоминать о будущих самолетах).
Игрок
Матч Ли Седоля против AlphaGo, 13 марта 2016 года
Фото: Lee Jin-man / AP / Scanpix / LETA
Чуть особняком от всего выше перечисленного стоит AlphaGo — программа компании Google DeepMind, которая в марте 2016 года обыграла одного из сильнейших игроков в го Ли Седоля. Если вы пропустили про это текст, то вкратце главное в следующем: компьютеру (и тем более человеку) не суждено просчитать все возможные ходы в го наперед — приходится полагаться на интуицию. И AlphaGo, изучая матчи профессионалов и играя сама с собой, эту интуицию обрела: в одной из партий против Ли Седоля программа пошла так, как никто ее не учил. Более того, никто от нее такого хода не ожидал, но интуиция подсказала машине, что так будет лучше. Эту партию AlphaGo выиграла.
Еще один важный момент: разработчики не фокусировались только на го. AlphaGo тренируется на множестве «игр» — то есть виртуальных миров со строгими правилами. Исследователь Тор Грипель из DeepMind объяснил, что использование «игр» ничуть не обесценивает смысл разработок. Наоборот, в виртуальном окружении можно сгенерировать бесконечное количество ситуаций и проконтролировать полученные результаты; в реальном мире это было бы слишком дорого. В будущем же результаты, полученные во время тренировок, можно будет использовать для реальных работ — для анализа болезней и моделирования климата.
Универсальный помощник
Цель Google — использовать технологии машинного обучения, чтобы построить действительно умного виртуального ассистента, рассказал на пресс-конференции в Цюрихе председатель совета директоров Alphabet (владеет Google) Эрик Шмидт. Этот ассистент, по словам Шмидта, должен сделать умнее и нас, людей; он будет выполнять задачи, на которые у нас бы ушло слишком много времени.
Эрик Шмидт привел такой пример: журналист сможет попросить виртуального помощника присмотреться к определенной теме, а тот, покопавшись в данных, вернется с советами, на что именно нужно обратить внимание и почему. Это будет как «телескоп для ума», добавил Эммануэль Можне, — искусственный интеллект позволит нам видеть то, на что наш мозг не способен.
Чтобы помощник стал действительно полезным, отметил Бешад Безади, необходимо научить его понимать окружающий мир, своего пользователя, а также контекст, в котором пользователь находится в настоящий момент. Безади считает, что в будущем мы не позволим виртуальному ассистенту постоянно слушать все наши разговоры. Это как минимум неудобно: помощник начнет постоянно вмешиваться, не понимая, была ли конкретная фраза обращена к нему или нет. Безади предсказывает, что мы будем «будить» ассистента фразой «Окей, Google» или ее аналогами, а затем несколько минут вести с ним диалог.
Этому поспособствует «персонализация» машины — этим летом Google выпустит голосового помощника, который будет обладать неким подобием личности (образцом этого направления можно считать Siri). Корпорация обещает, что можно будет просто сказать ассистенту «Хочу карри», он сам оформит заказ (с вашего разрешения) и предупредит, когда курьер подъедет к дому.
Вице-президент Google Марио Кьюриоз представляет Google Home на конференции Google I/O, 18 мая 2016 года
Фото: Eric Risberg / AP / Scanpix / LETA
Если говорить не о долгосрочных перспективах, а о ближайших планах, то корпорация собирается спрятать ассистента в «умную колонку» Google Home, реагирующую на голосовые команды, и в собственный мессенджер Allo. В последнем случае речь идет о текстовых подсказках: бот внутри Allo будет предлагать варианты для ответа собеседнику и подсовывать кнопки, зависящие от содержания переписки. Например, если вы заговорите о ресторанах, он предложит посмотреть ближайшие заведения и забронировать столик. Allo выйдет летом 2016 года.