Сегодня искусственному интеллекту приписываются почти бесконечные возможности. От него ждут, что он вот-вот уберет человека из множества разных сфер: используя Big Data, быстро и надежно идентифицирует вас, разрешит или не разрешит вам что-то купить, или взять кредит, или сесть на самолет, а по дороге «впарит» продукт, которого именно сейчас вам очень не хватает. Примерно так выглядят в массовом продвижении идеи искусственного интеллекта (ИИ). Однако специалисты говорят, что пока возможности ИИ довольно сильно ограничены. Да и сам ИИ не везде нужен, иногда достаточно простого программирования. Прорыв, который мы наблюдаем, пока, похоже, больше связан с уменьшением размера чипа, чем с прорывами в области собственно искусственного интеллекта.
Мы решили вникнуть в детали этой многогранной темы и поговорили о том, возможно ли сегодня создание системы стопроцентного распознавания образов, а заодно и о том, почему нас неминуемо ждут беспилотные автомобили, с Дмитрием Лихачевым — человеком, который все это делал «руками»: программистом, разработчиком систем распознавания лиц, в 1990-е работавшим в Российском НИИ искусственного интеллекта.
— Сейчас часто появляются сообщения, что распознавание лиц искусственным интеллектом достигло 99–100-процентной вероятности. Возможно ли это?
— В реальной жизни этого пока нет. Вот простой пример. Один из лучших движков — у фейсбука. Иногда он вам предлагает: «Найдите по фотографии своих друзей». Загружаешь фотографию, и он показывает лица. Угадывает с 80-процентной вероятностью, а это один из лучших движков в мире. Те движки, с которыми я работал, редко ошибаются, но о 99-процентной вероятности речи быть не может. Может быть, в каких-то искусственных условиях, если человек всегда стоит ровно, всегда анфас, с одинаковым освещением, будет процентов девяносто. И еще если не накрасился, не скривил лицо.
— А в чем сложность? Как происходит накапливание этой возможности? Мы же в состоянии узнать человека.
— Есть много разных вариантов. 3D-модель лица можно построить (только для этого нужно несколько фотографий с разных ракурсов или видео) — человек все-таки узнаёт лица в 3D, двумя глазами с двух ракурсов, но чаще работают с 2D — с фотографией. Например, бегает прямоугольник разного размера по фотографии и считывает все контрасты. На основании этого строит форму. Есть движки, которые просто определяют опорные точки: уголки глаз, уголки носа, уголки рта. И по этой геометрии делают инварианты лица. Пытаются сочинить такую форму, которая сохраняется при поворотах, под разными углами, при разном освещении. В принципе, все движки пытаются создать из лица инвариант. Есть программы, которые накладывают много-много разных изображений лица в разных ситуациях, и получается большая, склеенная, фотография, вроде голограммы, по которой потом ищут сходство. Как-то так и фейсбук работает. Загрузил фотографию: «Это Вася?» — «Да». «А это Петя?» — «Да». Идет обучение. Но гарантий она никаких не дает, они здесь и не нужны. Или в метро можно