Зачем Следственному комитету России искусственный интеллект

Следственный комитет России тратит рекордную для себя сумму на систему по мониторингу СМИ, блогов и соцсетей. Русская служба Би-би-си нашла в интернете бесплатную версию этой системы и оценила ее работу.

В одном из московских офисов под круглосуточной охраной и видеонаблюдением система "Интегрум" собирает и анализирует все, что появляется в русскоязычных медиа и интернете. В нее попадают новости, репортажи, посты, комментарии, изображения и видео.

Система может определять первоисточники информационных кампаний в соцсетях. На случай, если первоисточник будет удален, система архивирует все сообщения. Она также может сортировать сообщения по дате, теме, интонации, возрасту авторов, месту их проживания, формировать качественные и количественные аналитические отчеты и так далее.

Доступ к системе возможен практически со всех устройств, подключенных к интернету. Но только для заказчиков и с заранее определенных IP-адресов. В этот перечень входят, например, IP-адреса Следственного комитета России, который с 2012 года потратил на подписку к системе и аналитические отчеты более 2,8 млн рублей.

До конца года ведомство может заключить с компанией "Интегрум-медиа" еще один контракт, рассчитанный на 12 месяцев, на рекордную сумму 2,2 млн рублей. По крайней мере, компания является единственным участником конкурса.

В техзадании последнего конкурса сказано, что система должна мониторить сообщения 35 тыс. СМИ, в том числе телеканала "Дождь" и украинского агентства УНИАН, а также посты и комментарии из 12 популярных интернет-сервисов: "ВКонтакте", Facebook, Twitter, LiveJournal, Liveinternet, "Одноклассники", "Мой мир", YouTube, RuTube, Smotri.com, Instagram и Foursquare.

В разное время систему заказывали также Федеральная служба по контролю за оборотом наркотиков, Федеральная антимонопольная служба, Верховный и Высший арбитражный суды, региональные парламенты и правительства.

Политический мониторинг

Чтобы опробовать некоторые функции системы, не обязательно носить погоны или быть чиновником. На сайте "Интегрум-медиа" можно в режиме реального времени отслеживать посты и комментарии в соцсети "ВКонтакте", а также в Twitter и LiveJournal по таким темам, как "министры", "губернаторы", "СМИ", "вузы" и "банки". В бесплатной версии работает и географическая привязка, и оценка интонации сообщений.

Например, комментарий в соцсети "ВКонтакте" с цитатой министра культуры Владимира Мединского о "лишней хромосоме" русского народа система определяет как "негативный". Комментарий о том, что министр иностранных дел Сергей Лавров перевез свою дочь из Нью-Йорка в Москву, и это показывает, "на чьей он стороне", в свою очередь,- "позитивный".

Использование слова "Рашка" вместо "Россия" почти гарантированно отправит комментарий в "негатив". Иногда происходят сбои, например, сообщение "кто запустил в паблик минздрав? Скворцова, хватит распинаться!" в сообществе "Злой медик" определяется со знаком плюс.

Автор фото, Integrum Подпись к фото, Рамзан Кадыров - лидер по упоминаемости в соцсетях среди руководителей российских регионов

Автор фото, Integrum Подпись к фото, Так система "Интегрум" видит негативные комментарии из Соединенных Штатов

Автор фото, Integrum Подпись к фото, Москва - лидер по количеству негативных комментариев в адрес правительства

"Сносящие крышечку" технологии

Русская служба Би-би-си попросила экспертов изучить онлайн версию системы "Интегрум" и прикинуть, как ее может использовать Следственный комитет России.

По словам директора АНО "Информационная культура" Ивана Бегтина, технологии мониторинга социальных сетей полезны, и используются государством после того, как были обкатаны в бизнесе. Однако их применение конкретно ведомством Александра Бастрыкина эксперта "удручает".

"Это политический мониторинг. Вместо отслеживания более серьезных преступлений (финансовые пирамиды, распространение наркотиков, кибермошенничество) ресурсы тратятся вот на такие системы", - говорит Бегтин.

Интернет-эксперту Антону Меркурову показалось, что система слишком приблизительно оценивает эмоциональную окраску сообщений: "Русский язык богат эпитетами и выражениями, поэтому серьезный анализ текста могут произвести только профессиональные лингвисты. Хотя для бизнеса и брендов и такой оценки может быть достаточно".

При этом, по мнению Меркурова, "Интегрум" стоит заявленных 2,2 млн рублей в год, и бизнес платит за систему столько же.

"Большинство сегодняшних технологий работают плюс-минус одинаково: умеют определять и кто на фотографии, и контекст фотографии, и анализируют содержание видео. Это стандартный пакет, который предоставляют подобные компании. Инструмент хороший и полезный, другое дело - какие экспертные решения принимаются на его основе. Этот вопрос лежит за рамками технологий. Просчитать, насколько у Следственного комитета крышечку снесет по тому или иному поводу, достаточно сложно", - резюмирует эксперт.

Призмы, штормы, мониторы

Системы мониторинга СМИ и интернета начали появляться в середине 2000-х годов. Лидеры в этой области - американские компании Crimson Hexagon и General Sentiment. В России подобных им систем - не менее десятка.

В июне 2010 года военная часть № 64829, известная также как Центр информационной безопасности ФСБ, потратила 431 тыс. рублей на информационно-аналитическую систему "Семантический архив" компании "Аналитические бизнес решения". В функции программы, в частности, входил "мониторинг и анализ обстановки на основе материалов СМИ и внутренних фактографических и аналитических документов службы".

Газета "Коммерсант" сообщала, что в январе-феврале 2012 года Служба внешней разведки России объявила три закрытых тендера на исследования интернета на общую сумму более 30 млн рублей. Первое с кодовым обозначением "Шторм-12" было посвящено "средствам продвижения специальной информации в социальных сетях", исследование "Монитор-3" - "методам негласного управления в интернете", исследование "Диспут" - "методам разведки интернет-центров и региональных сегментов социальных сетей". Исполнителем работ стала компания "Итеранет" (ее гендиректор Игорь Мацкевич в прошлом работал в Академии ФСБ).

"Большая двойка" аналитических систем в России состоит из компаний "Интегрум-медиа" и "Медиалогия". Последняя, как писал Forbes, поставляет аналитическую систему "Призма" администрации президента. По информации же CNews, с августа 2014 года разработкой своей системы озаботилась компания "Системы управления", принадлежащая госкорпорации "Ростех".

Искусственный интеллект

"Все подобные системы решают классическую задачу анализа мнений: как определить отношение говорящего к объекту высказывания, - рассказывает доцент Департамента анализа данных и искусственного интеллекта Высшей школы экономики Дмитрий Игнатов. - Прежде всего, нужно четко выделить сам объект, скажем, Лавров это или какой-то другой чиновник. Далее текст дробится на мелкие единицы, словосочетания. Анализируется контекст, прилагательные, частицы, машина присваивает им плюсы или минусы. По количеству знаков можно понять, в целом высказывание позитивное или негативное".

По словам ученого, машины уже научились анализировать жесты и эмоции. Тогда как анализ сарказма или актерской игры им еще не доступен.

"Если вы собрались таким же образом анализировать соцсети, вам нужны входные данные, - продолжает Дмитрий Игнатов. - Имея доступ только к открытым данным, вы не можете всерьез анализировать отношение людей к тому или иному политику. Однако если вы договоритесь с провайдерами и получите доступ ко всему траффику "ВКонтакте" или Facebook, ваши возможности резко вырастут".