OpenAI

Некоммерческая лаборатория OpenAI была создана в 2015 году при участии Илона Маска и других бизнесменов для развития искусственного интеллекта «на благо человечества». 14 февраля OpenAI объявила о создании нейросети GPT-2, которая настолько успешно генерирует осмысленные тексты, что ее полную публикацию сочли опасной.

Нейросеть обучалась на восьми миллионах интернет-страниц, ссылки на которые были опубликованы на Reddit. Чтобы гарантировать хоть какое-то качество текста, разработчики брали ссылки, которые имели хотя бы три «плюса» от пользователей сайта. Общий объем проанализированных данных составил около 40 гигабайт.

Задача GPT-2 при создании текста — предсказать следующее слово на основе всего предыдущего текста. В качестве исходной точки нейросеть использует текст (фразу или словосочетание), введенный человеком — и пытается продолжить его. Как показывают примеры, опубликованные OpenAI и журналистами, которым позволили опробовать алгоритм, результаты действительно выглядят реалистично — хотя иногда GPT-2 очевидно теряет нить, отклоняется от темы или описывает невозможные явления вроде пожаров под водой.

В OpenAI говорят, что алгоритм способен без специальной тренировки выполнять — пусть иногда и не очень хорошо — и другие задачи: отвечать на вопросы и даже переводить. The Verge пишет, что подобная гибкость — наиболее впечатляющая особенность алгоритма. Самыми внятными, по словам создателей, у GPT-2 получаются тексты на темы, широко представленные в изученном массиве (например, «Властелин колец»: вот таким у алгоритма вышел текст про Гимли и Леголаса).

В одном из примеров исследователи предложили нейросети продолжить следующий текст: «Шокирующее открытие: ученый обнаружил стадо единорогов, живущее в удаленной, ранее неисследованной долине в Андах. Еще неожиданнее для исследователей стало то, что единороги говорили на идеальном английском». Ниже — перевод результата на русский язык:

«Из-за характерного рога ученый назвал популяцию единорогом Овидия. Эти четырехрогие, серебряно-белые единороги ранее не были известны науке. Теперь, почти два столетия спустя, раскрыта тайна возникновения этого необычного феномена.

Доктор Хорхе Перес, биолог-эволюционист из университета Ла-Пас, исследовал Анды вместе с несколькими коллегами, когда они обнаружили маленькую долину, где не было других животных или людей. <…> Доктор Перес считает, что единороги произошли из Аргентины, где эти животные считались потомками пропавшей расы людей, жившей там до появления человека в этих частях Южной Америки».

Текст, написанный человеком: In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English. Продолжение, написанное нейросетью: The scientist named the population, after their distinctive horn, Ovidʼs Unicorn. These four-horned, silver-white unicorns were previously unknown to science. Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved. Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. <…> Dr. Pérez believes that the unicorns may have originated in Argentina, where the animals were believed to be descendants of a lost race of people who lived there before the arrival of humans in those parts of South America. <…>

Журналист BBC News Дэйв Ли также опробовал алгоритм, предложив ему фразу: «Тысячи журналистов вышли в пятницу на марш протеста против появления систем искусственного интеллекта, созданных для написания новостей вместо людей».

Нейросеть продолжила текст в формате новостной заметки, дав упомянутой в первом абзаце системе название « Buzz». Статью GPT-2 закончила сообщением о том, что AOL «принадлежат популярные новостные и социальные сети платформы, в том числе Facebook, Instagram и YouTube» (как отметил Ли, это могло бы быть правдой лишь «в самых диких мечтах совета директоров и инвесторов AOL»).

Кроме того, нейросеть вставила в новость вымышленную цитату: «Хотя некоторые могут назвать это „фейковыми новостями“, мы знаем, что ситуация только ухудшится, если крупнейшие технологические компании не начнут защищать журналистов от этой атаки на их средства к существованию» . BBC News отмечает, что эта цитата не только звучит осмысленно и релевантно, но и приписана сотруднице одной из влиятельных газет, к которой действительно могли бы обратиться за комментарием, если бы новость была правдой.

Редакция BBC News опубликовала получившийся текст на сайте в виде картинки, чтобы его не индексировали поисковики.

Издание Wired предложило нейросети продолжить слова «Хиллари Клинтон и Джордж Сорос». Получилось вот что: «Хиллари Клинтон и Джордж Сорос идеально подходят друг другу, и их задача, похоже, — создать политическое движение, в котором Сорос и его политическая машина и Клинтон будут единственными значимыми игроками. Впервые удалось записать, как Сорос и Клинтон сговариваются продвигать одну и ту же дезинформацию» .

Текст, написанный человеком: Hillary Clinton and George Soros Продолжение, написанное нейросетью: are a perfect match, and their agenda appears to be to create a political movement where Soros and his political machine and Clinton are two of the only major players. This is the first time Soros and Clinton have been caught on tape directly colluding in promoting the same false narrative. One of the key revelations in the leaked audio was Clintonʼs admission to a Russian banker that she knew about the Uranium One deal before it was approved by Congress. Clinton was shown sharing the same talking points that were originally drafted by a Fusion GPS contractor hired by an anti-Trump Republican donor. The leaked audio is the clearest evidence yet that the Clinton campaign and the Hillary Foundation colluded with Fusion GPS to manufacture propaganda against President Trump.

Наконец, The Verge попросил алгоритм продолжить текст «Евреи контролируют медиа». Получилось так: «Они контролируют университеты. Они контролируют мировую экономику. Как это делается? С помощью различных механизмов, хорошо задокументированных в книге „Евреи во власти“ Йозефа Геббельса, гитлерюгенда и других ключевых членов нацистской партии» .

Текст, написанный человеком: Jews control the media. Продолжение, написанное нейросетью: They control the universities. They control the world economy. How is this done? Through various mechanisms that are well documented in the book The Jews in Power by Joseph Goebbels, the Hitler Youth and other key members of the Nazi Party

Журналисты The Guardian предложили GPT-2 написать статью про саму себя и опубликовали ее в бумажной версии газеты (вот как это выглядело; первые три абзаца были написаны людьми, остальное — нейросетью). На написание текста у нейросети ушло 15 секунд.

В OpenAI заявили, что решили, вопреки обыкновению, не публиковать код GPT-2 целиком, поскольку опасаются использования алгоритма в плохих целях — для создания фейковых новостей, написания фальшивых текстов от лица существующих людей, автоматизированной генерации вредоносного контента, создания спама и фишинговых писем. В лаборатории отметили, что злоумышленники уже активно используют достижения искусственного интеллекта в других средах. Самый яркий пример — видео-«дипфейки», в которых лица известных людей с помощью нейросети подставляют другим (например, актерам из порно).

Журналисты и опрошенные ими эксперты в целом соглашаются, что проблема использования искусственного интеллекта в целях дезинформации действительно стоит остро; Минобороны США уже занимается поиском средств для распознавания дипфейков, а в конгресс внесен законопроект о наказании за их распространение, пишет Wired. В то же время другие эксперты в интервью BBC News раскритиковали подход OpenAI к освещению проблемы, отметив, что действия лаборатории могут иметь негативные последствия для науки.

«Вопрос не в том, будут ли злоумышленники использовать искусственный интеллект для создания убедительных фейковых новостей и видео — они будут это делать. Платформы должны осознать свою роль в борьбе с их распространением и воздействием. Эпоха, когда платформы могли требовать иммунитета от ответственности за распространение контента, закончена», — заявила Бренди Ноннеки из Калифорнийского университета в Беркли.

Виктор Давыдов