Украинская риторика против российской: какая побеждает в 20 000 статьях главных СМИ планеты. VoxUkraine нашел ответ с помощью алгоритмов машинного обучения

Данные

Две противоположности: Ukraine Today и Russia Today

Различия между Ukraine Today и Russia Today

Классификация мировых интернет-медиа

Результаты классификации статей показывают очевидную асимметрию в сторону проукраинской лексики. Обратим лишь внимание на западные деловые СМИ. Есть заметная разница между The Financial Times и The Wall Street Journal, с одной стороны, и Bloomberg - с другой. Статьи Bloomberg распределились практически 50 на 50 между классами. Это можно объяснить тем фактом, что в статьях Bloomberg чаще употребляются такие слова-дискриминанты, как санкции и долг, которые вероятнее встретить в статьях на Russia Today.

Еще раз подчеркнем, что мы не знаем наверняка в анти- или проукраинском контексте употребляются эти слова. Для этого необходимо провести семантический анализ текстов, а это задача дальнейшего исследования.

Для каждой статьи рассчитывается вероятность, с которой она принадлежит к тому или иному классу. Например, статья в The Washington Post профессора Флоридского международного университета Ральфа Клема Why Eastern Ukraine is an integral part of Ukraine с вероятностью 99,9% принадлежит к классу статей с проукраинской лексикой. В статье автор опровергает тезис, что восточные области Украины исторически этническая часть России.

Напротив, статья на Bloomberg Ричарда Вайса и Алана Левина Ukraine Joins North Korea as No-Fly Airspace Trouble Spot с вероятностью 99,9% относится к классу с пророссийской лексикой. В статье говориться, что часть восточной Украины была объявлена запретной для полетов зоной по причине падение боинга MH 17. Автор акцентирует внимание, что это очень редкое ограничение, которое в данный момент применяется только к Северной Корее. В статье также описывается ситуация с полетами над Ираном, Сирией и Ливией.

Ситуация со статьями, вероятность для которых находится в интервале 90-100%, интуитивно понятна. Но если вероятность принадлежать к проукраинскому классу равна 50,1%? Для алгоритма все ясно - вероятность больше 50%, а значит статья относится к классу с проукраинской лексикой. Но с точки зрения читателя, не все так однозначно. Математическую интерпретацию мы опустим, только отметим, что подобные статьи будут называться пограничными.

Определим, что вероятность для пограничных статей находится в интервале 40-60%. Классификатору сложно определить, к какому классу принадлежат такие статьи. Одна из причин – в данных текстах не употребляются слова, которые используются Ukraine Today или Russia Today. Количество пограничных статей в анализируемой выборке незначительно – 2,7-6,5% от общего числа статей для каждого интернет-медиа. Количество статей с вероятностью 90-100% в среднем равно 73% от общего числа статей. Дальнейшие шаги исследования предполагают углубленный анализ каждого из классов. Например, латентно-семантический анализ и анализ тональности текста.