Автоматическая оценка качества статей Википедии

«Полные» — оценки ИС и ХС,

«Неполные» — все остальные оценки.

Data Mining

Откуда взять эти параметры?

Существуют ли другие способы оценки качества статей кроме бинарного?

Есть ли способы оценивания качества не всей статьи Википедии, а ее части?

Зачем это всё?

Литература

Предлагаю Вашему вниманию обзорную статью научных работ, в которых я являюсь непосредственным участником и автором, на тему оценки качества Википедии на разных языках. Свои научные публикации на эту тему я пишу в основном на английском и польском языках. Я решил поделиться своими знаниями и опытом в этой области для русскоязычной аудитории, и выбрал Хабрахабр для первой такой статьи. Буду рад услышать комментарии и предложения на данную тему, возможно кто-то будет заинтересован в сотрудничестве в этом направлении. В следующих статьях я планирую более подробно остановиться на отдельных методиках и алгоритмах по анализу качества статей на разных языках. Также планирую размещать примеры кода (в основном Python), которые могут пригодиться для извлечения и анализа данных из Википедии.Несмотря на то, что Википедия часто критикуется за ее низкое качество, она по-прежнему остается одной из самых популярных баз знаний в мире. В настоящее время эта интернет энциклопедия находится на 5 месте среди наиболее посещаемых сайтов в мире (после Google, Youtube, Facebook, Baidu). Статьи в данной энциклопедии создаются и редактируются на около 300 разных языках. В настоящее время Википедия содержит более 46 миллионов статей , охватывающих различные темы.С каждым днём количество статей в Википедии растет. Они могут создаваться и редактироваться даже анонимными пользователями. Авторам не нужно формально демонстрировать свои навыки, образование и опыт в определенных областях. В Википедии нет центральной редакции или группы рецензентов, которые могли бы комплексно проверять все новые и существующие тексты. По этим и другим причинам люди часто критикуют концепцию Википедии, в частности, указывая на низкое качество информации.Несмотря на это в Википедии можно иногда встретить ценную информацию — в зависимости от языковой версии и тематики. Практически в каждой языковой версии существует система наград для наилучших статей. Однако, таких статей очень мало (меньше одного процента). В некоторых языковых версиях существует возможность выставлять также другие оценки качества. Однако, подавляющая доля статей не имеет оценок (в некоторых языках более 99%).Итак, в Википедии много статей не имеют оценок качества, поэтому каждый читатель должен самостоятельно анализировать их содержимое. Тема автоматической оценки качества статей Википедии в научном мире не нова. В основном, научные работы касаются самой развитой языковой версии Википедии — английской, которая уже содержит более 5.5 миллионов статей. Мною исследуются разные языковые версии Википедии: английская, русская, польская, белорусская, украинская, немецкая, французская и др.С момента основания и с ростом популярности Википедии появляется всё больше и больше научных публикаций на эту тему. Одно из первых исследований показало, что измерение объема содержимого может помочь определить степень «зрелости» статьи. Работа в этом направлении показывает, что в целом более качественные статьи являются длинными, используют ссылки согласованным образом, редактируются сотнями авторов и имеют тысячи редакций (версий).Как приходят к подобным заключениям? Проще говоря: сравнивают между собой хорошие и плохие статьи.Как уже вспоминалось ранее, практически в каждой языковой версии Википедии существует система оценок качества статей. Самые лучшие статьи награждаются особым способом — получают специальный «значoк». В русской Википедии такие статьи называются " Избранные статьи " (ИС), в английский Википедии — «Featured Articles». Есть ещё другой «значок» для статей, которые немного не «дотягивают» до избранных — " Хорошие статьи " (ХС) (в английской версии — это «Good Articles»). В некоторых языковых версиях существует и другие оценки для более «слабых» статей. Например, в русской Википедии есть ещё : Добротная, Полная, Развитая, В развитии, Заготовка. В английской версии можно встретить ещё: A-class, B-class, C-class, Start, Stub. Уже на примере английской и русской версий, можно сделать вывод, что стандарты к градации оценок различны в зависимости от языка. Более того, далеко не все языковые версии Википедии имеют такую развитую систему оценок качества статей. Например, немецкая Википедия, которая содержит более 2 млн статей, использует только две оценки — аналоги ИС и ХС.Поэтому часто оценки в научных работах объединяют по двум группам:Назовем этот метод(1 — Полные статьи, 0 — Неполные статьи). Такое разделение естественно «размывает» границы между отдельными классами, однако позволяет строить и сравнивать модели качества для разных языковых версий Википедии.Для построения таких моделей можно использовать различные алгоритмы, в особенности Data Mining. В своих работах, я часто использую один из наиболее распространённых и эффективных алгоритмов — Random Forest(«Случайный лес»). Имеются даже исследования, которые сравнивают его с другими алгоритмами (CART, SMO, Multilayer Perceptron, LMT, C4.5, C5.0 и др.). Случайный лес позволяет строить модели даже с использованием независимых переменных, которые коррелируют друг с другом. Дополнительно, данный алгоритм может показать, какие именно переменные являются более значимые для определения качества статей. Если нам необходимо получить другую информацию о важности переменных, можно использовать другие алгоритмы, в том числе логистическую регрессиюРезультаты показывают, что существуют различия между моделями качества статей в разных языковых версиях Википедии. Таким образом, если в одной языковой версии одним из наиболее важных параметров является количество примечаний (источников), в другом языке более важным будет количество изображений и длина текста.Таким образом, качество моделируется, как вероятность отнесения статьи к одной из двух групп — Полные или Неполные. Вывод делается на основании анализа различных параметров: длина текста, количество примечаний, изображений, разделов, ссылок на статью, количество фактов, посещение, количество редакций и многих других. Имеется также ряд лингвистических параметров, которые зависят от рассматриваемого языка. В настоящее время суммарно в исследованиях используется более 300 параметров, в зависимости от языковой версии Википедии и сложности построенной модели. Некоторые параметры, такие как примечания (источники), могут оцениваться дополнительно— то есть не только считать количество, а также оценивать насколько известные и надежные источники используются в статье Википедии.Источников несколько — это может быть резервные копии Википедии специальные инструменты и другиеДля получения некоторых параметров необходимо просто отправить запрос в соотвествующий API, для других параметров (особенно лингвистических) необходимо использовать специальные библиотеки и парсеры. Значительная часть времени, однако, уходит на написание своих инструментов (на этом остановимся в отдельных статьях).Да. В недавних исследованияхпредлагается способ оценки статей по шкале от 0 до 100 (как непрерывная оценка). Таким образом, статья может может получить, например, оценку 45.78. Этот способ протестирован на 55 языковых версиях. Результаты доступны в сервисе ВикиРанк , который позволяет оценивать и сравнивать качество и популярность статьи Википедии на разных языках. Способ, конечно, не идеален, но работает для локально известных тематикКонечно. Например одним из важных элементов статьи является так называемая «карточка» ( infobox ). Это отдельная рамка (таблица), которая расположена часто справа вверху статьи и показывает наиболее важные факты о субъекте. Таким образом, нет необходимости искать в тексте эту информацию — достаточно взглянуть на эту карточку. Оценке качества этих карточек посвящены отдельные исследования. Существуют также проекты, такие как Infoboxes , которые позволяют автоматически сравнивать карточки в разных языковых версиях.Википедией пользуются часто, но не всегда проверяют качество информации. Предложенные методы могут упростить эту задачу: если статья является плохой, тогда пользователь, зная это, будет более осторожным в использовании ее материалов для принятия решений. С другой стороны, пользователь также может видеть, на каком языке интересующая его тема описана лучше. И самое важное, современные методики позволяют переносить информацию между различными языковыми версиями. Это означает, что можно автоматически обогатить слабые версии Википедии информацией высокого качества из других языковых версий. Также это позволит повысить качество других семантических баз данных, для которых Википедия является основным источником информации. Прежде всего, это — DBpedia Wikidata (Викиданные), YAGO2 и другие.