Директор Wayback Machine Марк Грэм рассказывает о масштабе всеми любимого архива

Автор: Натан Маттис

Как бы сервисы подписок не убеждали вас в том, что всё можно найти на Amazon или Netflix, это не так. Хотите, например, почитать старую книгу Бретта Кавано, (или их теперь печально известный ежегодник)? Любопытно посмотреть кучу винтажных объявлений с сигаретами? Как насчет просмотра самой большой коллекции тибетской буддийской литературы в мире? Есть лишь одно место в сегодняшнем мире, где это доступно, и это не Google или какие-то пиратские сайты.

«У меня есть правительственное видео о том, как мыть руки или готовиться к ядерной войне» — говорит Марк Грэм, директор Wayback Machine, интернет-архива. «Мы могли бы легко составить список .ppt-файлов на всех сайтах .mil, Military Industrial PowerPoint Complex».

Грэм недавно беседовал с несколькими группами участников конференции Online News Association 2018, и Ars Technica повезло быть частью одной из групп. Позже он сделал полную презентацию конференции, которая теперь доступна в аудио форме. И главный вывод заключается в том, что масштаб интернет-архива сегодня может быть так же трудно понять, как масштаб самого Интернета.

А вот физическое пространство некоммерческой организации вполне простое, во всяком случае по мнению Грэма. Основная зона находится в старой церкви (скамьи по-прежнему нетронуты) в Сан-Франциско, всего в организации работает около 200 сотрудников. В архиве также находится склад для хранения физических носителей — не только книг, но таких вещей, как виниловые пластинки. Вот где основной единицей измерения информации служит «контейнер для доставки», шутит Грэм. Архив получает огромное количество материалов каждые две недели.

В настоящее время компания является вторым по величине хранилищем отсканированных книг в мире, после Google. Грэм говорит, что их количество больше четырех миллионов. В архиве даже есть список пожеланий для следующих 1,5 миллионов сканирований, включая все, что цитируется в Википедии. Да, Wayback Machine также ищет то, что удалено в Wiki (Грэм недавно рассказывал BBC, что боты Wayback восстановили почти шесть миллионов потерянных и удалённых страниц). Сегодня книги, опубликованные до 1923 года, можно бесплатно скачать через Интернет-архив, и многие из них могут быть использованы как цифровая копия.

Конечно, в наши дни Интернет-архив предлагает гораздо больше, чем текст. К примеру, в нём есть архив более 1,6 млн. записей программ новостей с возможностью упорядочивания и доступа, по ключевым словам (трансляции становятся доступны через 24 часа в виде двухминутных кусов с возможностью поиска). Растущая аудио- и музыкальная часть интернет-архива охватывает радионовости, подкасты и физические медиа (например, сборник из 200 000 пластинок, недавно пожертвованный библиотекой Бостона). А ещё организация может похвастаться обширной классической коллекцией видеоигр, которую каждый может загрузить в эмулятор в браузере для исследований или развлечений. Официально этот раздел включает в себя более 300 000 игр и программ, «поэтому вы можете фактически играть в Oregon Trail на старом компьютере Apple C через браузер прямо сейчас — без рекламы и отслеживания ваших действий» — говорит Грэм.

«Некоторые называют назвать нас хранителями» — говорит он. «Мне нравится говорить, что мы архивариусы».

В целом, по оценкам Грэма, в Internet Archive добавляется четыре петабайта информации в год. Текущий архив организации составляет 22 петабайта, но в Интернет-архиве по факту 44 петабайта. «Потому что мы параноики, — говорит Грэм. «Хранилища информации могут выйти из строя, а у нас есть репутация». Эта «паранойя» помогла организации пережить пожар, нанесший ущерб в 600 000 долларов — без потери каких-либо архивных данных.

Универсальный доступ к знаниям (и фактам, огромному количеству фактов)

Цель создания и ведения интернет-архива не меняется на протяжении последних 22 лет: «универсальный доступ ко всем знаниям». Это в эпоху Интернета означает, конечно, использование небольшой армии ботов, и Грэм отмечает, что в Internet Archive постоянно используется подобное программное обеспечение. Примерно 7 000 одновременных процессов обрабатывают сеть, охватывая 1,5 миллиарда страниц в неделю. Некоторые вещи, такие как домашняя страница Google или сайт The New York Times, могут просматриваться много раз в день; к другим вещам обращаются гораздо реже.

«Мы пытаемся получить все, но это сложно» — отмечает Грэхем. «встроенный Javascript, интерактивные приложения — мы не можем получить некоторые из этих материалов, но мы работаем над этим».

В архив добавляются такие вещи, как эфемерные медиа вроде Snapchat или публичные чаты Telegram, а Wayback Machine поддерживает локальные контакты в местах, где некоторые медиа-архивы или серверы могут подвергаться риску (в последнее время Грэхем отмечает партнеров в Египте, например).

Результатом всего этого является то, что Wayback Machine превратилась во что-то гораздо более полезное, чем просто забавные ностальгические путешествия в прошлое. Мы использовали его много раз. К примеру, совсем недавно, в 2018, президент Трамп заявлял в твиттере что Google перестал публиковать Обращение Президента США (State of Union Address – прим.ред.) на своей главной странице (как это происходило в прошлом). Прежде чем Google ответила, мы обратились к интернет-архиву с простым вопросом — есть ли копия?

«Я люблю Google, но в их обязанности не входит создание копий своей домашней страницы каждые 10 минут» — говорит Грэм. «Это наша работа».

Грэм рассказывает, что Wayback Machine сделала 835 копий главной страницы Google в январе 2018 года. «Таким образом, мы смогли помочь установить правду прямо. Мы не становимся на чью-либо сторону, но помогаем установить правду».

Сайт сыграл аналогичную роль, когда Белый дом недавно удалил свои архивы рассылок, а ряд организаций (а не только новостных, но и такие организации, как экологические компании или ACLU), оказались без соответствующих копий. И доказательства Wayback Machine были приняты в суде. «Существует много событий, которые со временем приобретают большую важность» — добавляет Грэм. Как бывший вице-президент NBC News, он также с гордостью указывает на то, что сайт цитируется средствами массовой информации примерно пять раз в день.

Чтобы улучшить эту репутацию, Грэм рассказывает, что Wayback Machine тонко работает над совершенствованием своих пользовательских инструментов. В нижней левой части главной страницы Wayback Machine вы найдете, например, общедоступные API. Грэм указывает на то, что люди используют их для создания таких вещей, как дифференциатор, где вы можете сделать две копии определённой страницы и сравнить их. Другой инструмент, созданный пользователем, который привлек его внимание, позволяет взглянуть на сайт и сделать радиальный древовидный график, чтобы увидеть, как его структура меняется со временем.

Хотя, возможно, самый простой и эффективный инструмент для всех — это сама технология Wayback Machine — сайт позволяет кому-либо вручную отправлять ссылку на интернет-архив для архивирования прямо из дома. «Если я гуляю со своей кошкой в саду, и вижу историю в Новостях Google, я могу отправить страницу на печать. Но сегодня вы также можете отправить её в Интернет-архив» — говорит Грэм. По его оценкам, это до миллиона снапшотов в неделю.

«Мы сохраняем всё подряд, без какой-либо конкретной цели» — говорит он. Что-то находят боты, что-то волонтёры. В результате мы можем увидеть многое, например оригинальный сайт ю Ars Technica. (К счастью, 20 лет спустя, никто еще не сообщил нам о «плохих, плохих вещах, таких как NT, Linux и BeOS-контент в одном разделе».)

Оригинал: ArsTechnica