Базы данных медицинских учреждений, страховых компаний, операторов связи или развлекательных сервисов без указания имени и фамилии человека с точки зрения законов уже не являются персональными данными, а значит могут свободно продаваться или передаваться третьим лицам. Ученые говорят, что эти якобы анонимные данные позволяют легко идентифицировать любого человека с точностью 99,8%.

Около двух третей мирового населения пользуются интернетом, ежедневно оставляя цифровые следы и передавая сайтам свои личные данные. А тысячи компаний собирают и обрабатывают эту информацию, и могут свободно ею делиться. Для этого достаточно скрыть реальные имена и фамилии людей при передаче баз данных кому-либо. Законы по защите персональных данных во всем мире расценивают анонимизированную информацию уже не как персональные данные, а значит, она может свободно использоваться, передаваться или продаваться.

Однако обезличенные данные могут быть легко деанонимизированы, а практика компаний по хранению и передаче персональных данных клиентов отнюдь не гарантирует гражданам соблюдения права на тайну частной жизни. К такому выводу пришли ученые Имперского колледжа Лондона и Лувенского католического университета, которые научились практически безошибочно вычислять людей по кускам информации из анонимных баз данных.

Чтобы понять, о ком именно идет речь в базе данных, совсем не обязательно знать имя и фамилию. Достаточно собрать воедино несколько параметров. Зная даже всего три показателя, например, почтовый индекс, дату рождения и пол, можно вычленить уже очень узкий круг лиц. При наличии же 15 показателей, собранных из баз данных с социально-демографическими характеристиками людей, опросов и медицинских баз, можно точно определить конкретного человека.

Как уверяют ученые в опубликованной журналом Nature Communications статье, их модель искусственного интеллекта по идентификации граждан сможет выдавать верный результат с вероятностью в 99,8% при охвате всего населения США, или 99,6% при охвате всего 1% населения.

Как показал скандал с передачей данных пользователей Facebook исследовательской компании Cambridge Analytica, людей живо интересует вопрос безопасности собственных данных. А соглашение Google и британской Национальной системы здравоохранения вызвало опасения, что американской корпорации могут быть переданы медицинские данные миллионов британцев. А значит, они в конечном итоге могут оказаться у кого угодно.

Достать базы данных о пользователях довольно просто. Как показал еще в 2016 году эксперимент немецкой журналистки Свеи Эккерт, для этого даже не обязательно платить кому-то или быть хакером. Вместе со специалистом по обработке данных Андреасом Девесом она зарегистрировала фейковую маркетинговую компанию, запустила веб-сайт и даже создала страничку ее несуществующего генерального директора в Lindkedin. На сайте компании утверждалось, что она создала алгоритм машинного обучения, которому необходимы базы данных для обучения. Они просили базы с гражданами Германии, что несколько замедлило поиски, но в конечном итоге бесплатно получили базу данных с тремя миллиардами интернет-адресов, которые посещали три миллиона граждан Германии.

Среди прочего удалось выяснить, какое порно предпочитает один из парламентариев и какие таблетки он принимает.

Кто стоит за каждой историей браузера, журналистка и ее помощник выяснили очень быстро. Кого-то удалось вычислить только по одному интернет-адресу — странице с аналитикой аккаунта в Twitter или Xing. Когда пользователь заходит на нее, то в конце URL страницы автоматически отображается его никнейм. Сопоставить человека и аккаунт после этого становится в большинстве случаев очень легко.

Авторы нынешнего англо-голландского исследования предлагают даже пользователям интернета оценить возможность своей деанонимизации, основываясь всего на нескольких простых вопросах. Правда, эта опция доступна только для жителей США и Великобритании.

Кирилл Сарханянц