Если Вы журналист и сталкиваетесь с правонарушениями в отношении Вас со стороны властей и иных лиц, обращайтесь к нам! Мы Вам поможем!

Как личную информацию о любом человеке можно вычислить по его соцсетям, почему Tor, VPN и Telegram не гарантируют анонимность, кого компания по анализу больших данных ищет для государства, с какой просьбой к ней обращался Милонов и как будет существовать безанонимное общество?

Перед лекцией на фестивале «Кампус», организованном «Бумагой», генеральный директор SocialDataHub Артур Хачуян рассказал, как и с чем работает его компания по анализу больших данных.

Четыре года назад Артур Хачуян работал руководителем департамента кибернетики в рекламном агентстве Тины Канделаки «Апостол». Там он увидел, что компании тратят на бизнес-аналитику «большие суммы», а собирают и анализируют информацию целые отделы специалистов. Через год Хачуян понял, как автоматизировать производство аналитики без отделов по 90 человек, и ушел вместе со своей командой создавать компанию, специализирующуюся на этой задаче.

Сейчас Хачуян — руководитель компании по анализу больших данных SocialDataHub. Созданные его командой алгоритмы круглосуточно скачивают открытые данные из соцсетей, блогов, форумов и медиа. Анализируя с помощью скриптов полученную информацию, компания может очень многое узнать о любом человеке. Теперь они сотрудничают с государством и рекламными агентствами, а за день работы над одним проектом получают от 80 до 500 тысяч рублей.

— Вкратце для непонимающего человека: что такое биг дата?

— По сути дела, это набор дисциплин, технологий, которые обрабатывают большие объемы данных. У всех разные представления об объемах этих данных. Лично я считаю, что если таблица, то более миллиарда строк; если файл, то более петабайта данных. Люди часто называют биг датой гораздо меньшие объемы данных, потому что это модно, это в тренде.

Всё же биг дата — это еще и набор технологий, который помогает собирать данные, анализировать и выбирать из них дополнительные смыслы. Стоит понимать, что это не просто способ собрать пользователей и сделать их топами по подписчикам, но и возможность на основании их лайков, поведения [в соцсетях] определить что-либо.

Биг дата — это возможность на основании лайков, поведения [в соцсетях] определить что-либо

Мой любимый пример: изменения правила парковки в США. Тогда люди собрали данные о паркоматах, где выставляют штрафы, и об их местоположении. Из этих данных они [программисты] поняли, что около 20 % паркоматов штрафуют невиновных людей. Такую зависимость получается определить только тогда, когда анализируется большой объем данных.

— Как проводится анализ непосредственно в социальных сетях?

— Сначала данные собираются специальными алгоритмами, потом попадают в огромное хранилище, а там уже анализируются с помощью скриптов, которые «обогащают» [дополнительными смыслами] эти данные. Скрипты здесь играют главную роль.

Скрипт — это такая программа, которая эмулирует (с точностью выполняет — прим. «Бумаги») движения пользователя. Так, один скрипт выделяет из текстов нужные места, объекты действия или фамилии, другой — считает информацию, третий — анализирует и раскладывает лица людей. В конце концов в этой большой-большой и уже обогащенной базе данных есть и сами данные, и дополнительные поля, по которым аналитик может сделать запрос и проанализировать информацию в понятном для него виде.

Таким образом мы искали террориста, который совершил взрыв 3 апреля. Всё началось с того, что один наш клиент, СМИ, в три часа ночи прислал фотографию оторванной головы и попросил найти предполагаемого террориста. Ну мы и нашли его страницу с помощью нашего алгоритма по типу FindFace: он создан на подобном движке, но работает в одиннадцати соцсетях. Это было быстро: им оказался Джалилов (Акбаржон Джалилов — главный подозреваемый в деле о теракте 3 апреля, погиб в вагоне поезда при взрыве — прим. «Бумаги»).

А на следующий день мы решили еще и проанализировать все его социальные связи и нашли еще больше информации. Так, мы узнали, что у Джалилова шесть аккаунтов в социальных сетях, при этом один из них он удалил за несколько дней до теракта. Поняли, что через друзей он связан с хабаровским террористом, который расстрелял приемную ФСБ. Выяснили, что Джалилов и его друзья имели ультраправые взгляды, кластер которых, кстати, принадлежит Максиму Марцинкевичу. Несколько его друзей уехали воевать в Сирию. Если не все, то многие из этих выводов мы сделали только по открытым данным.

— Выходит, абсолютно реально по открытым источникам найти информацию на каждого человека?

— Все мы учились в школах, участвовали в олимпиадах — на каждого много информации в сети. Просто попробуйте погуглить свою фамилию, а в квадратных скобках указать сайт школы, например. Обычно это работает.

Вот на государственных сайтах же есть форма обратной связи, где нужно ввести только номер своей почты. А аналитик вам уже напишет, например: «Екатерина Максимовна, здравствуйте» — и пользователи удивляются. А это всё легко: в девяти из десяти случаев можно найти как минимум имя и фамилию в открытых источниках.

— В разных странах существуют законы о личной, врачебной и юридической тайнах. Получается, у вас есть возможности их нарушать?

— На самом деле, не совсем. Мы анализируем исключительно открытые источники, то есть только ту информацию, которая находится в открытом доступе. Но при этом, проанализировав, предположим, 100 тысяч условных геотегов, можно найти место работы и жительства многих людей. И вот это уже — персональные данные людей. Но всё это сложно регулируется законом.

Проанализировав, предположим, 100 тысяч условных геотегов, можно найти место работы и жительства многих людей

Единственный закон, регламентирующий подобные действия на данный момент, — это № 152 «О персональных данных». Если обобщить все 60 страниц «воды», там написано, что персональные данные — это данные, которые персональные. По сути дела, из них ничего не понятно. Юридически анализ открытой информации никак регламентировать нельзя.

Сейчас мы разрабатываем нескольких законопроектов для регламентирования больших данных. Такие вещи, когда с помощью биг дата не напрямую получают персональные данные, в скором времени будут регулироваться.

Новый закон, я думаю, будет ограничивать применение некоторых алгоритмов и, возможно, использование данных из соцсетей, какой-то базовый функционал. Но, повторюсь, всё это сложно регламентировать.

Проще говоря, если я, например, работаю с банком, мы продаем ему не факты о клиентах, а мою персональную аналитику кредитной способности человека. И с этим ничего уже не сделать: банк просто передает тебе страничку в соцсети, и я говорю, что этот парень вряд ли вернет кредит. Как я это сделал, на основании чего — никто никогда не сможет доказать.

Фото с фестиваля «Кампус»

— Анализ больших данных часто используется в правозащитной деятельности?

— Каждый использует большие данные как может. В любом случае все данные находятся в открытом доступе, поэтому мы можем их передать куда следует.

Последний раз я наткнулся на пост, в котором «Лентач» высмеивал религиозную организацию, которая просила удалить один мем. Я не знаю, что мной двигало, но я зашел на сайт этой религиозной организации и выяснил, что там есть призывы чуть ли не сжигать нерожавших женщин, геев и так далее. Тогда я собрал по десять примеров постов людей, которые там призывали к экстремизму, и отправил куда следует.

— К разговору о законе и законности: в последнее время политики часто говорят о вмешательствах в выборы. Всё, о чем говорят, действительно возможно и реально?

— Всё это преувеличено. Эта та же история, что и Милонов, который нагнетает ад для отвлечения от повестки дня. Конечно, хакерские атаки и взломы компьютеров абсолютно реальны, но вряд ли кто-то пользуется этим в том объеме, о котором говорят в СМИ.

Если говорить о больших данных в политтехнологиях, то главный пример — это Трамп и его победа на президентских выборах. Я бы не стал говорить, что это всецело сделано с помощью больших данных. Стоит учитывать, что в победе Трампа большую роль сыграла его харизма и живое общение с избирателями.

В России, я считаю, биг дата в политтехнологиях ближайшие лет десять вообще не будет применяться. У нас и так результаты выборов всем понятны.

— А если человек не пользуется интернетом вообще, его реально найти?

— Мы же все живем в обществе, конечно. Если человека нет в соцсети, то это не значит, что в интернете нет о нем информации.

Если человека нет в соцсети, то это не значит, что в интернете нет о нем информации

У меня есть любимый случай: молодому человеку пришла повестка, после чего он решил удалить себя из всех соцсетей. Но у него остались друзья, которые в один прекрасный день выложили фотографию с ним. Всегда есть какие-то случайные фотографии, которые находятся с помощью распознавания лиц. У этих же друзей находится его фотография с вечеринки, по грифам с ночных клубов вычисляется его геоположение. В общем, в конце молодой человек уходит в армию.

Многие еще заводят фейки, чтобы, например, смотреть порно. Но опять же фейки легко определяются по паттерну поведения. Человек так же себя ведет, сталкивается с тем же контентом, заходит на те же сайты. Интернет-провайдер вообще видит, что всё это делается с одного и того же компьютера. Фейки также вычисляются.

В общем, нам всем остается только не постить то, за что будет стыдно. Больше никаких выходов не остается.

— А насколько реально регулировать те же анонимные каналы Telegram?

— Если у тебя нет приглашения, никто не будет их анализировать. Мы анализируем только открытые источники. Никому не нужно взламывать это шифрование, потому что это бессмысленно. Гораздо легче взломать каждого по отдельности: скопировать сим-карту, украсть аккаунт и его проанализировать.

Это большое нагнетание, что государство за всем следит, неверно. У них на это нет прав. Условный Mail.Ru Group очень не хочет раскрывать свои данные. Крупные компании штабелями будут класть юристов, чтобы не дать государству получить доступ к их данным. Потому что в противном случае компании, за которыми следят, понесут колоссальные убытки.

К тому же, по моим наблюдениям, никто не станет интересоваться вашими личными сообщениями, если у вас нет хотя бы 5 тысяч человек активной аудитории. На самом деле, важно лишь то, что вы говорите широкой публике и как сказанное может повлиять на это общество. Никому нет дела, если это не уголовное следствие.

— Но сейчас в Telegram часто продают наркотики, оружие и прочее. Получив шифрование, можно же сразу получить доступ ко всем преступникам?

— А это и сейчас пытаются анализировать. Мы анализируем Tor, анализируем сайты и Telegram-каналы, которые продают наркотики.

Мы анализируем Tor, анализируем сайты и Telegram-каналы, которые продают наркотики

Вообще, есть такая шутка в США: если анонимный сайт, продающий наркотики, внезапно начал работать хорошо, значит, его перенесли на серверы ФБР. Зачастую так примерно и происходит: спецслужбы угоняют сайты, где-то три-четыре месяца собирают базу, а после уже отлавливают всех.

Но в России всё же другая глобальная политическая задача. Продавцы наркотиков не так всех интересуют. Государству больше нужны политические блогеры. Так что подобные тактики сейчас используются не в таких объемах. Но эти кейсы мы имеем в виду.

Фото с фестиваля «Кампус»

— Анонимным можно остаться, используя VPN или Tor?

— Лучше рассмотреть это на примере Tor — это такая вещь, которая каждый раз рандомизирует твой выход в сеть. По сути дела, если ты провайдер или владелец какого-то ресурса, на который заходит пользователь, то с помощью разброса данных можешь понять, где находится тот или иной человек. Так что нет. То же самое происходит и с VPN.

Пользователь сейчас спасается только тем, что провайдеры хранят данные за последние пять-семь дней, а ретроспективно очень сложно найти кого-то. Но даже это реально: с помощью общего анализа трафика и дисперсии вполне можно понять, где тот или иной человек находится.

Так что анонимности здесь нет. Хотя по данным провайдеров, количество пользователей Tor и VPN увеличивается.

— У вас возникают какие-то этические дилеммы по поводу того, с кем сотрудничать, а с кем нет?

— Вот одна из последних показательных историй: пришел запрос от ребят из команды Милонова, которые попросили найти всех учителей, которые лайкают гей-порно. Это, конечно, за пределами моего этического барьера, поэтому я отказался.

Пришел запрос от ребят из команды Милонова, которые попросили найти всех учителей, которые лайкают гей-порно

Но, вообще, каких-то явных этических дилемм не возникает. Все запросы приходят без просьб нарушить чьи-то границы. Всё же делается по открытым источникам, поэтому ничто из того, чем мы занимаемся, не нарушает чью-то свободу.

— Часто к вам обращаются чиновники и государство?

— С государством мы работаем. Не могу говорить, с кем и в каких рамках. Скажу лишь, что ищем мы людей, которые уже официально находятся под следствием, — это педофилы, серийные убийцы и прочие преступники.

Не могу сказать и то, с какими именно органами сотрудничаем. Но к нам многие организации обращаются.

Для меня такое сотрудничество нормально. Путина я поддерживаю.

— А за плату кого ищете?

— В коммерческом отношении — кого только ни ищем. Запросы приходят ежедневно: найти всех подружек невест, всех владельцев беременных кошек, всех владельцев красных BMW третьей модели, у которых муж работает в банковской сфере. Мы это, конечно, делаем.

Сейчас таргетинг узких аудиторий — наиболее популярная и оплачиваемая вещь. Рекламные компании за это готовы платить действительно большие суммы.

Часто ищут лидеров мнений, которые могут воздействовать на широкие круги населения. Блогеры сейчас дороги и неэффективны. С помощью алгоритмов легче найти пять условных мам младенцев, которые держат у себя общественное мнение об опять-таки условном бренде детского питания.

Один раз сотруднице искали парня мечты. Нашли.

Один раз сотруднице искали парня мечты. Нашли

— Сколько вы получаете за один такой заказ?

— Это же всё зависит от объема проанализированных данных. В среднем цена варьируется от 80 до 500 тысяч рублей за один заказ.

Конечно, на рынке есть и другие ребята. Но такой большой объем, который зачастую и требуется, можем охватить только мы. По факту все остальные выдают список упоминаний их бренда, а мы уже делаем список рекомендаций и выводов на основе полученных данных.

(SocialDataHub действительно наиболее массово использует биг дата в анализе соцсетей. Однако многие крупные компании избегают фирм-посредников и открывают собственный отдел аналитики больших данных. Подобные технологии уже используют «Яндекс», Kaspersky и «Сбербанк». Помимо того, часть фирм, проводящих анализ больших данных, чаще занимается бизнес-аналитикой. Самыми крупными из них за 2016 год признаны«Прогноз», Softline и AT Consulting — прим. «Бумаги»)

По конкурентоспособности мы опережаем других даже за счет скорости обработки информации. К тому же у нас свои алгоритмы, которых нет у других; мы единственные, кто анализирует лайки, интересы, аудиторию, грамотно распознаем лица.

— Обобщая всё вышесказанное, анонимности в сети сейчас не существует?

— Анонимности не существует, правильно.

— А как изменится общество, когда все поймут, что анонимности нет?

— Хотелось бы сказать, что преступлений больше не будет, но вряд ли такое случится. Скорее всего, в эпоху тотальной открытости уровень преступлений снизится, повысится уровень прогнозирования распространения болезней, станет проще жить, так как данные очень сильно изменят города. Но это одна сторона.

С другой стороны, в безанонимном обществе увеличатся случаи социального терроризма, когда кто-то будет использовать открытые данные, чтобы находить и преследовать случайных людей. Возможно, появятся даже случаи, когда кто-то будет терроризировать других на основании тех же лайков в соцсетях.

http://paperpaper.ru/campus/big-data/?utm_source=meduza&utm_medium=partners&utm_campaign=friends