13-12-2016 22:44

Big Data для Большого брата

Википедия определяет Большие данные (англ. Big Data) в информационных технологиях как «совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов и значительного многообразия».

Википедия и сама по себе проект эпохи Больших данных, где они отлично структурированы и потому работать с ними может любой пользователь. А вот, например, анализ огромного массива фотографий человека, разбросанный по социальным сетям в хаотическом порядке, — сложная задача не только для человека, но и для компьютера. Сегодня с ней прекрасно научились справляться, и это для технологий Big Data — далеко не предел.

О возможностях, которые дает государству и крупным корпорациям анализ Больших данных, «Новой газете» рассказал Иван Бегтин, директор некоммерческого партнерства «Информационная культура», ведущий многочисленных проектов в области так называемого открытого государства. 

Из видео байта не выкинешь

Манипуляции общественным мнением и слежка, использующие анализ так называемых Больших данных, ставят перед обществом проблемы в нескольких важных аспектах. В первую очередь это этическая проблема сбора информации о личности из закрытых и открытых источников. Большие изменения, которые массовый потребитель пока не замечает, происходят в системах хранения.

Впервые в истории человечества вся информация хранится вечно.

Еще недавно период хранения данных с камер наблюдения был всего два часа, но все видео с сервисов типа YouTube, размещенное еще в начале века, там так и осталось. Это принципиально другая ситуация. Человеку теперь даны механизмы постоянной фиксации жизни. А все фото, сохраненные в соцсетях, остаются там навечно.

По конкретным прецедентам понятно, что, если человек удаляет свои записи, они все равно хранятся на серверах (и к ним теоретически можно получить доступ. — Ред.). Даже в Германии, где закон очень жестко защищает персональные данные, такие случаи уже были (конкретно — с фейсбуком).

Люди могут фиксировать свою жизнь очками виртуальной реальности. В 80-х годах встречались фрики с камерами на головах, их сегодняшние наследники — мотоциклисты с видеорегистраторами на шлемах. В некоторых странах даже автомобильные видеорегистраторы запрещены. Поэтому в России падение метеоритов в Челябинской области записано множеством устройств, а кое-где это было бы категорически невозможно.

Имеет ли право человек фиксировать на видео все, что видит глазами? Пока такой коллизии еще нет, но она возникнет очень скоро.

Если вы смотрите, как человек набирает пин-код в банкомате, вы можете не запомнить последовательность действий. Но придя домой, вы легко восстановите все нажатия в покадровом воспроизведении в очках виртуальной реальности.

Big Data

А ведь все эти устройства загружают данные в облачные сервисы, где они могут попасть в распоряжение других людей независимо от желания снимавшего. В рамках маркетинговых соглашений к видеохостингу имеет технический доступ множество совершенно неожиданных партнеров. Например, по базам публичных видео- и фотосервисов был создан сервис Find face, позволяющий установить человека просто по фотографии.

Конкуренция приведет к быстрому прогрессу этой технологии: распознавание отпечатков пальцев, голоса и лиц совершенствуется непрерывно.

Что может рассказать смартфон

Люди размещают свои данные добровольно, часто даже не осознавая этого. Владелец смартфона при первой регистрации сдает огромное количество персональной информации. По тому, как вы используете гаджет, современные алгоритмы могут установить даже ваше вероисповедание. Например, если владелец годами отключает смартфон каждую субботу, можно сделать вывод, что он правоверный иудей. 

В Нигерии и большинстве стран тропической Африки нет полноценного статистического наблюдения, его занимает анализ данных сотовых операторов. Статистика по населению получается от сотовых операторов.

Как эффективно защитить себя от онлайн-слежки?

Местный провайдер NordTelecom оценивал качество образования по анализу текстов СМС-сообщений населения. Таким способом с вероятностью 84% определялся уровень образования абонента. Это позитивный пример использования Больших данных при разработке программ повышения образования в различных регионах.

Отдел кадров в облаках

Мы все опасаемся государства, но следят больше всего корпорации. Обработка Больших данных требует средств, технологий и кадров. В первую очередь деньги вложат те, кто сможет быстро продать анализ вашей персональной информации: Google, Facebook, Apple, Microsoft и им подобные крупные международные игроки рынка.

При запуске новых компаний, услуг и продаже данных они заинтересованы в маркетинговых исследованиях вашего потребительского поведения. Игра Pokemon Go и те, что последуют за ней, запускаются в расчете на уже рассчитанную модель поведения населения.

Международные корпорации в России и крупнейшие отечественные компании очень жестко следят за своими сотрудниками. На корпоративных серверах устанавливаются программы, контролирующие голосовой трафик, переписку, мессенджеры и почту. Большинство сотрудников это знают, пользуясь сторонними защищенными сервисами. Корпорации стремятся вскрыть и эту почту. Бизнес, как правило, знает о вас гораздо больше, чем государство.

Работа на рейтинг

Вся ваша жизнь влияет на кредитный рейтинг. Для этого банки отслеживают данные клиента в социальных сетях, ведь заполняя заявку на кредит, вы указываете свою страницу (многие уже догадались, что лучше не указывать). Найти вас там банки, имея договоры с социальными сетями, могут по телефону, адресу электронной почты, указанной в договоре.

Их находки подчас весьма любопытны.

Группа, создавшая механизм оценки кредитоспособности заемщика по данным из сети «ВКонтакте», нашла связь между количеством загруженной на страницу клиента музыки и вероятностью, что он не вернет кредит.

Конечно, посадить на такую работу людей, физически читающих тексты, нереально. И корпорации, и государство приходят к автоматизации сбора и анализа колоссальных объемов информации о гражданах.

Как работает «полицейское государство»

На одном уровне отслеживают массовые настроения, уровнем ниже исследуют отдельные группы и лидеров мнений, отдельно же занимаются лишь людьми, находящимися в какой-либо группе риска.

Это не только в России происходит. Я с некоторой иронией отношусь к мнению, что у нас строят полицейское государство. Когда у нас перестанут пилить бюджет на строительство «Большого брата», может, что-то и получится. А пока коррупция в правоохранительных органах этому препятствует.

Да и государство не находится на переднем крае этого процесса, оно всегда догоняющий игрок. Правительственные идеи тотального контроля лишь клонируют или расширяют корпоративные разработки. Я говорю о массовых практиках, не о слежке за отдельными террористами или оппозиционерами. Это вообще не Big Data, потому что таких людей и информации о них совсем немного.

Часть Больших данных есть только у государства. Например, обобщенные потоки на транспорте или от сотовых операторов. По сигналам Wi-Fi можно отследить передвижения конкретного смартфона и человека.

Таргетизации ради, или Джорджу Оруэллу такое и не снилось

Спецслужбы и полиция могут объединить все данные с камер наблюдения в единую систему, например, и анализировать лица людей в реальном времени в масштабах мегаполиса или региона. Можно объединить системы пассивного сбора информации: звуковые датчики в городах в совокупности укажут точное место выстрела или любого интересного государственным органам звука, автокатастрофы например.

Зато у них негров дискриминируют

Правозащитники в США сегодня борются с системой, анализирующей активность в социальных сетях. Многие специалисты подозревают, что многочисленные сайты-анонимайзеры, позволяющие обеспечить анонимность пользователя, также финансируются спецслужбами разных стран. И чем лучше их публичная репутация, тем больше у них поток информации, которую пользователи хотят скрыть. По американским законам провайдер не имеет права предупредить клиента, что его переписку читают спецслужбы.

Это очень похоже на нашу ситуацию, разница только в прогрессе индустрии. Технологически среда на Западе изначально была очень сложной, а контроль затруднен, несмотря на передовые достижения. Китай построил моноструктуру контроля с простой и ясной архитектурой. Мы где-то посередине, но постепенно движемся в сторону Китая.

Big Data

При этом алгоритмы анализа зависят от постановки задач, поэтому результаты их работы могут отражать различные уровни предубеждений вплоть до расизма.

Для судов США система Compass рассчитывает сумму залога, который разумно внести за конкретного человека.

В нее загружается его судебный и поведенческий профиль: пол, возраст, происхождение, образование, прохождение по делам учета — сотни параметров. После анализа машина выдает рекомендацию, какую сумму залога назначить. Выяснилось, что цветным почти гарантированно назначают более высокий залог. Американские правозащитники борются с этой практикой.

Ваш геном очень важен для нас

Но раса и национальность объединяют огромные группы людей. Генетическая же информация конкретного человека — это принципиально новый уровень этики для работы с Большими данными.

В любом крупном городе люди могут за свой счет секвенировать геном и узнать, например, о возможном развитии ишемической болезни сердца в будущем. Минимальный набор тестов стоит сейчас 14 000 рублей, но постепенно дешевеет, и многие начинают это потихоньку делать. В России таких около 60 000, а в США в 2014 году секвенирование прошли полмиллиона человек, в нынешнем, думаю, около миллиона. Почти всегда это делается добровольно в рамках ДМС. Некоторые медицинские компании последнее время уже начали эту услугу навязывать.

В течение восьми лет набирает силу проблема генетической дискриминации. Если секвенирование указывает на высокую для вас вероятность болезни Альцгеймера и до этого вам осталось лет пять, в России к этому отнесутся философски — горизонт планирования у большинства граждан два-три года. Но в странах, где люди и компании смотрят вперед лет на 20, человеку начинают повышать стоимость добровольного медицинского страхования. У многих страховка подорожала в разы. С 2002 по 2008-й в Конгрессе США шли баталии, закончившиеся принятием такого закона, запрещающего генетическую дискриминацию.

Ведь если работодатель оплачивает человеку ДМС, в рамках трудового договора он может обязать его пройти секвенирование. У нас такой массовой практики пока нет, на рынке анализа генетической информации есть лишь несколько компаний. Готов поспорить, в скором времени они начнут лоббировать идею бюджетного финансирования генетических исследований для больших групп граждан.

Когда стоимость услуги снизится, они начнут придумывать причины. Сначала преступников одновременно с дактилоскопией обяжут пройти секвенирование, затем сотрудников силовых органов, далее бюджетников. Всеобщую дактилоскопию ввести сложно, она устойчиво ассоциируется с преступностью. А геном — с медициной. Сегодня уже предлагают секвенировать нерожденных детей, чтобы знать, кто родится с серьезными отклонениями. Об этом сравнительно недавно снят фантастический фильм «Гаттака».

Big Data

Все это Большие данные, которые будут храниться до вашей смерти. Если у вас есть брат-близнец, ваш анализ даст государству и компании-оператору в руки и его личные данные полностью. А также половину генома вашего отца, матери, братьев и сестер.

Кому принадлежат данные о вашем геноме? Ряд законов позволяет изъять результат анализа в компании, проводившей исследования. Но хранится он в цифровом виде, и предотвратить копирование в любых целях затруднительно.

И это перспектива ближайших десяти лет. Уже сейчас запрещено вывозить из России генетический материал. Расшифровку генома в зарубежном сервисе вы можете сделать только нелегально.

Надо понимать, что анализ Больших данных всегда предлагает совершенно неочевидные опосредованные выводы. При переходе к конкретной личности всегда остается возможность ошибки. Сегодня банки еще не интегрированы с социальным сетями, они не могут автоматически узнать, что клиент сменил место работы. Но разговоры о таких возможностях среди специалистов уже идут, хотя это на грани вторжения в частную жизнь.

Коммерческие и рекламные предложения вам на почту и в мессенджеры все чаще приходят в результате изучения вашей потребительской активности. Это только начало, сегментирование пользователей можно делать гораздо более глубоким. Допустим, показать определенную рекламу всем, кто за последнюю неделю купил новый холодильник.

Сканер для ваших карманов

Активность государства сегодня несопоставима со слежкой компаний. Государство сильно в первую очередь тем, что может получить доступ к информации бизнеса.

Года три назад в Италии запустили проект налоговой службы, сравнивающий среднемесячный доход и расходы граждан, начиная с определенной суммы расхода. Если в месяц человек тратит условно 20 тысяч евро при подтвержденном доходе 3 тысячи, к нему в гости идут инспекторы и задают конкретные вопросы.

Это именно анализ Больших данных из хранилища налогового ведомства, отслеживающего все финансовые транзакции. И наши налоговики легко могут это сделать сегодня. Например, если расходы большинства сотрудников конкретной компании не соответствуют доходам, значит, директор выплачивает часть зарплаты в конвертах и ему можно слать предупреждение.

Многих данных еще нет, но можно начать их собирать. Китай уже планирует эксперимент с социальным рейтингом граждан.

Вот в сервисе «Яндекс.Такси» вы после поездки оцениваете таксиста. А ведь и он может вас оценить — вежливость, чистота одежды и так далее.

Из дорогих парикмахерских и клиник вам звонят службы оценки качества и интересуются вашим мнением, выраженным по десятибалльной шкале.

Такие оценки есть в интернет-сервисах по подбору врачей, репетиторов, мастеров ремонта и так далее. Все рейтинги изучают, насколько тщательно и последовательно вы выполняете правила. Но ведь и законы — это тоже правила. И в Китае в социальный рейтинг будут закладываться нарушения ПДД, административные наказания, частота просрочек квартплаты, кредитов и любых регулярных платежей вообще.

В итоге сформируется ваш рейтинг. Если он высок, с вас, например, не возьмут предоплату в отеле. Участие человека в волонтерских движениях, социально ориентированных НКО, например, увеличит рейтинг. А пьяное буйство в самолете может так его понизить, что гражданину разрешат покупать авиабилеты с большими ограничениями или по повышенной цене. Советую посмотреть посвященную этой технологии первую серию третьего сезона фантастического сериала «Черное зеркало».

Big Data

Я на это смотрю как на вполне возможное будущее. И государство будет модерировать систему социальных рейтингов, использовать их в манипуляциях гражданами. Организация такой системы в пределах МКАД вполне возможна и сегодня, но Россия, полагаю, будет далеко не первой страной на этом пути. В кандидатах у меня ряд городов в Европе, Сингапур, где это уже обсуждается.

Анализ Больших данных обещает и много хорошего. В недалеком будущем передающие информацию в интернет вживленные устройства контроля давления и других медицинских параметров позволят мгновенно обнаруживать место и время убийства, смерти от несчастного случая, избиения и изнасилования.

Хотел бы уберечь интересующихся граждан от иллюзий: если наше государство станет экономически мощным аналогом западных демократий, слежка на самом деле усилится. Где растет экономика, там корпорации наращивают влияние, имея при этом тесные связи и общие интересы с государственными органами.

Думаю, все практики, которые даны власти прогрессом, будут применены. Но не политика в первую очередь волнует власть, она полезла во все сферы, касающиеся наших денег. Если анализ Больших данных позволит снизить издержки на конкретного гражданина или увеличить его налогооблагаемую базу, этим обязательно воспользуются.