«Стоит задуматься, кто и зачем собирает наши данные»

Образовательный курс
«Цифровая журналистика»

Эксперт программного комитета ИРИ Игорь Ашманов на форуме «Территория смыслов на Клязьме» рассказал про будущее Big data и о том, как нам лучше относиться к своим данным.

Сейчас растёт нация больших пальцев, которая постоянно живёт в сети и создаёт цифровую собственность. В ближайшие 10 лет у нас будет полноценное покрытие широкополосным доступов в Интернет по всей стране. В книге Дэвида Эйгерса «Сфера» объясняется, как накопление больших обхемов данных рождает демагогию прозрачности, которая будет продвигаться повсеместно. Эта абсолютная прозрачность возникнет технически, потому что любые устройства будут передавать все данные автоматически.

Это приведёт к отсутствию анонимности. Дома можно зашторить окна и выключить гаджеты, но на улице путь любого человека в Москве уже прослеживается по улицам и через метро. Можно предположить, что через 10–15 лет количество камер в России достигнет приблизительно миллиона штук. Таким образом, у нас появится «машина времени» — любое событие можно будет отмотать назад и посмотреть с разных ракурсов, вплоть до лиц и номеров автомобилей. Сейчас всё это есть, нужно только увеличение количества устройств.

Здесь возникает накопление данных, большинство из которых интимные. Этому способствует и то, что происходит в интернете. Люди не понимают, что устройства помнят географию, люди пишут, думая, что это только для друзей. Осознания проблемы в обществе нет. Про большие данные много говорят, туда идут серьезные инвестиции.

Что такое Big data по сути? Прежде всего, слово «большой» относится не к объему данных, а к тому, что их нельзя обработать вручную, слишком много форматов и каналов, из которых данные приходят, — нужны специальные программы. Другое свойство этих данных — сами они больше суммы всех их частей. Третье — это то, что крупный агегатор данных может смотреть как бы с высоты птичьего полета и видеть и выделять крупные тренды из этих данных. Четвертый момент — эти данные ретроспективны.

Ты видишь, что происходило с данными в процессе: вчера, сегодня, завтра. И, несомненно, всех интересуют данные о людях, потому что это — деньги. Есть сырые данные, которые накапливаются — видео вашей походки, траектория движения, ваше фото в сети и другая информация. Вы оставляете цифровые следы в разных форматах и сущностях, и эти данные могут принадлежать разным структурам.

Производные данные — обработанная разными статистическими методами сырая информаци. Если узнать, во-сколько вы выходите в интернет, то можно понять, кто вы, даже не под логином. Вас можно отследить по смартфону. Для чего это можно использовать? Прежде всего, это навязчивая реклама, персональная и точечная реклама. Конечно, бывает ещё история, когда с помощью ваших данных их собирают RTB (программатик). Часто еще наши данные собираются и перепродаются. Для чего ещё? Влиять и управлять электоратом, предсказывать итоги выборов.

Недавно произошел прорыв в нейронных сетях — сверточные технологии (сетку можно обучить, и она начнет распознавать или описывать лицо). Данные собирают все, в том числе и маленькие кусочки кода. Приложение фонарик требует доступа к смс, географии и т. д. Почему? Им надо жить, и они перепродают информацию.

Понятно, что сейчас даже смартфоны делают снимки в выключенном состоянии. Они снимают траекторию, скорость бега, пульс, температуру, биометрию, финансовые, графические и географические данные. Сейчас это почти ничего не означает, но потом, через 10–15 лет эта информация может пригодиться. Про 1000 человек вы можете собрать данные, но при этом некоторые из них станут влиятельными.

Можно обучать систему по 10 тысячам, научить, и потом анализировать других. Крупные коммерческие площадки через программатик торгуют между собой. Эти данные улетают куда-то от нас через Google и соцсети. Самая большая ложь — I agree в terms&conditions. Каждый раз, ставя галочку при регистрации, вы соглашаетесь на обработку своих данных.

Казалось бы, данные о том, где я сижу, должны принадлежать мне, но ведь и «галочку» я сам ставил. Здесь подходит метафора цифровых недр — ты можешь получить землю в наследство, и можешь делать с ней всё, что хочешь. Но под этой площадкой находятся недра, с которыми ты должен получить разрешение делать что-то. Нужно выработать юридический кодекс, понятия, что хорошо, а что плохо. Также важна саморегуляция отрасли. В реальном бизнесе в большинстве отраслей возникла саморегуляция, люди чувствуют ответственность. А в IT долгое время сидели и думали, что им закон не писан.

На мой взгляд, сейчас важно выпустить карту хранилищ, стандартизованное пользовательское соглашение, которое соответствует российскому законодательству, начать регулирование оборота данных, лицензирование операторов больших данных. В будущем я прогнозирую создание двух организаций. Первый — единый оператор пользовательских данных, второй — сервис, который будет показывать, где и какие данные о вас собраны.

Теги: Google, Интернет, Интернет+

Новости smi2.ru

Комментарии 0

Зарегистрируйтесь или , чтобы оставлять комментарии.