Память ускоряет вычисления

В начале этого года Президент Сбербанка Герман Греф назвал неконкурентоспособной IT-инфраструктуру крупнейшего банка страны. Обновлять платформу Сбербанк будет с помощью компании GridGain — американского стартап с российскими корнями, который разрабатывает программное обеспечение для ускорения работы с большими базами данных. ИвЦ поговорил с со-основателем и техническим директором компании Никитой Ивановым про технологию In-MemoryComputing для переноса вычислений в оперативную память компьютера и как она повлияет на ИТ-рынки России и мира.

Что такое In-memory computing и почему именно сейчас этой технологии уделяется все больше внимание?

Давайте начну издалека. На самом деле термин появился недавно, лет 20 с небольшим. Но идея хранения данных в памяти — абсолютно не новая, инженеры прекрасно представляли с самого начала, что есть внешние накопители данных — большие, но безумно медленные. Если хранить данные в памяти компьютера —это намного быстрее, причем в разы, например, память быстрее, чем диск, практически в миллион раз. Колоссальная разница! Мы это все знали со времени появления первого компьютера. Проблема была одна: память иногда исчезает. Выключается электричество — данные теряются. Вторая проблема — память всегда дороже, и ее всегда меньше. Потому что стоимость создания памяти и стоимость создания диска принципиально разные. Поэтому у нас всегда была ситуация, при которой были компьютерные системы, у которых памяти было мало, а внешние накопители всегда имели кучу памяти. И такая ситуация была с самого начала. В 1950-е годы американская компания, которая винтовки сегодня делает, изготовила накопители Remington. Потом появились диски. В конце 1980-х Toshiba сделала флэш, а все наши телефоны и десктопы работают с флэш-накопителями. Все развивалось по такому пути: внешние накопители становились все более быстрыми, емкими и дешевыми. Буквально лет 15–20 назад мы начали осваивать память. Мы начали переходить от 16-битных процессоров на 32-битные. К чему это привело? К тому, что процессоры смогли работать с куда большим количеством оперативной памяти. Раньше, чтобы иметь какой-то емкий набор памяти, нам нужно было соединять тысячи компьютеров в кластер. Каждый компьютер был очень мал, его приходилось заменять.

Сегодня мы находимся в такой идеальной точке, где сошлись два тренда. Первый тренд — память настолько подешевела, что у нас появились процессоры, которые могут работать с огромными объемами. Второй — спрос. 20 лет назад сколько было известно систем, у которых был миллион пользователей? Ноль. Такого вообще не было. Что такое миллион сейчас? Это удачный стартап через три месяца. Поэтому спрос, конечно, здесь играет огромную роль.

Сегодня объемы данных совершенно другие. Принцип, что нужно иметь какое-то приложение, в котором ты нажимаешь кнопку и получаешь ответ на основе обработки массивов больших данных — он везде. Так что мы видим абсолютный взрыв использования этой технологии.

Но при этом, наверное, львиная доля компаний все еще хранят Big Data на медленных носителях и потом переносят их для обработки?

Все это правильно. Большинство систем пока такие, это экономически оправдано. Но есть оперативные данные, которые нужно обрабатывать в кратчайшие сроки, чтобы бизнес функционировал. И для таких кейсов другого пути у людей нет.

А какие отрасли сейчас наиболее продвинуты во внедрении технологии?

Хороший вопрос. Дам на него интересный ответ. Это практически не зависит от отраслей. Кейсы, которые мы решаем, находятся в совершенно разных областях. Вы удивитесь, насколько в разных. Финансовая сфера, игры онлайн, мобильные сервисы, страховка, телеком. Все и везде. Единственное, что их связывает, это решение вопроса о том, что есть большой объем данных, и нужно получить некую выдержку, выжимку из него в реальном времени в течение секунды. Эта проблема абсолютно одинаковая, вне зависимости от того, говорим мы про игры на PlayStation или про совершенно скучную банковскую систему по бизнес-аналитике.

Очевидно, да. Если у нас имеется какой-нибудь PlayStation VR, где нужно быстро понять местоположение игрока. Или, например, сенсорная сеть в умном городе, которую опять-таки нужно быстро переключить, среагировав на сигнал.

Собственно, это причина, по которой мы развиваемся как бизнес, который практически независим от индустрии. Да, исторически так сложилось. Есть финансовые компании, которые пришли к этому много лет назад. Поэтому, естественно, у нас более представлены финансовые компании. Чисто исторически они знают об этом, им не надо объяснять. Но примеры мы видим везде. Совершенно в удивительных местах, в которых не ожидаем.

Мы больше говорили про оборудование. А если мы смотрим в сторону ПО, что меняет эта технология? Какие новые способы обработки данных?

Здесь, конечно, было много инноваций. Многие вещи нам нужно делать совершенно по-другому. Естественно, последние 50 лет мы делали обработку данных одинаковым способом. Менялись технологии, языки программирования, базы данных, в целом был один и тот же подход. Переход на In-memory требует значительного переключения мозгов. Потому что данные не где-то, а прямо здесь, но в очень распределенном режиме. Когда мы говорим про In-memoryComputing, мы автоматически говорим про широкую параллелизацию данных. Не потому, что это нужно или не нужно, это просто данность того, что у нас никогда не было одного компьютера, где было бы достаточно памяти. Параллельное программирование имеет огромный плюс в том, что это дает тебе возможность очень быстрой обработки. Быстрота приходит не только из-за того, что данные обрабатываются в памяти, но и от тотальной паралелизации обработки. Зачастую даже трудно сказать, что несет больший эффект.

Тотальная параллелизация требует как раз других алгоритмов.

Именно так. Это та часть, которая требует переосмысления, как к этому подходить.

Насколько это сложно для бизнеса?

Сложно. Нужно забыть, что ты знаешь и учить новое. Конечно, это зависит от кучи каких-то локальных вещей: компетенции людей и так далее. Это минус для нас, конечно. Нам было бы очень приятно приходить и продавать что-то, понимая, что это абсолютно ничего не требует нового. Образно — здесь нужно выучить новый танец, а не просто движения. С другой стороны, сейчас люди начинают понимать, что, выучив что-то новое, они получают инструмент, который позволяет делать вещи совершенно фантастические.

Но основные примеры использования — это все-таки, условно, если дата-центр начинает работать по-другому или на локальном уровне?

Это может быть немного неверная градация, потому что мы работаем и в дата-центрах, и в приложениях. Я по-другому отвечу на этот вопрос. Обычно, когда мы приходим к клиенту, почему нас покупают? Потому что мы даем возможность делать то, что раньше было просто невозможно. Мы не просто что-то убыстряем, это слишком дорого. Это может быть пафосно звучит на самом деле, но, поверь мне, больше половины наших примеров — это приложения, которые были просто невозможны технически. Сейчас мы можем сделать это не в 5 минут, а в 30 секунд.

Такой обывательский пример. Предположим, что у нас iPhone15, который бы работал исключительно с In-memory. На что он был бы способен?

Обычно мы не работаем с мобильными устройствами. Много ты знаешь приложений на своем айфоне, где ты нажимаешь кнопку, а ответ получаешь завтра? Таких нет. У нас все приложения работают в реальном времени. Но при этом множество сервисов, которыми ты пользуешься каждый день, начиная от Facebook или WhatsApp — на бэкенде они абсолютно In-memory. Весь WhatsApp изначально был сделан с нуля, как абсолютная In-memory система. Одна из причин, по которой эта разработка была настолько удачна, это потому что у компании был очень маленький дата-центр. Компания была микроскопической. В ней было 30 человек и они обслуживали миллиард людей. Это такой правильный пример, как подходить к In-memory обработке, насколько можно быть гибким, маленьким, в то же время продуктивным. Другой пример: мы делали проект для крупнейшего российского банка на маленьком кластере из 10 блейдов. Каждый компьютер имел около 100 Гб памяти, то есть общий класс примерно 1 Тб. Стоимость такого кластера сегодня всего 20 тыс. долларов. Вот на этом кластере мы достигли миллиарды транзакций в секунду. То есть цифры, которые раньше были фантастичными. Сегодня, если возьмешь самый дорогой кластер, который стоит миллионы долларов, но с традиционной базой данных, ты может быть получишь 40–50 миллионов транзакций в секунду. Вот именно такие цифры меняют бизнес, потому что в банке люди получают возможность делать вещи предсказательными: по предложениям продуктов, или делать аналитику, или обсчет опционов. Раньше это делалось за ночь, а сегодня у нас, например, был клиент, который делал обсчет опционов в реальном времени. Может нажать кнопку, выбрать портфолио, нажать кнопку, мы пересчитываем полностью все опционы для этого портфолио и все риски, связанные с ним, в реальном времени. Абсолютно меняет стратегию трейдинга. И таких ведь кейсов море.

Какие еще есть барьеры для внедрения технологии?

Ценовой барьер, конечно, есть. Память все равно дорого стоит, и у нас пока нет примеров с большим набором данных вроде 1 Пб. То есть в основном сегодня чисто экономически ограничивается примерно 10 Тб.

За исключением, наверное, какого-нибудь Google.

Google — это отдельная история. Google или Сбербанк — это немного нестандартные компании. Для нормальных бизнесов ограничение — это именно ценовой барьер. Конечно, есть барьер сугубо в области компетенций. К сожалению, нужно понимать, как делать обработку данных.

Соответственно, нужны и специалисты. В России с этим пока что…

В России с этим, как и со всем остальным. Специалисты есть. Ты знаешь, я, может быть, даже возьму свои слова обратно. На самом деле специалистов мало везде в этой области. Потому что, например, мы работаем в Европе, в Азии, Америке. Я не вижу разницы. У нас везде проблемы со специалистами. Я считаю, что Москва, Санкт-Петербург не сильно отстают в этой области.

Если смотреть в будущее, через сколько лет технология станет общепринятой?

На этот вопрос отвечу следующим образом. Если посмотреть на историю развития системы хранения данных − все время появляется новая. Что интересно по поводу In-memory Computing − а что, собственно дальше?

Мемристоры, если HP доработает технологию?

Это совершенно новая тема, согласен. По крайней мере, в той архитектуре, которая есть сегодня. In-memory − это финальная стадия развития, то есть мы двигали наши данные с пленок, дисков, с флэш в память, а дальше ничего нет. То есть память будет становиться дешевле, она будет больше развиваться сама по себе. Скорее всего это тема на многие годы вперед. Да, придут мемристоры, придут биокомпьютеры, квантовые вычисления, там это поменяется. Когда это будет? По крайней мере, на ближайшие на годы с тобой для нас, когда мы еще будем живы и работать, я думаю, что, в общем и целом, In-memory процессинг останется доминирующей концепцией. Потому что как бы это пафосно не звучало, но это реально последний этап в развитии. Нет другого в компьютере, куда мы можем поместить данные. Это самое дорогое, но самое близкое. И мы уже там. Поэтому это еще одна причина, кстати, почему In-memory computing не является временным решением, каким был флэш. С самого начала всем было понятно, что флэш — это временная вещь. У нее масса проблем. Какое-то время она была быстрее, и сейчас она быстрее, чем диск. Но с появлением Intel 3D XPoint флэш умрет. Это новая память, которая не является волатильной — то есть данные не пропадают при отключении электричества. Это, скорее всего, полностью уберет флэш в ближайшие 3–5 лет. По крайней мере, мы работаем с Тошибой, Самсунгом. Поверь мне, они очень волнуются по поводу их бизнеса − флэш. Знаю на 100%.

Она может умирать долго. Но в любом случае это уже не растущая отрасль. Растущая отрасль — это новый тип памяти, как Intel делает, как, может быть, получится у HP. Но мемристоры — это до сих пор какие-то разработки в лаборатории, а у Intel готов продукт. На самом деле, это реальная революция в области памяти. Потому что ту память, которую мы используем, − DDR — это совершенно тот же дизайн, который был в 50-х годах. Он не поменялся. Он стал дешевле, чище, лучше, меньше, быстрее, но это совершенно тот же дизайн. Первый раз за 50 лет Intel поменял этот кремниевый дизайн. Это совершенно новая технология на кремниевом уровне.

Но при этом процессоры, которые идут в паре с ними, их дизайн тоже меняется?

Нет, менять не нужно будет. В общем и целом, это вещь, которая совершенно нормально вставляется в современные компьютеры. И я не думаю, что Hynix или Samsung могут тут составить конкуренцию Intel, разве только пойти путем копирования.

Как России не отстать в этой области? Понятно, что производство у нас вряд ли появится.

Да, я думаю, что hardware − это не тема, которая здесь будет развиваться. Мне кажется, в России надо делать, как сделал Сбербанк. Поскольку в России бизнес в основном − это крупный бизнес, то надо быть более гибкими, не бояться работать со стартапами. Что произошло в Сбербанке? Мы же маленькая компания. Мы американский стартап. Много ты знаешь случаев, когда компания типа Сбербанка со всеми его социально-политическими и другими вещами ни с того ни с сего купит абсолютно стратегическую систему глобально из банка маленького американского стартапа? Такое бывает редко собственно в России. В США это бывает часто, в России редко. Мне кажется, что это должно меняться. Тогда естественно появятся внутренние компании, которые это делают. Это большое дело, потому что для стартапа нет ничего лучше, чем большие компании, которые заинтересованы в покупке софта, которые настолько рискуют, что они могут купить и не побояться. Приятно, что в России потихонечку меняется. Естественно, это медленный процесс, но смотришь на крупнейший банк в России и понимаешь, что они могут это сделать. Единственное, что здесь можно делать, чтобы не отстать, это не бояться связываться с маленькими компаниями. Только маленькие компании делают что-нибудь новое, потому что большие компании заточены под другое. Они либо покупают у маленьких компаний все, что хотят, либо ничего нового не делают. Они заточены под то, чтобы максимизировать свои прибыли на текущих проектах, а маленькие компании наоборот. У них ничего своего нет, они заточены под то, чтобы делать что-то новое и продавать. Поэтому все новые вещи приходят из маленьких компаний. Не потому что мы умнее, мы может быть тупее, чем большие компании, просто другого делать не умеем. У нас нет такого, что мы можем сделать что-то новое, чтобы продавать. Поэтому миллионы маленьких компаний умирают. Некоторые остаются, некоторые делают что-то полезное. Вот надо сделать такое же в России. Слава Богу, толковых людей ничуть не меньше, чем у нас. Чего не хватает? Не хватает системы, куда продавать эти новые вещи. Сделать-то мы можем, продавать некуда. Как только появится эта система, куда продавать, все пойдет семимильными шагами.

Если мы возьмем те технологии, которые сейчас более-менее на слуху, что из этого еще больше повлияет в следующие пять лет и чему бы вы, как и ваш бизнес, были бы рады?

Что, на мой взгляд, реально будет интересно и развивается, по моему мнению, это конечно AI. Потому что у нас и машинное обучение развивалось очень сильно в последние лет 15. Вообще мне кажется, появился тот режим, когда достаточно всего остального, чтобы и нормальный AI появился, такой, как в кино видим. Даже если посмотреть на развитие банального Siri или Google. Что было пять лет назад и что сегодня. Разница очевидна. То есть через 5–10 лет мы уже будем не код писать, мы уже будем разговаривать с нашими базами данных. Это демократизирует использование больших данных. Сегодня доступ к данным имеет кто? Кто знает специальную систему, кто умеет с tableau работать. Через 5–10 лет, я считаю, что любой человек в бизнесе сможет просто взять телефон, задать вопрос и получить ответ. Как бы это банально не казалось. А данные могут собираться с любых источников.

Вторая тема — это AR. Это понятно по истории с PokemonGo. Или Magic Leap − первый в истории стартап, в который было вложено более миллиарда долларов, но у которого ещё нет продукта. Можно долго думать, насколько инвесторы умные или не умные. В него вкладывают миллиарды долларов до выхода первого продукта. Это о многом говорит. Эта тема, на мой взгляд, тоже очень важная, потому что она действительно повлияет на нашу жизнь.

Возвращаясь к вопросу, как это влияет на нас. Естественно влияет. Потому что все это будет требовать огромной обработки данных. И кто это будет с распростертыми объятиями освещать? Мы.

Источник: журнал «Интернет в цифрах»

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе всех новостей и событий Рунета.

Теги: Big Data, Google, Интернет, Интернет+, Сбер, Сбербанк

Комментарии 0

Зарегистрируйтесь или , чтобы оставлять комментарии.