Дом аудио Почему искра - будущая платформа больших данных

Почему искра - будущая платформа больших данных

Оглавление:

Anonim

Apache Hadoop уже давно является основой для приложений с большими данными и считается основной платформой данных для всех предложений, связанных с большими данными. Тем не менее, база данных и вычисления в памяти набирают популярность благодаря более высокой производительности и быстрым результатам. Apache Spark - это новая платформа, которая использует возможности оперативной памяти для быстрой обработки (почти в 100 раз быстрее, чем Hadoop). Таким образом, продукт Spark все чаще используется в мире больших данных, и главным образом для более быстрой обработки.

Вебинар: сила предложений: как каталог данных расширяет возможности аналитиков

Зарегистрируйтесь здесь

Что такое Apache Spark?

Apache Spark - это платформа с открытым исходным кодом для быстрой и простой обработки огромных объемов данных (больших данных). Подходит для аналитических приложений, основанных на больших данных. Spark можно использовать в среде Hadoop, автономно или в облаке. Он был разработан в Калифорнийском университете, а затем предложен Apache Software Foundation. Таким образом, он принадлежит сообществу разработчиков программного обеспечения с открытым исходным кодом и может быть очень рентабельным, что также позволяет разработчикам-любителям легко работать. (Чтобы узнать больше об открытом исходном коде Hadoop, см. Какое влияние оказывает открытый исходный код на экосистему Apache Hadoop?)

Основная цель Spark заключается в том, что он предлагает разработчикам инфраструктуру приложений, которая работает вокруг центрированной структуры данных. Spark также чрезвычайно мощный и обладает врожденной способностью быстро обрабатывать огромные объемы данных за короткий промежуток времени, обеспечивая тем самым исключительно высокую производительность. Это делает его намного быстрее, чем его ближайший конкурент, Hadoop.

Почему искра - будущая платформа больших данных