Оглавление:
Apache Hadoop уже давно является основой для приложений с большими данными и считается основной платформой данных для всех предложений, связанных с большими данными. Тем не менее, база данных и вычисления в памяти набирают популярность благодаря более высокой производительности и быстрым результатам. Apache Spark - это новая платформа, которая использует возможности оперативной памяти для быстрой обработки (почти в 100 раз быстрее, чем Hadoop). Таким образом, продукт Spark все чаще используется в мире больших данных, и главным образом для более быстрой обработки.
Вебинар: сила предложений: как каталог данных расширяет возможности аналитиков Зарегистрируйтесь здесь |
Что такое Apache Spark?
Apache Spark - это платформа с открытым исходным кодом для быстрой и простой обработки огромных объемов данных (больших данных). Подходит для аналитических приложений, основанных на больших данных. Spark можно использовать в среде Hadoop, автономно или в облаке. Он был разработан в Калифорнийском университете, а затем предложен Apache Software Foundation. Таким образом, он принадлежит сообществу разработчиков программного обеспечения с открытым исходным кодом и может быть очень рентабельным, что также позволяет разработчикам-любителям легко работать. (Чтобы узнать больше об открытом исходном коде Hadoop, см. Какое влияние оказывает открытый исходный код на экосистему Apache Hadoop?)
Основная цель Spark заключается в том, что он предлагает разработчикам инфраструктуру приложений, которая работает вокруг центрированной структуры данных. Spark также чрезвычайно мощный и обладает врожденной способностью быстро обрабатывать огромные объемы данных за короткий промежуток времени, обеспечивая тем самым исключительно высокую производительность. Это делает его намного быстрее, чем его ближайший конкурент, Hadoop.