Оглавление:
SQL на Hadoop - это группа аналитических прикладных инструментов, которые сочетают запросы и обработку данных в стиле SQL с самыми последними элементами инфраструктуры данных Hadoop. Появление SQL в Hadoop является важной разработкой для обработки больших данных, поскольку позволяет более широким группам людей успешно работать с инфраструктурой обработки данных Hadoop, выполняя запросы SQL на огромных объемах больших данных, которые обрабатывает Hadoop. Очевидно, что фреймворк Hadoop ранее был не так доступен для людей, особенно с точки зрения его возможностей запросов. На основе разработки было разработано несколько инструментов, которые обещают повысить производительность предприятий, когда речь заходит об обработке и анализе больших данных с качеством и скоростью. Также нет необходимости вкладывать большие средства в изучение этого инструмента, как должны делать традиционные знания SQL.
Определение SQL на Hadoop
SQL на Hadoop - это группа приложений, которая позволяет выполнять запросы в стиле SQL для больших данных, размещенных в среде обработки данных Hadoop. Очевидно, что запрос, получение и анализ данных стали проще с добавлением SQL в Hadoop. Поскольку SQL изначально предназначался для реляционных баз данных, его необходимо было модифицировать в соответствии с моделью Hadoop 1, которая включает MapReduce и распределенную файловую систему Hadoop (HDFS), и моделью Hadoop 2, в которой нет MapReduce и HDFS.
Одна из первых попыток объединить SQL с Hadoop привела к созданию хранилища данных Hive с программным обеспечением HiveQL, которое могло бы преобразовывать запросы в стиле SQL в задания MapReduce. После этого было разработано несколько приложений, которые могли выполнять аналогичные работы. Среди наиболее поздних инструментов выделяются Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) и Tez (Hive on Tez).