Оглавление:
Определение - что означает Apache Avro?
Apache Avro - это инфраструктура для сериализации данных и удаленного вызова процедур, которая разработана в рамках проекта Apache Hadoop, где она обеспечивает как формат сериализации для получения постоянных данных, так и формат проводного соединения для обеспечения связи между узлами Hadoop, а также подключение клиентских программ к Hadoop. Сервисы.
Avro использует формат JSON для определения протоколов и типов данных, а также сериализует данные в компактный двоичный формат.
Техопедия объясняет Apache Avro
Apache Avro - это платформа для сериализации больших данных, которая создает данные в компактном двоичном формате, который не требует генерации кода или прокси-объектов.
Он используется в качестве компонента сериализации данных для Apache Hadoop. Avro работает над концепцией схем. Когда данные Avro читаются, схема, которая использовалась во время записи этих конкретных данных, всегда присутствует.
Это позволяет каждому набору данных без затрат на каждое значение, что делает сериализацию быстрой и относительно небольшой по размеру. А поскольку данные и их схема полностью самоописываются, это облегчает их использование с динамическими языками сценариев.
Когда данные Avro хранятся в определенном файле, схема также сохраняется вместе с ними для последующей обработки другой программой. Таким образом, если программа, считывающая данные, ожидает другую схему, это можно легко решить, поскольку обе схемы присутствуют.
Авро предоставляет:
Компактный и быстрый двоичный формат данных
Богатые структуры данных
Контейнерный файл для хранения постоянных данных
Удаленный вызов процедур (RPC)
Интеграция с динамическими языками
Генерация кода не является обязательным требованием для чтения или записи файлов данных или использования или реализации протоколов RPC.