Дом аппаратные средства Большое железо, встречайте большие данные: освобождение данных мэйнфреймов с помощью hadoop и spark

Большое железо, встречайте большие данные: освобождение данных мэйнфреймов с помощью hadoop и spark

Anonim

Персоналом Техопедии, 2 июня 2016 г.

Вывод: экосистема Hadoop используется на мэйнфреймах для быстрой и эффективной обработки больших данных.

Вы не вошли в систему. Пожалуйста, войдите или зарегистрируйтесь, чтобы увидеть видео.

Эрик Кавана: Хорошо, дамы и господа, в четверг четыре часа по восточному поясному времени, и в эти дни это означает, что, конечно, пришло время для «Горячих технологий». Да, действительно, меня зовут Эрик Кавана. Я буду вашим модератором на сегодняшнем веб-семинаре. Это хорошие вещи, ребята, «Большое железо, знакомьтесь с большими данными» - мне просто нравится этот заголовок - «Освобождение данных мэйнфреймов с помощью Hadoop и Spark». Мы поговорим о старых встречах, новых. Вот это да! Мы покрываем спектр всего, о чем мы говорили за последние 50 лет корпоративной ИТ. Spark встречает мейнфрейм, мне это нравится.

Есть место о твоем по-настоящему и достаточно обо мне. Год жаркий. Мы говорим о горячих темах в этой серии, потому что мы действительно пытаемся помочь людям понять определенные дисциплины, определенные места. Что это значит, например, иметь аналитическую платформу? Что значит освобождать большие данные с мэйнфреймов? Что все это значит? Мы пытаемся помочь вам понять конкретные виды технологий, где они вписываются в комбинацию и как вы можете их использовать.

Сегодня у нас есть два аналитика, а затем, конечно же, Tendü Yogurtçu из Syncsort. Она провидец в нашем пространстве, очень рада, что сегодня она в сети, с нашим собственным Дезом Бланчфилдом и доктором Робином Блором. Я скажу только пару быстрых слов. Во-первых, ребята, вы играете большую роль в этом процессе, поэтому, пожалуйста, не стесняйтесь задавать хорошие вопросы. Мы хотели бы поговорить с ними во время компонента веб-трансляции, который обычно заканчивается в конце шоу. И все, что я должен сказать, это то, что у нас много хорошего контента, поэтому я рад услышать, что говорят эти парни. И с этим я передам это Дезу Бланчфилду. Дез, тебе слово, убери его.

Дез Бланчфилд: Спасибо, Эрик, и спасибо всем за то, что пришли сегодня. Поэтому я очень волнуюсь, когда у меня появляется возможность рассказать об одной из моих любимых вещей в мире - мэйнфреймах. Они не получают много любви в эти дни. На мой взгляд, мэйнфрейм был оригинальной платформой для больших данных. Некоторые утверждают, что в то время они были единственным компьютером, и это справедливо, но вот уже более 60 лет они действительно являются движущей силой того, что в последнее время популярными стали большие данные. И я собираюсь взять вас в небольшое путешествие, чтобы понять, почему я так думаю.

Мы видели путешествие в стеках технологического оборудования в контексте смещения мэйнфреймов от изображения, которое вы видите на экране сейчас. Это старый мэйнфрейм FACOM, один из моих любимых. Мы перешли в фазу большого железа, конец девяностых и бум доткомов. Это Sun Microsystems E10000. Эта штука была абсолютным монстром на 96 процессорах. Первоначально 64, но он может быть обновлен на 96 процессоров. Каждый процессор может работать с 1024 потоками. Каждый поток может быть на скорости приложения в то же время. Это было просто чудовищно, и это на самом деле привело к росту бума доткомов. Это все большие единороги, как мы их называем, сейчас мы работаем, а не только крупные предприятия, некоторые крупные сайты.

И затем мы получили эту обычную стандартную модель ПК. Мы просто связали множество дешевых машин вместе, и мы создали кластер, и мы подошли к большой железной проблеме и к тому, что стало большими данными, особенно в форме проекта Hadoop, который основал поисковую систему с открытым исходным кодом Nutch. И мы по существу воссоздали мэйнфрейм и множество маленьких процессоров, склеенных вместе и способных действовать как L-пути и в форме запуска отдельных заданий или частей заданий, и они были довольно эффективными во многих отношениях. Дешевле, если вы начали меньше, но многие из этих больших кластеров стали дороже, чем мэйнфреймы.

Мой взгляд на эти вещи заключается в том, что в период стремительного развития от бума доткомов к тому, что стало Web 2.0 и теперь преследует единорогов, мы забыли, что эта платформа до сих пор питает многие из наших самых важных критически важных систем. Когда мы думаем о том, что работает на платформах мэйнфреймов. Это очень большие данные, особенно рабочая лошадка, но, конечно, большие данные. Традиционные корпоративные и государственные системы, такие как банковское дело, управление активами и страхование, в частности, мы все используем каждый день.

Системы бронирования авиабилетов и управления полетом, особенно управление полетом, где критически важно в режиме реального времени. Почти в каждом штате и федеральном правительстве в свое время был мэйнфрейм, и у многих из них он все еще есть. Розничная торговля и производство. Некоторые из старых программ, которые только что появились и никогда не исчезали. Просто продолжает питать производственные среды и, конечно, в розницу в масштабе. Медицинские системы. Оборонительные системы, безусловно, защитные системы.

В последние пару недель я прочитал много статей о том, что некоторые из систем управления ракетами все еще работают на старых мэйнфреймах, для которых они пытаются найти запчасти. Они выясняют, как перейти на новые мэйнфреймы. Транспортно-логистические системы. Они могут не звучать как сексуальные темы, но это темы, с которыми мы сталкиваемся ежедневно через линии. И некоторые очень большие телекоммуникационные среды все еще работают на платформах мэйнфреймов.

Когда вы думаете о типах данных, которые там есть, все они критически важны. Это действительно важные платформы и платформы, которые мы воспринимаем как должное каждый день, и во многом делают жизнь возможной. Так кто же все еще использует мейнфрейм и кто все эти люди, которые держатся за эти большие платформы и хранят все эти данные? Что ж, как я уже сказал здесь, я считаю, что легко обмануть СМИ, перейдя от большого железа к стойкам обычных готовых кластеров или дешевых ПК или компьютеров x86, чтобы думать, что мэйнфрейм умер и ушел. Но данные говорят, что мэйнфрейм никогда не уходил и на самом деле он здесь, чтобы остаться.

Исследование, которое я собрал здесь за последние пару недель, показало, что 70 процентов корпоративных данных, особенно крупных, все еще находятся в мейнфрейме какой-либо формы. Семьдесят один процент из Fortune 500 все еще используют основные бизнес-системы на мэйнфреймах. На самом деле, здесь, в Австралии, у нас есть ряд организаций, у которых есть центр обработки данных в центре города. Фактически это настоящий подземный компьютер, и количество мэйнфреймов просто работает, тикает и радостно выполняет свою работу. И очень немногие знают, что, прогуливаясь по улицам, прямо под их ногами в одной конкретной части города, находится этот огромный центр обработки данных, заполненный мейнфреймами. Девяносто два из 100 банков по всему миру, то есть 100 крупнейших банков, все еще управляют банковскими системами на мэйнфреймах. Двадцать три из 25 крупнейших розничных сетей мира используют мэйнфреймы, чтобы по-прежнему использовать свои системы управления розничной торговлей на платформах EIP и BI.

Интересно, что 10 из 10 ведущих страховщиков по-прежнему используют свои платформы на мэйнфреймах, и они фактически используют свои облачные сервисы на мэйнфреймах. Если вы используете веб-интерфейс или мобильное приложение где-то, что есть промежуточное программное обеспечение, интерфейс, который на самом деле говорит о чем-то очень тяжелом и большом на заднем конце.

Я обнаружил, что более 225 государственных и местных правительственных учреждений по всему миру работают на платформах мэйнфреймов. Я уверен, что есть много причин для этого. Возможно, у них нет бюджета, чтобы рассмотреть новое железо, но это огромный след очень больших сред, работающих на мэйнфреймах с некоторыми очень важными данными. И, как я упоминал ранее, большинство стран все еще используют свои ключевые системы защиты на мэйнфреймах. Я уверен, что во многом они пытаются уйти оттуда, но вы идете.

В 2015 году IDC провела опрос, и 350 опрошенных ИТ-директоров сообщили, что они все еще владеют большим железом в форме мэйнфреймов и управляют им. И меня поразило, что, скорее всего, это больше, чем количество крупномасштабных кластеров Hadoop, работающих в настоящее время по всему миру в процессе производства - интересная небольшая статистика. Я собираюсь пойти дальше и подтвердить это, но это было большое число. Триста пятьдесят ИТ-директоров сообщили, что один или несколько мэйнфреймов еще находятся в производстве.

В прошлом 2015 году IBM подарила нам мощную Z13, 13- ю итерацию своей платформы для мэйнфреймов. Средства массовой информации сходили с ума по этому поводу, потому что были поражены тем, что IBM все еще делает мейнфреймы. Когда они подняли капот и посмотрели на то, что скрывалось под этим, они поняли, что это на самом деле было на уровне почти любой современной платформы, которая нас вдохновляла в виде больших данных, Hadoop и, конечно, кластеров. Эта штука управляла Spark, а теперь и Hadoop. На нем можно было запустить тысячи и тысячи машин Linux, и это выглядело как любой другой кластер. Это была довольно поразительная машина.

Ряд организаций рассмотрели эти вопросы, и на самом деле я собрал некоторые данные о том, сколько таких машин занимают. Теперь у меня сложилось мнение, что текстовый терминал 3270 был заменен веб-браузерами и мобильными приложениями на некоторое время, и есть много данных, которые поддерживают это. Я думаю, что сейчас мы вступаем в эру, когда мы поняли, что эти мэйнфреймы не исчезают, и на них имеется значительное количество данных. И поэтому мы сейчас просто добавляем то, что я называю готовыми аналитическими инструментами. Это не пользовательские приложения. Это вещи на заказ. Это вещи, которые вы можете буквально купить в упакованной коробке как таковой, подключить к своему мэйнфрейму и заняться аналитикой.

Как я уже говорил, мейнфрейм существует уже более 60 лет. Когда мы думаем о том, как долго это продлится, это больше, чем карьера большинства живых ИТ-специалистов. И на самом деле, вероятно, некоторые из их жизней, даже. В 2002 году IBM продала 2300 мэйнфреймов. В 2013 году этот показатель вырос до 2700 мэйнфреймов. Это 2700 продаж мэйнфреймов за один год в 2013 году. Я не смог получить точные данные за 2015 год, но я думаю, что он быстро приближается к 3000 единицам, проданным в год в 2015, 2013 годах. И я с нетерпением жду возможности подтвердить это.

С выпуском Z13, 13- й итерации платформы мэйнфреймов, которая, я думаю, обошлась им примерно в 1, 2 или 1, 3 миллиарда долларов на разработку с нуля, IBM, то есть, это машина, которая выглядит и чувствует себя как любой другой кластер, который у нас сегодня и изначально работает Hadoop и Spark. И, безусловно, может быть связан с другими аналитиками и инструментами для работы с большими данными или неизменно связан с одним из существующих или новых кластеров Hadoop. Я считаю, что включение платформы мэйнфреймов в вашу стратегию больших данных является обязательным. Очевидно, что если у вас есть такой, у вас есть много данных, и вы хотите выяснить, как получить его там. И их оставляют собирать пыль разными способами, умственно и эмоционально, насколько это касается делового мира, но они здесь, чтобы остаться.

Связь и интерфейсы для всех ваших аналитических инструментов с данными, размещенными на мэйнфреймах, должны быть ключевой частью вашего предприятия, и в особенности правительственных планов больших данных. И теперь программное обеспечение неизменно замечает их, пристально смотрит на них и осознает, что находится внутри этих вещей, и объединяет умы, которые начинают понимать и понимать, что на самом деле скрыто. И с этим я передам слово моему дорогому коллеге, доктору Робину Блуру, и он добавит к этому маленькому путешествию. Робин, убери это.

Робин Блур: Хорошо, спасибо. Хорошо, так как Дез спел песню мэйнфрейма, я пойду к тому, что, как мне кажется, происходит с точки зрения старого мэйнфрейм-мира и нового мира Hadoop. Я думаю, что главный вопрос здесь, как вы управляете всеми этими данными? Я не считаю, что мэйнфрейм подвергается испытаниям в связи с его возможностями больших данных - его возможности больших данных чрезвычайно высоки, как указал Дез, они чрезвычайно способны. На самом деле вы можете поместить кластеры Hadoop на него. Где это оспаривается, с точки зрения его экосистемы, и я как-то проясню это.

Вот немного позиционирования мэйнфреймов. Он имеет высокую стоимость входа и то, что на самом деле происходило в прошлом, с середины 90-х годов, когда популярность мэйнфреймов начала падать, он, как правило, терял свой нижний уровень, тех людей, которые купили дешевые мэйнфреймы, и это было это действительно особенно экономично для этих людей. Но на самом деле выше среднего и высокого диапазона мэйнфрейма он все еще был и, на самом деле, действительно невероятно недорогим.

Это, надо сказать, было спасено Linux, потому что Linux, реализованный на мэйнфрейме, позволял, конечно, запускать все приложения Linux. Многие приложения Linux были там, прежде чем большие данные были даже словом или двумя словами, я полагаю. Это действительно отличная платформа для частного облака. Благодаря этому он может участвовать в гибридных облачных развертываниях. Одна из проблем заключается в том, что навыки мэйнфреймов не хватает. Существующие навыки мэйнфреймов на самом деле стареют в том смысле, что люди уходят из отрасли на пенсию год за годом, и их просто заменяют с точки зрения количества людей. Так что это проблема. Но это все еще недорогие вычисления.

Область, где это было оспорено, конечно, это вся вещь Hadoop. Это фотография Дуга Каттинга с оригинальным слоном Hadoop. Экосистема Hadoop - и она останется - доминирующей экосистемой больших данных. Он обеспечивает лучшее масштабирование, чем может достичь мэйнфрейм, и значительно снижает стоимость хранилища данных. Экосистема Hadoop развивается. Лучший способ подумать об этом - когда-то определенная аппаратная платформа и операционная среда с ней становится доминирующей, а затем экосистема просто оживает. И это произошло с мэйнфреймом IBM. Что ж, позже случилось с Digital VAX, случилось с серверами Sun, случилось с Windows, случилось с Linux.

И произошло то, что Hadoop, о котором я всегда думаю или люблю думать, как о некой распределенной среде для данных, экосистема развивается с невероятной скоростью. Я имею в виду, если вы просто упомянете о различных впечатляющих разработках, связанных с открытым исходным кодом, Spark, Flink, Kafka, Presto, а затем добавите к этому некоторые базы данных, возможности NoSQL и SQL, которые сейчас находятся в Hadoop. Hadoop - самая активная экосистема, которая существует на самом деле, особенно в корпоративных вычислениях. Но если вы хотите относиться к ней как к базе данных, на данный момент она просто не сравнится с тем, что я склонен считать реальными базами данных, особенно в пространстве хранилища данных. И это в определенной степени объясняет успех ряда больших баз данных NoSQL, которые не работают на Hadoop, таких как CouchDB и так далее.

Как озеро данных, он имеет гораздо более богатую экосистему, чем любая другая платформа, и он не будет вытеснен из этого. Его экосистема - это не просто экосистема с открытым исходным кодом. В настоящее время существует огромное количество участников программного обеспечения, которые имеют продукты, которые изначально были созданы для Hadoop или были импортированы в Hadoop. И они только что создали экосистему, в которой нет ничего, что могло бы конкурировать с ней с точки зрения ее широты. А это значит, что на самом деле это стало платформой для инноваций в области больших данных. Но, на мой взгляд, он все еще незрелый, и мы могли бы долго обсуждать, что является, а что нет, скажем, функционально зрелым с Hadoop, но я думаю, что большинство людей, которые смотрят на эту конкретную область, хорошо знают, что Hadoop отстает от мейнфрейма на десятилетия с точки зрения оперативных возможностей.

Развивающееся информационное озеро. Озеро данных является платформой по любому определению, и если вы думаете о существовании уровня данных в корпоративных вычислениях, то сейчас очень легко представить его с точки зрения фиксированных баз данных и озера данных, составляющих слой данных. Приложения озера данных многочисленны и разнообразны. У меня здесь есть диаграмма, которая просто показывает различные вещи, требующие обработки данных, которые необходимо выполнить, если вы используете Hadoop в качестве промежуточной области или Hadoop и Spark в качестве промежуточной области. И у вас есть все - линия данных, очистка данных, управление метаданными, обнаружение метаданных - его можно использовать для самой ETL, но часто требуется ETL для ввода данных. Управление основными данными, бизнес-определения данных, управление службами что происходит в Hadoop, управление жизненным циклом данных и ETL вне Hadoop, а также у вас есть приложения для прямой аналитики, которые вы можете запускать в Hadoop.

И именно поэтому он стал очень мощным, и там, где он был реализован и реализован успешно, обычно у него есть, по крайней мере, набор приложений такого рода, работающих поверх него. И большинство из этих приложений, особенно те, о которых я был проинформирован, просто сейчас не доступны на мэйнфреймах. Но вы можете запустить их на мэйнфрейме, в кластере Hadoop, который работал в разделе мэйнфрейма.

Озеро данных становится, на мой взгляд, естественной областью подготовки для быстрой аналитики базы данных и для BI. Он становится местом, где вы берете данные, будь то корпоративные данные или внешние данные, связываетесь с ними до тех пор, пока они, скажем, не станут достаточно чистыми для использования и хорошо структурированными для использования, а затем вы их передадите. И все это еще в зачаточном состоянии.

Идея сосуществования мэйнфреймов и Hadoop, на мой взгляд, заключается в том, что крупные компании вряд ли откажутся от мэйнфреймов. Фактически, признаки, которые я видел недавно, подразумевают, что в мэйнфрейме растут инвестиции. Но они также не собираются игнорировать экосистему Hadoop. Я вижу цифры того, что 60 процентов крупных компаний используют Hadoop, даже если многие из них на самом деле просто создают прототипы и экспериментируют.

Тогда возникает загадка: «Как вы заставляете эти две вещи сосуществовать?», Потому что им нужно будет обмениваться данными. Данные, которые вносятся в озеро данных, должны быть переданы на мэйнфрейм. Данные, которые находятся на мэйнфрейме, возможно, должны быть переданы в озеро данных или через озеро данных, чтобы присоединиться к другим данным. И это произойдет. А это значит, что требуется быстрая передача данных / возможность ETL. Маловероятно, что рабочие нагрузки будут распределяться динамически, скажем, в среде мэйнфреймов или с чем-то в среде Hadoop. Это будут общие данные. И большая часть данных неизбежно будет храниться в Hadoop просто потому, что это самая дешевая платформа для него. И сквозная аналитическая обработка, вероятно, будет там же.

Таким образом, в конечном итоге мы должны думать о корпоративном уровне данных, который для многих компаний будет включать мэйнфрейм. И этот уровень данных должен активно управляться. В противном случае эти два не будут хорошо сосуществовать. Я могу передать тебе мяч, Эрик.

Эрик Кавана: Опять же, Тендю, я только что сделал тебя ведущим, так что убери это.

Тэнду Йогуртчу: Спасибо, Эрик. Спасибо, что приняли меня. Всем привет. Я буду говорить об опыте Syncsort с заказчиками в отношении того, как мы рассматриваем данные как актив в организации, выровненный от мэйнфрейма до больших данных на аналитических платформах. И я надеюсь, что у нас также будет время в конце сессии, чтобы задать вопросы аудитории, потому что это действительно самая ценная часть этих веб-трансляций.

Просто для людей, которые не знают, что делает Syncsort, Syncsort является компанией-разработчиком программного обеспечения. Мы были на самом деле более 40 лет. Начиная со стороны мэйнфреймов, наши продукты охватывают как мэйнфреймы, так и Unix, и платформы больших данных, в том числе Hadoop, Spark, Splunk, как в помещении, так и в облаке. Мы всегда фокусировались на продуктах данных, продуктах обработки данных и интеграции данных.

Наша стратегия в отношении больших данных и Hadoop действительно стала частью экосистемы с первого дня. Как владельцы вендоров, которые действительно сосредоточились на обработке данных с очень легковесными механизмами, мы думали, что есть большая возможность участвовать в Hadoop, который станет платформой обработки данных и станет частью архитектуры хранилища данных следующего поколения для организации. Мы участвуем в проектах Apache с открытым исходным кодом с 2011 года, начиная с MapReduce. Были в первой десятке Hadoop версии 2 и участвовали в нескольких проектах, в том числе в пакетах Spark, некоторые из наших коннекторов опубликованы в пакетах Spark.

Мы используем наш очень легкий механизм обработки данных, который полностью основан на метаданных на основе плоских файлов и очень хорошо подходит для распределенных файловых систем, таких как Hadoop Distributed File System. И мы используем наше наследие на мэйнфреймах, наш опыт работы с алгоритмами при выпуске наших продуктов для больших данных. И мы очень тесно сотрудничаем с основными поставщиками, основными игроками здесь, включая Hortonworks, Cloudera, MapR, Splunk. Hortonworks недавно объявила, что будет перепродавать наш продукт для подключения ETL к Hadoop. С Dell и Cloudera у нас очень тесное партнерство, которое также перепродает наш продукт ETL как часть их устройства для работы с большими данными. И на самом деле с помощью Splunk мы публикуем данные телеметрии и безопасности мэйнфреймов в сводных панелях Splunk. У нас тесное партнерство.

Что думает каждый руководитель уровня C? Это действительно «Как я могу использовать свои данные?» Все говорят о больших данных. Все говорят о Hadoop, Spark, следующей компьютерной платформе, которая может помочь мне повысить гибкость бизнеса и открыть новые преобразующие приложения. Новые возможности выхода на рынок. Каждый руководитель думает: «Какова моя стратегия в области данных, какова моя инициатива в области данных и как я должен быть уверен, что я не отстану от своих конкурентов, и я все еще нахожусь на этом рынке в течение следующих трех лет?» Мы Посмотрите на это, когда мы говорим с нашими клиентами, как мы говорим с нашей глобальной клиентской базой, которая довольно велика, как вы можете себе представить, так как мы были вокруг некоторое время.

Когда мы общаемся со всеми этими организациями, мы также видим это в технологическом стеке из-за сбоев, которые произошли с Hadoop. Это действительно для того, чтобы удовлетворить этот спрос на данные как актив. Использование всех активов данных, которыми располагает организация. И мы видим, что архитектура корпоративного хранилища данных развивается таким образом, что Hadoop теперь является новым центральным элементом современной архитектуры данных. И большинство наших клиентов, будь то финансовые услуги, будь то страхование, оператор розничной торговли, инициативы, как правило, либо мы находим, что Hadoop как услуга или данные как услуга. Потому что каждый пытается сделать активы данных доступными либо для своих внешних клиентов, либо для внутренних клиентов. И в некоторых организациях мы видим инициативы, подобные почти рынку данных для своих клиентов.

И одним из первых шагов к достижению этого является создание корпоративного центра данных. Иногда люди называют это озером данных. Создание этого корпоративного центра данных на самом деле не так просто, как кажется, потому что он действительно требует доступа и сбора практически любых данных на предприятии. И эти данные теперь поступают из всех новых источников, таких как мобильные датчики, а также из устаревших баз данных, и находятся в пакетном режиме и в потоковом режиме. Однако интеграция данных всегда была сложной задачей, учитывая количество и разнообразие источников данных и различные стили доставки, будь то пакетная передача или потоковая передача в режиме реального времени, сейчас это еще более сложно, чем пять лет назад, десять лет назад. Мы иногда называем это «Это больше не ETL вашего отца».

Итак, мы говорим о различных активах данных. Поскольку предприятия пытаются разобраться в новых данных, данных, которые они собирают с мобильных устройств, будь то датчики у производителя автомобилей или пользовательские данные для мобильной игровой компании, им часто приходится ссылаться на наиболее важные ресурсы данных в предприятие, которое, например, предоставляет информацию о клиентах. Эти наиболее важные ресурсы данных часто живут на мэйнфреймах. Сопоставление данных мэйнфрейма с этими новыми новыми источниками, собранными в облаке, собранными с помощью мобильных устройств, собранными на производственной линии японской автомобильной компании или в приложениях Интернета вещей, должно осмыслить эти новые данные путем ссылки на их устаревшие наборы данных. И эти устаревшие наборы данных часто находятся на мэйнфреймах.

И если эти компании не могут этого сделать, не могут получить доступ к данным мэйнфрейма, то есть упущенная возможность. Тогда данные как услуга или использование всех корпоративных данных на самом деле не затрагивают наиболее важные активы в организации. Есть также часть данных телеметрии и безопасности, потому что почти все транзакционные данные живут на мэйнфрейме.

Представьте, что вы идете в банкомат, и я думаю, что один из участников отправил здесь участникам сообщение для защиты банковской системы, когда вы смахиваете свою карту, что транзакционные данные в основном находятся на мэйнфрейме. А обеспечение безопасности и сбор данных безопасности и телеметрических данных с мэйнфреймов и обеспечение их доступности через инструментальные панели Splunk или другие, Spark, SQL, становится как никогда важным из-за объема данных и разнообразия данных.

Наборы навыков - одна из самых больших проблем. Поскольку, с одной стороны, у вас есть быстро меняющийся стек больших данных, вы не знаете, какой проект выживет, какой проект не выживет, стоит ли мне нанимать разработчиков Hive или Pig? Должен ли я инвестировать в MapReduce или Spark? Или следующее, Флинк, кто-то сказал. Должен ли я инвестировать в одну из этих компьютерных платформ? С одной стороны, идти в ногу с быстро меняющейся экосистемой - непростая задача, а с другой стороны, у вас есть эти устаревшие источники данных. Новые наборы навыков на самом деле не совпадают, и у вас могут возникнуть проблемы, потому что эти ресурсы могут быть фактически удалены Существует большой разрыв с точки зрения набора навыков людей, которые понимают эти унаследованные стеки данных и которые разбираются в формирующемся технологическом стеке.

Вторая проблема - это управление. Когда вы действительно получаете доступ ко всем корпоративным данным на разных платформах, у нас есть клиенты, которые высказывают опасения: «Я не хочу, чтобы мои данные были доступны. Я не хочу, чтобы мои данные копировались в нескольких местах, потому что я хочу максимально избежать нескольких копий. Я хочу иметь сквозной доступ без посадки его посередине ». Управление этими данными становится проблемой. Другой момент заключается в том, что если вы получаете доступ к данным, которые являются узкими местами, если вы собираете большую часть своих данных в облаке и обращаетесь к устаревшим данным и ссылаетесь на них, пропускная способность сети становится проблемой, кластерной платформой. Существует много проблем, связанных с инициативой больших данных и передовыми аналитическими платформами, и в то же время с использованием всех корпоративных данных.

Что предлагает Syncsort, так это то, что нас называют «просто лучшими» не потому, что мы просто лучшие, а наши клиенты называют нас просто лучшими в доступе и интеграции данных мэйнфреймов. Мы поддерживаем все форматы данных из мэйнфреймов и делаем их доступными для анализа больших данных. Будь то Hadoop, Spark или следующая компьютерная платформа. Потому что наши продукты действительно изолируют сложности компьютерной платформы. Вы, как разработчик, потенциально разрабатываете на ноутбуке, сосредотачиваетесь на конвейере данных и на том, что такое подготовка данных, шаги, чтобы эти данные были созданы для аналитики, на следующем этапе, и принимаете это же приложение в MapReduce или принимаете его. такое же приложение вокруг в Spark.

Мы помогли нашим клиентам сделать это, когда YARN стал доступен, и им пришлось перенести свои приложения из MapReduce версии 1 в YARN. Мы помогаем им сделать то же самое с Apache Spark. Наш продукт, новая версия 9, также работает с Spark и поставляется с динамической оптимизацией, которая изолирует эти приложения для будущих компьютерных платформ.

Таким образом, у нас есть доступ к данным мэйнфрейма, будь то файлы VSAM, будь то DB2 или данные телеметрии, такие как SMF-записи, Log4j или системные журналы, которые необходимо визуализировать через инструментальные панели Splunk. При этом, поскольку организация может использовать свои существующие инженеры данных или наборы навыков ETL, время разработки значительно сокращается. На самом деле с Dell и Cloudera был спонсирован независимый бенчмарк, и этот бенчмарк фокусировался на времени разработки, которое требуется, если вы занимаетесь ручным кодированием или другими инструментами, такими как Syncsort, и время разработки сократилось примерно на 60, 70%., Преодоление навыка устанавливает разрыв между группами, хостами этих файлов данных, а также хостами этих файлов данных с точки зрения людей.

Обычно группа больших данных, или группа по сбору данных, или команда, которой поручено разрабатывать эти данные как сервисную архитектуру, не обязательно общаются с командой мэйнфреймов. Они хотят минимизировать это взаимодействие почти во многих организациях. Сокращая этот разрыв, мы продвинулись. И самая важная часть действительно обеспечивает безопасность всего процесса. Потому что на предприятии, когда вы имеете дело с такого рода конфиденциальными данными, предъявляется множество требований.

В строго регулируемых отраслях, таких как страхование и банковское дело, наши клиенты спрашивают: «Вы предлагаете доступ к данным на мэйнфреймах, и это здорово. Можете ли вы также предложить мне сохранить этот формат записи в кодировке EBCDIC в его первоначальном формате, чтобы я мог удовлетворить свои требования аудита? »Таким образом, мы заставляем Hadoop и Apache Spark понимать данные мэйнфрейма. Вы можете хранить данные в их первоначальном формате записи, выполнять компьютерную платформу обработки и распределения уровней, и, если вам необходимо вернуть их обратно, вы можете показать, что запись не изменилась и формат записи не изменился, вы можете выполнить нормативные требования.,

И большинство организаций, поскольку они создают концентратор данных или озеро данных, они также пытаются сделать это одним щелчком мыши, чтобы иметь возможность сопоставить метаданные из сотен схем в базе данных Oracle с таблицами Hive или файлами ORC или Parquet. становится необходимым. Мы поставляем инструменты и предоставляем инструменты, позволяющие сделать это одностадийным доступом к данным, автоматически генерирующими заданиями или перемещением данных, а также автоматически генерирующими заданиями для отображения данных.

Мы говорили о связности, совместимости, управлении и обработке данных. И наши продукты доступны как в помещении, так и в облаке, что делает его действительно очень простым, потому что компаниям не нужно думать о том, что произойдет в течение следующего года или двух, если я решу полностью перейти на общедоступное облако по сравнению с гибридным окружение, так как некоторые кластеры могут работать в помещении или в облаке. И наши продукты доступны как на Amazon Marketplace, на EC2, Elastic MapReduce, так и в контейнере Docker.

Просто чтобы подвести итог, чтобы у нас было достаточно времени для вопросов и ответов, на самом деле речь идет о доступе, интеграции и соблюдении управления данными, но все это упрощается. И хотя это упрощается, «проектируйте один раз и разверните в любом месте» в истинном смысле благодаря нашему вкладу с открытым исходным кодом, наш продукт изначально работает в потоке данных Hadoop и непосредственно в Spark, изолируя организации от быстро меняющейся экосистемы. И предоставление единого конвейера данных, единого интерфейса, как для пакетной, так и для потоковой передачи.

И это также помогает организациям иногда оценивать эти инфраструктуры, потому что вы, возможно, захотите создать приложения и просто запустить MapReduce против Spark, и убедитесь сами в этом, да, Spark имеет это обещание и предоставляет все преимущества итерационных алгоритмов для лучшего машинного обучения. и приложения прогнозной аналитики работают со Spark. Могу ли я также выполнять потоковую и пакетную загрузку на этой компьютерной платформе? Вы можете тестировать различные компьютерные платформы, используя наши продукты. А динамическая оптимизация, независимо от того, работаете ли вы на автономном сервере, на своем ноутбуке в Google Cloud по сравнению с Apache Spark, является действительно ценным предложением для наших клиентов. И это было действительно обусловлено проблемами, которые у них были.

Я просто расскажу об одном из тематических исследований. Это Guardian Life Insurance Company. И инициатива Guardian заключалась в том, чтобы на самом деле централизовать свои активы данных и сделать их доступными для своих клиентов, сократить время на подготовку данных, и они сказали, что все говорят о подготовке данных, занимая 80 процентов всего конвейера обработки данных, и они сказали, что на самом деле требуется около 75-80 процентов для них, и они хотели сократить эту подготовку данных, время преобразования, время выхода на рынок для аналитических проектов. Создайте эту ловкость, поскольку они добавляют новые источники данных. И сделайте этот централизованный доступ к данным доступным для всех своих клиентов.

Их решение, включая продукты Syncsort, состоит в том, что прямо сейчас у них есть похожий рынок данных Amazon Marketplace, поддерживаемый озером данных, в основном Hadoop, и базой данных NoSQL. И они используют наши продукты для переноса всех ресурсов данных в озеро данных, включая DB2 на мэйнфрейме, включая файлы VSAM на мэйнфрейме, а также устаревшие источники данных базы данных и новые источники данных. И в результате этого они централизовали многократно используемые ресурсы данных, которые доступны для поиска, доступны и доступны их клиентам. И они действительно могут добавлять новые источники данных и обслуживать своих клиентов намного быстрее и эффективнее, чем раньше. И аналитические инициативы даже прогрессируют в большей степени в прогнозной части. Поэтому я сделаю паузу и надеюсь, что это было полезно, и если у вас есть какие-либо вопросы ко мне по любой из связанных тем, пожалуйста, добро пожаловать.

Эрик Кавана: Конечно, и Тендю, я просто добавлю один. Я получил комментарий от одного из слушателей, который просто сказал: «Мне нравится этот« дизайн один раз, разверните где угодно »». Можете ли вы покопаться в том, как это правда? Я имею в виду, что вы сделали, чтобы включить такую ​​ловкость и есть ли налог? Например, когда мы говорим о виртуализации, всегда есть небольшой налог на производительность. Некоторые люди говорят, что два процента, пять процентов 10 процентов. Что вы сделали для того, чтобы один раз включить дизайн, развернуть его где угодно - как вы это делаете, и есть ли какие-либо налоги, связанные с ним с точки зрения производительности?

Tendü Yogurtçu: Конечно, спасибо. Нет, потому что, в отличие от некоторых других производителей, мы на самом деле не генерируем Hive или Pig или какой-либо другой код, который не является родным для наших движков. Именно здесь наши вклады с открытым исходным кодом сыграли огромную роль, потому что мы очень тесно сотрудничали с поставщиками Hadoop, Cloudera, Hortonworks и MapR, и благодаря нашему вкладу с открытым исходным кодом наш движок фактически работает как часть потока., как часть потока Hadoop, как часть Spark.

Что это переводит также, у нас есть эта динамическая оптимизация. Это было то, что произошло в результате того, что наши клиенты столкнулись с компьютерными платформами. Когда они начали работать с некоторыми приложениями, они вернулись и сказали: «Я просто стабилизирую свой кластер Hadoop, стабилизируюсь на MapReduce YARN версии 2, MapReduce версии 2, и люди говорят, что MapReduce мертв, Spark является следующая вещь, и некоторые люди говорят, что Флинк будет следующей вещью, как я справлюсь с этим? »

И эти проблемы стали настолько очевидными для нас, что мы вложили средства в динамическую оптимизацию, которую мы называем интеллектуальным исполнением. Во время выполнения, когда задание, когда этот конвейер данных передается на основе кластера, будь то Spark, MapReduce или автономный сервер Linux, мы решаем, как выполнить это задание, изначально в нашем движке, как часть этого. Поток данных Hadoop или Spark. Нет никаких накладных расходов, потому что все делается благодаря этой динамической оптимизации, которую мы имеем, и все также делается, потому что наш движок настолько изначально интегрирован благодаря нашему вкладу с открытым исходным кодом. Это отвечает на ваш вопрос?

Эрик Кавана: Да, это хорошо. И я хочу задать еще один вопрос, а потом, Дез, может быть, мы втянем и тебя, и Робина. Я только что получил веселый комментарий от одного из наших посетителей. Я прочитаю это, потому что это действительно довольно содержательно. Он пишет: «Похоже, что в истории вещей HOT» - понимаете? Как и IoT - «это то, что чем больше вы пытаетесь« упростить »что-то действительно сложное, тем чаще, чем не кажется, проще делать вещи, больше подвесной веревки поставляется. Подумайте о запросах к базе данных, взрыве, многопоточности и т. Д. »Можете ли вы прокомментировать этот парадокс, на который он ссылается? Простота против сложности, и в основном то, что действительно происходит под одеялом?

Tendü Yogurtçu: Конечно. Я думаю, что это очень верный момент. Когда вы упрощаете вещи и выполняете эти оптимизации каким-то образом под прикрытием, кто-то должен принять эту сложность того, что должно произойти, верно? Если вы что-то парализуете или решаете, как выполнить конкретное задание в отношении компьютерной инфраструктуры, очевидно, что какая-то часть задания продвигается, будь то на стороне пользователя, в кодировании меню или в оптимизации движка. Отчасти это объясняется тем, что, упрощая взаимодействие с пользователем, вы получаете огромное преимущество с точки зрения возможности использовать наборы навыков, существующие на предприятии.

И вы можете как-то смягчить этот парадокс, смягчить эту проблему: «Да, но я не могу контролировать все, что происходит под крышкой, под капотом в этом движке», раскрывая вещи более продвинутым пользователям, если они хочу иметь такой контроль. Кроме того, вкладывая средства в некоторые виды работоспособности. Возможность предлагать больше рабочих метаданных, больше рабочих данных, как в примере, который дал этот участник, для запроса SQL, а также с работающим механизмом. Я надеюсь, что ответы.

Эрик Кавана: Да, это звучит хорошо. Дез, убери это.

Дез Бланчфилд: Я действительно хочу немного больше узнать о вашем влиянии на вклады с открытым исходным кодом и путешествие, которое вы прошли из своего традиционного многолетнего опыта в мэйнфреймах и проприетарном мире, а затем перейти к содействие открытому исходному коду и как это произошло. И еще одна вещь, которую я хотел бы понять, это то, что вы видите, что предприятия, а не только ИТ-отделы, но и предприятия, сейчас принимают во внимание концентраторы данных или озера данных, как люди сейчас говорят, и видят ли они эту тенденцию всего лишь одно озеро консолидированных данных или мы видим, что распределенные озера данных и люди используют инструменты для их объединения?

Tendü Yogurtçu: Конечно. Для первого, это было очень интересное путешествие, поскольку компания-разработчик программного обеспечения, одна из первых после IBM. Однако, опять же, все началось с того, что наши клиенты-евангелисты смотрели на Hadoop. У нас были такие компании, как ComScore, они были одними из первых, кто внедрил Hadoop, потому что они собирали цифровые данные по всему миру и не могли хранить данные за 90 дней, если не вложили в свое хранилище данных за десять миллионов долларов. окружающая обстановка. Они начали смотреть на Hadoop. После этого мы начали изучать Hadoop.

И когда мы приняли решение и признали, что Hadoop действительно станет платформой данных будущего, мы также пришли к пониманию, что мы не сможем сыграть в этом, успешную игру в этом, если мы не будем были частью экосистемы. И мы очень тесно сотрудничали с поставщиками Hadoop, с Cloudera, Hortonworks, MapR и т. Д. Мы начали с ними по-настоящему разговаривать, потому что партнерство становится очень важным для подтверждения ценности, которую может принести поставщик, а также для того, чтобы мы могли совместно пойти на предприятие и предложить что-то более значимое. Требовалось много связей, потому что мы не были известны проектам с открытым исходным кодом Apache, однако, я должен сказать, что мы получили большую поддержку от этих поставщиков Hadoop.

Мы начали работать вместе и смотрели на центр, как мы можем принести ценность даже без нашего собственного программного обеспечения в космосе. Это было важно. Речь идет не только о внедрении некоторых API, на которых может работать ваш продукт, но и о том, что я буду инвестировать в это, потому что я верю, что Hadoop станет платформой будущего, поэтому инвестируя в источники, которые мы хотели сделать уверен, что он созревает и готов к предпринимательству. На самом деле мы можем включить некоторые варианты использования, которые не были доступны до нашего вклада. Это принесет пользу всей экосистеме, и мы можем очень тесно развивать эти партнерства.

Это заняло довольно много времени. Мы начали вносить свой вклад в 2011 и 2013 годах, 21 января - я помню дату, потому что именно в этот день был принят наш самый крупный взнос, и это означало, что теперь мы можем иметь наши продукты в общем доступе с этого момента - для развития этих отношений потребовалось некоторое время показать ценность, партнеры становятся партнерами по разработке с поставщиками и с коммиттерами в сообществе открытого исходного кода. Но это было очень весело. Как компания, нам было очень приятно быть частью этой экосистемы и развивать прекрасное партнерство.

Второй вопрос о концентраторе данных / озере данных, я думаю, когда мы рассматриваем эти данные как реализацию сервиса в большинстве случаев, да, это могут быть кластеры, физически одиночные или несколько кластеров, но это более концептуально, чем становиться этим единственным местом для всех данных. Потому что в некоторых организациях мы видим крупные кластерные развертывания на месте, однако они также имеют кластеры, например, в общедоступном облаке, потому что некоторые данные, которые собираются из сетевых разделов, действительно хранятся в облаке. Это возможность иметь один конвейер данных, который вы можете использовать оба из них, и использовать их в качестве единого концентратора данных, единого озера данных, становится важным. Я думаю, что не обязательно просто физическое место, но наличие такого центра данных и озера данных в кластерах, географических регионах и, возможно, в помещениях и облаках будет очень важным. Особенно двигаясь вперед. В этом году мы начали видеть все больше и больше облачных развертываний. Это удивительно В первой половине этого года мы наблюдали множество облачных развертываний.

Эрик Кавана: Хорошо, круто. И Робин, у тебя есть вопросы? Я знаю, у нас осталось пару минут.

Робин Блур: Хорошо, я могу задать ей вопрос. Первое, что пришло мне в голову, это то, что Кафка был в восторге, и меня заинтересовало ваше мнение о Кафке и как вы интегрируетесь с тем, как люди используют Кафку?

Tendü Yogurtçu: Конечно. Да, Кафка становится довольно популярной. Среди наших клиентов мы видим, что это своего рода транспортный слой данных, и видим, что данные - это шина. Например, один из наших клиентов на самом деле использовал такие потребляющие данные, которые помещаются в эту Kafka среди множества, например тысячи онлайн-пользователей, и мог их классифицировать и продвигать.

Опять же, Кафка - это шина данных для разных потребителей этих данных. Классифицируйте некоторых продвинутых пользователей по сравнению с не очень продвинутыми пользователями и сделайте что-то другое, продвигаясь вперед в этом конвейере данных. В принципе, как мы интегрируемся с Kafka, наш продукт DMX-h становится надежным потребителем, высокоэффективным, надежным потребителем для Kafka. Он может читать данные, и это ничем не отличается от чтения данных из любого другого источника данных для нас. Мы даем пользователям возможность управлять окном с точки зрения требуемого времени или количества сообщений, которые они могут потреблять с шины Kafka. И затем мы можем также обогатить эти данные, поскольку они проходят через наш продукт и возвращаются в Кафку. Мы проверили это. Мы проверили это на сайте клиента. Также сертифицировано Confluent. Мы тесно сотрудничаем с ребятами из Confluent, и они очень эффективны и просты в использовании. Опять же, API меняются, но вам не о чем беспокоиться, потому что продукт действительно воспринимает это как еще один источник данных, источник потоковых данных. На самом деле очень интересно работать с нашим продуктом и Kafka.

Робин Блур: Хорошо, у меня есть еще один вопрос, который является просто общим бизнес-вопросом, но я давно знаю Syncsort, и у вас всегда была репутация, и вы поставляли чрезвычайно быстрое программное обеспечение для ETL и мэйнфреймов. Это тот случай, когда большая часть вашего бизнеса сейчас переходит на Hadoop? Это тот случай, когда вы так или иначе довольно резко распространили свой бизнес из мира мэйнфреймов?

Tendü Yogurtçu: Наши продукты для мэйнфреймов по-прежнему работают на 50% мэйнфреймов по всему миру. Таким образом, у нас есть очень сильная линейка продуктов для мэйнфреймов в дополнение к тому, что мы делаем с большими данными и конечной частью Hadoop. И мы по-прежнему участвуем в большинстве проектов по упрощению или оптимизации ИТ, потому что есть один конец, который вы хотите иметь возможность использовать данные своего мэйнфрейма на платформах больших данных Multex и использовать все корпоративные данные, однако существуют также очень важные транзакционные рабочие нагрузки. он по-прежнему работает на мэйнфреймах, и мы предлагаем этим клиентам способы действительно сделать эти приложения более эффективными, запустив их в ядре zIIP, чтобы они не потребляли столько циклов обработки и MIPS, а делали их экономически эффективными.

Мы продолжаем инвестировать в продукты для мэйнфреймов и фактически играем в этом пространстве, где люди переходят от большого железа мэйнфреймов к большим данным и распространяют линейку продуктов также на эти платформы. Таким образом, мы не обязательно смещаем весь бизнес в одну сторону, мы продолжаем иметь очень успешный бизнес с обеих сторон. И приобретения для нас тоже очень важны. По мере развития этого пространства управления данными и обработки данных для платформ больших данных мы также намерены совершить немало бесплатных приобретений.

Робин Блур: Думаю, я не могу спросить вас, кто они, потому что вам не разрешат рассказать мне. Меня интересует, видели ли вы много реализаций Hadoop или Spark на мэйнфрейме или это очень редко.

Тэнду Йогуртчу: Мы не видели никого. Есть еще вопрос об этом. Я думаю, что Hadoop на мэйнфреймах не имел особого смысла из-за структуры ядра. Однако Spark на мэйнфреймах весьма значим, и Spark действительно очень хорош с машинным обучением и прогнозной аналитикой, и возможность иметь некоторые из этих приложений с данными мэйнфреймов действительно, я думаю, весьма значима. Мы еще не видели, чтобы кто-то делал это, но на самом деле это тот случай использования. Если ваш сценарий использования в качестве компании больше сводит данные мэйнфреймов и интегрирует их с остальными наборами данных в платформе больших данных, это одна история. Для этого требуется доступ к данным мэйнфрейма с платформы больших данных Multex, потому что вы вряд ли перенесете свои наборы данных из открытых систем и перезвоните в мэйнфрейм. Однако, если у вас есть данные для мэйнфрейма, которые вы хотите просто исследовать и сделать небольшое исследование данных, применить расширенный ИИ и расширенную аналитику, тогда Spark может быть хорошим способом для запуска и работы на мэйнфрейме.

Эрик Кавана: И вот еще один вопрос из зала, на самом деле еще два. Я задам вам вопрос команды тегов, а затем подведем итоги. Один из участников спрашивает: «Интегрирует ли IBM ваш вклад с открытым исходным кодом в свою общедоступную облачную экосистему, другими словами, Bluemix?» И еще один участник высказал действительно хорошую мысль, отметив, что Syncsort отлично подходит для поддержания большого железа для тех, кто уже есть, но если компании отказываются от новых мэйнфреймов в пользу того, что он называет CE, затуманивают все, что, скорее всего, уменьшится, но отмечают, что вы, ребята, действительно хороши в перемещении данных, обходя операционные системы до гигабайта в секунду. Как вы упомянули, можете ли вы рассказать о силе вашего ядра и о том, интегрирует ли IBM ваши вещи в Bluemix?

Tendü Yogurtçu: С IBM мы уже являемся партнерами IBM, и мы обсудили их облачные сервисы данных, предлагающие этот продукт. Наши материалы с открытым исходным кодом открыты для всех, кто хочет использовать их. Некоторые из соединений с мэйнфреймами также доступны в пакетах Spark, так что не только IBM. Любой может использовать их. В Bluemix мы еще ничего не сделали специально для этого. И вы не против повторить второй вопрос?

Эрик Кавана: Да, второй вопрос был о вашей основной области функциональности за эти годы, которая действительно работала с узкими местами ETL, и, очевидно, это то, что вы, ребята, все еще собираетесь делать как мэйнфреймы, ну, теоретически, держитесь подальше, хотя Дез точка все еще раскачивается и катится там. Но посетитель только что отметил, что Syncsort очень хорош в перемещении данных, минуя операционные системы и до гигабайта в секунду. Можете ли вы просто прокомментировать это?

Тендю Йогуртчу: Да, именно общая эффективность использования ресурсов была нашей силой, а масштабируемость и производительность - нашей силой. Мы не идем на компромисс, упрощение имеет много значений, мы не идем на компромисс с этим. Например, когда люди начали говорить о Hadoop в 2014 году, многие организации изначально не особо задумывались о производительности. Они говорили: «О, если что-то случится, я могу добавить еще пару узлов, и я буду в порядке, производительность не является моим требованием».

В то время как мы говорили о том, чтобы иметь лучшую производительность, потому что мы уже работали изначально, у нас даже не было некоторых первоначальных сбоев, которые у Hive были с несколькими заданиями MapReduce и накладными расходами при их запуске. Люди говорили нам: «О, это не мое беспокойство, не беспокойтесь об этом сейчас».

Когда мы подошли к 2015 году, этот ландшафт изменился, поскольку некоторые из наших клиентов уже превысили объем хранилища, которое они имели в своих производственных кластерах. Для них стало очень важно увидеть, что может предложить Syncsort. Если вы берете какие-либо данные из базы данных или мэйнфрейма и записываете в формат Parquet в кластерах, независимо от того, выполняете ли вы посадку и этап и делаете другое преобразование, или просто выполняете преобразование в полете и формат целевого файла, вы спасаетесь от хранилище, вы экономите от пропускной способности сети, вы экономите от рабочей нагрузки в кластере, потому что вы не выполняете дополнительные задания. Те сильные стороны, которые мы играем с точки зрения того, чтобы быть очень сознательными, мы чувствуем эффективность ресурсов под нашей кожей, кажется.

Вот как мы это описываем. Это важно для нас. Мы не принимаем это как должное. Мы никогда не считали это само собой разумеющимся, поэтому мы будем продолжать использовать этот рычаг в Apache Spark или следующей компьютерной платформе. Это будет оставаться в центре нашего внимания. И с точки зрения перемещения данных и доступа к данным, безусловно, это одна из наших сильных сторон, и мы обращаемся к данным DB2 или VSAM на мэйнфреймах в контексте Hadoop или Spark.

Эрик Кавана: Ну, это отличный способ закончить трансляцию, ребята. Большое спасибо за ваше время и внимание. Спасибо вам, Tendü и Syncsort, за то, что пришли в брифинг и, как говорится, вышли в раунд. Много замечательных вопросов из зала. Это постоянно меняющаяся обстановка, ребята. Мы заархивируем этот Hot Tech, как и все остальные. Вы можете найти нас на insideanalysis.com и на techopedia.com. Обычно это повышается примерно через день. И с этим, мы собираемся попрощаться с вами, ребята. Огромное спасибо. Мы скоро с вами поговорим. Береги себя. Пока-пока.

Большое железо, встречайте большие данные: освобождение данных мэйнфреймов с помощью hadoop и spark