Дом аудио Использование пожарного рукава: получение бизнес-ценности от потоковой аналитики: расшифровка стенограммы вебинара

Использование пожарного рукава: получение бизнес-ценности от потоковой аналитики: расшифровка стенограммы вебинара

Anonim

Персоналом Техопедии, 24 февраля 2016 г.

Вывод: ведущий Rebecca Jozwiak обсуждает потоковую аналитику с ведущими экспертами отрасли.

Вы не вошли в систему. Пожалуйста, войдите или зарегистрируйтесь, чтобы увидеть видео.

Ребекка Йозвиак: Дамы и господа, привет и добро пожаловать в Hot Technologies 2016 года! Сегодняшнее название - «Использование пожарного рукава: извлечение выгоды для бизнеса из потоковой аналитики». Это Ребекка Йозвиак. Я являюсь вторым командиром для ведущего веб-трансляции, когда наш дорогой Эрик Кавана не может быть здесь, поэтому приятно видеть так много из вас сегодня.

Этот эпизод немного отличается от наших других. Мы как бы говорили о том, что жарко и, конечно, в этом году жарко. Последние несколько лет были жаркими. Всегда есть что-то новое. Сегодня мы говорим о потоковой аналитике. Потоковая аналитика сама по себе является чем-то новым. Конечно, потоковые данные, центральные данные, данные RFID не обязательно являются новыми. Но в контексте архитектуры данных мы были так сосредоточены на данных в состоянии покоя в течение десятилетий. Базы данных, файловые системы, хранилища данных - все это в основном для пакетной обработки. Но теперь с переходом к созданию ценности из потоковых данных, эмоций данных, некоторые называют это живыми потоками, им действительно требуется архитектура на основе потоков, а не архитектуры данных в состоянии покоя, к которым мы привыкли, и они должны быть способны к обработка быстрого приема, в реальном времени или почти в реальном времени. Он должен быть в состоянии обслуживать не только Интернет вещей, но Интернет всего.

Конечно, в идеале было бы неплохо, чтобы две архитектуры жили бок о бок, одна рука моет другую, так сказать. В то время как данные за прошедшие сутки, данные за недели, данные за прошедшие годы, конечно, все еще имеют ценность, историческая аналитика, анализ тенденций, именно живые данные сегодня движут живым интеллектом, и поэтому потоковая аналитика стала настолько важной.

Я говорю об этом больше сегодня. У нас есть наш специалист по данным Дез Бланчфилд, звонящий из Австралии. Рано утром для него прямо сейчас. У нас есть наш главный аналитик, доктор Робин Блур. К нам присоединился Ананд Венугопал, руководитель по продукту StreamAnalytix в Impetus Technologies. Они действительно сосредоточены на аспекте потоковой аналитики этого пространства.

С этим я собираюсь пойти дальше и передать его Дезу.

Дез Бланчфилд: Спасибо. Мне нужно захватить контроль над экраном здесь и выскочить вперед.

Ребекка Йозвиак: Вот, пожалуйста .

Дез Бланчфилд: Пока мы берем слайды, позвольте мне затронуть основную тему.

Я собираюсь держать его на достаточно высоком уровне и примерно 10 минут. Это очень большая тема. Я участвовал в мероприятии, на котором мы потратили два-три дня, чтобы подробно узнать, что такое потоковая обработка и текущие структуры, которые мы разрабатываем, и что должно означать выполнение аналитики в этих объемных потоках.

Мы собираемся просто уточнить, что мы подразумеваем под потоковой аналитикой, а затем углубиться в вопрос о том, можно ли получить бизнес-ценность, потому что это действительно то, что ищут компании. Они хотят, чтобы люди объяснили им очень быстро и лаконично, где я могу получить ценность, применяя некоторую форму аналитики к нашим потоковым данным?

Что такое потоковая аналитика?

Потоковая аналитика дает организациям возможность извлекать выгоду из объемных и высокоскоростных данных, которые они получают через бизнес в различных формах в движении. Существенным отличием здесь является то, что у нас была долгая история разработки аналитики и объективов и представлений о данных, которые мы обрабатывали в состоянии покоя в течение десятилетий с момента изобретения мэйнфрейма. Огромный сдвиг парадигмы, который мы наблюдали за последние три-пять лет в том, что мы называем «масштабом сети», затрагивает потоки данных, поступающих в нас в реальном времени или почти в реальном времени, а не просто обрабатывает и ищет корреляцию событий или события запускаются, но выполняют действительно детальную, глубокую аналитику по этим потокам. Это существенный сдвиг в том, что мы делали раньше: сбор данных, их размещение в каком-то хранилище, традиционные большие базы данных, платформы больших данных, такие как платформа Hadoop, и обработка этих данных в пакетном режиме и получение какое-то понимание.

У нас очень хорошо получается делать это очень быстро и пробовать много тяжелого железа, но мы все еще действительно собираем данные, храним и затем смотрим на них и получаем некоторую информацию или аналитику. Переход к выполнению этой аналитики в процессе потоковой передачи данных стал очень новой и захватывающей областью роста для типов вещей, происходящих вокруг больших данных. Требуется совершенно другой подход, чтобы просто захватывать, хранить, обрабатывать и выполнять аналитику.

Одним из ключевых факторов сдвига и ориентации на выполнение аналитики в потоке является то, что вы можете получить значительную выгоду для бизнеса, получая эти идеи быстрее и с большей готовностью по мере того, как данные поступают к вам, когда информация становится доступной для бизнеса. Идея обработки в конце дня больше не актуальна в определенных отраслях. Мы хотим быть в состоянии сделать аналитику на лету. К концу дня мы уже знаем, что произошло, как это произошло, вместо того, чтобы дойти до конца дня и выполнить 24-часовую пакетную работу и получить эти идеи.

Потоковая аналитика предназначена для непосредственного подключения к этому потоку, в то время как потоки данных обычно представляют собой множественные потоки очень больших объемов данных, и данные очень быстро приходят к нам в движение и дают представление или аналитику по этим потокам, когда они приходят к нам, а не наоборот. чтобы позволить этому выйти в покое и выполнить аналитику на них.

Как я уже говорил, у нас были десятилетия и десятилетия выполнения того, что я называю пакетной аналитикой. Я поместил действительно классную картину здесь. Это изображение джентльмена, стоящего перед макетом компьютера, который был создан RAND Corporation много лет назад, и именно так они смотрели на компьютер в доме. Что интересно, даже тогда у них была эта концепция всех этих маленьких циферблатов, и эти циферблаты представляли информацию, поступающую из дома и обрабатываемую в режиме реального времени, и сообщающую вам, что происходит. Простым примером является набор атмосферного давления и температуры, которые мы можем видеть, где мы видим, что происходит в режиме реального времени. Но я полагаю, что даже тогда, когда корпорация RAND собрала этот маленький макет, они уже думали об обработке данных и проведении их аналитики по мере их поступления в потоковом формате. Я не совсем уверен, почему они поставили руль на компьютер, но это довольно круто.

С момента изобретения принтера у нас был вид сбора данных и выполнения пакетной аналитики на нем. Как я уже говорил с большим изменением, и мы видели это от таких игроков, как веб-масштаба, которые все мы знаем, все они являются брендами для дома, такими как Twitter, Facebook и LinkedIn, это интерактивное поведение, которое мы имеем с этими социальными Платформы требуют не только захвата, хранения и последующей обработки в пакетном режиме, но на самом деле они захватывают и управляют аналитикой на лету из потоков данных, проходящих через. Когда я чирикаю что-то, им нужно не только собирать, хранить и что-то делать позже, но и уметь немедленно возвращать это в мой поток и делиться ими с другими людьми, которые следуют за мной. Это модель пакетной обработки.

Зачем нам идти по этому пути? Зачем организациям вкладывать время, усилия и деньги, даже если они рассматривают задачу продвижения по пути потоковой аналитики? Организации стремятся получить прирост производительности по сравнению со своими конкурентами в тех отраслях, в которых они находятся, и этот прирост производительности можно быстро реализовать с помощью простой потоковой аналитики, и это может начаться с простого отслеживания данных в реальном времени, которые мы уже имеем. знаком с. Я получил небольшой скриншот Google Analytics. Вероятно, это один из первых случаев, когда мы действительно получили практическую аналитику потребительского уровня. Так как люди посещали ваш сайт, и вы получаете эти показатели, с крошечным кусочком JavaScript в нижней части вашей веб-страницы в HTML-коде, встроенным в ваш сайт, эти маленькие коды создавались в реальном времени обратно в Google, и они выполнять аналитику тех потоков данных, которые поступают со всех страниц вашего веб-сайта, каждого объекта на вашем веб-сайте в режиме реального времени, и они отправляют его обратно вам на эту действительно симпатичную маленькую веб-страницу в виде панели графиков в реальном времени, симпатичных маленьких гистограмм и линейный график, показывающий вам Х количество людей, которые посещали вашу страницу исторически, но вот сколько их сейчас.

Как вы можете видеть на этом скриншоте, сейчас написано 25. Сейчас на скриншоте было 25 человек. Это первый реальный шанс, который мы сыграли на инструменте аналитики потребительского уровня. Я думаю, что многие люди действительно получили это. Они просто понимали силу знания того, что происходит и как они могут на это реагировать. Когда мы думаем о масштабах авионики, где летают самолеты, в одних только США происходит примерно 18 700 внутренних рейсов в день. Некоторое время назад я читал статью, где-то шесть или семь лет назад, что объем данных, создаваемых этими самолетами, составлял от 200 до 300 мегабайт в старой инженерной модели. В современных конструкциях самолетов эти самолеты производят около 500 гигабайт данных или около половины терабайта данных за полет.

Когда вы очень быстро выполняете математику, то только 18 700 внутренних рейсов каждые 24 часа в одном воздушном пространстве США, если все современные самолеты производят около половины терабайта, это 43 - 44 петабайта данных, поступающих и это происходит, когда самолеты находятся в воздухе. Это происходит, когда они приземляются и делают дампы данных. Именно тогда они идут в магазин и получают полную информацию от инженерных команд, чтобы посмотреть, что происходит в подшипниках, колесах и внутри двигателей. Некоторые из этих данных должны обрабатываться в режиме реального времени, чтобы они могли принимать решения о наличии реальной проблемы, когда самолет находился в воздухе или находился на земле. Вы просто не можете сделать это в пакетном режиме. В других отраслях, которые мы видим в сфере финансов, здравоохранения, производства и машиностроения, они также смотрят на то, как они могут получить это новое понимание того, что происходит в режиме реального времени, в отличие от того, что просто хранится в базах данных на срок.

Существует также концепция работы с данными как с тем, что я называю скоропортящимся товаром или скоропортящимся товаром, когда многие данные со временем теряют свою ценность. Это все больше и больше происходит с мобильными приложениями и инструментами социальных сетей, потому что то, что люди говорят и что сейчас в тренде, - это то, на что вы хотите ответить. Когда вы думаете о других частях нашей жизни, связанных с логистикой и доставкой продуктов питания, мы понимаем концепцию скоропортящихся продуктов в этом смысле. Но подумайте о данных, проходящих через вашу организацию, и об их ценности. Если кто-то ведет с вами какие-то дела прямо сейчас, и вы можете взаимодействовать с ним в режиме реального времени, вы не хотите ждать час, чтобы данные могли быть собраны и помещены в такую ​​систему, как Hadoop, а затем нажмите эту кнопку. Вы не сможете справиться с этим прямо сейчас, и вы захотите сделать это по требованию клиента немедленно. Есть термин, который вы часто встречаете, когда люди говорят об этом потоке данных в реальном времени, который может дать вам персонализацию, и настройке персонализации в системе, которую вы используете для своего индивидуального опыта. Поэтому, когда вы обращаетесь к такому инструменту, как, например, инструмент поиска Google, если я делаю запрос, а вы выполняете тот же запрос, неизменно мы не получаем точно такие же данные. По сути, мы получаем то, что я называю опытом знаменитостей. Я лечусь с разовым. Я получил свою личную версию того, что происходит в этих системах, основываясь на профилях и данных, которые они собрали для меня, и я смог проводить аналитику в реальном времени в потоке.

Эта идея о том, что данные являются скоропортящимся товаром, на данный момент реальна, и ценность данных, которые со временем уменьшаются, - это то, с чем нам приходится иметь дело сегодня. Это не вчерашняя вещь. Мне нравится эта картина, когда медведь хватает лосося, выпрыгивающего из реки, потому что он действительно рисует именно то, что я вижу в потоковой аналитике. Это огромная река данных, идущая к нам, пожарный шланг, если хотите, и медведь сидит посреди ручья. Он собирается выполнять аналитику в реальном времени того, что происходит вокруг него, так что он может действительно спроектировать способность ловить эту рыбу в воздухе. Это не просто окунуться в ручей и схватить его. Эта вещь прыгает в воздухе, и она должна быть в нужном месте в нужное время, чтобы поймать эту рыбу. В противном случае он не получит завтрак или обед.

Организация хочет сделать то же самое со своими данными. Они хотят извлечь ценность из того, что сейчас представляет собой огромные объемы данных в движении. Они хотят выполнять аналитику на этих данных и данных с высокой скоростью, поэтому к нам приходит не просто объем данных, а скорость, с которой они поступают. В области безопасности, например, это все ваши маршрутизаторы, коммутаторы, серверы, брандмауэры и все события, исходящие от этих и десятков тысяч, если не сотен тысяч устройств, в некоторых случаях это скоропортящиеся данные. Когда мы думаем об этом в Интернете вещей и в промышленном Интернете, мы в конечном итоге говорим о миллионах, если не миллиардах датчиков, и по мере поступления данных, которые выполняют аналитику, мы сейчас смотрим на обработку сложных событий. по порядку величины и скорости, которых мы никогда раньше не видели, и нам приходится иметь дело с этим сегодня. Мы должны строить инструменты и системы вокруг этого. Это реальная проблема для организаций, потому что, с одной стороны, у нас есть очень крупные бренды, которые занимаются DIY, выпекают это самостоятельно, когда у них есть возможности для этого, набор навыков и инженерия. Но для средней организации это не так. У них нет навыков. У них нет возможности, ни времени, ни даже денег, чтобы инвестировать в это. Все они стремятся к этой концепции принятия решений почти в реальном времени.

Случаи использования, с которыми я сталкивался, и они охватывают каждый широкий спектр каждого сектора, который вы можете себе представить, люди сидят, обращают внимание и спрашивают, как мы применяем некоторую аналитику к нашим потоковым данным? Мы говорим о веб-сервисах онлайн. Существуют традиционные платформы социальных сетей, интернет-магазины и приложения для розничной торговли - например, приложения. Они все пытаются дать нам этот опыт знаменитостей в реальном времени. Но когда мы переходим к большему количеству сервисов технологических стеков, телефонных услуг, голосовой связи и видео, я вижу, как люди ходят по FaceTime на телефонах. Это просто взрыв. Меня поражает, что люди держат телефон перед собой и разговаривают с видеопотоком друга, а не подносят его к уху. Но они знают, что могут это сделать, и они адаптировались, и им понравился этот опыт. Разработка этих приложений и платформ, которые их поставляют, должны выполнять аналитику в реальном времени этого трафика и профилей трафика, чтобы они могли выполнять простые вещи, такие как идеальная маршрутизация видео, чтобы качество голоса в видео, которое вы получаете, является адекватным, чтобы получить хороший опыт. Вы не можете пакетно обрабатывать такие данные. Это не сделает видеопоток в реальном времени функциональным сервисом.

Существует проблема управления в финансовых транзакциях. Нехорошо дойти до конца дня и узнать, что вы нарушили закон, перемещая личные данные по всему месту. В Австралии у нас есть очень интересная задача, когда переносить данные, связанные с конфиденциальностью, в оффшор - нет-нет. Вы не можете взять мой PID, мои личные идентификационные данные, в оффшоре. В Австралии есть законы, чтобы это не происходило. Поставщики финансовых услуг, в частности, государственные службы и агентства, должны вместе со мной проводить аналитику своих потоков данных и инструкций в реальном времени, чтобы убедиться, что то, что они мне предоставляют, не покидает берега. Все вещи должны оставаться на месте. Они должны сделать это в режиме реального времени. Они не могут нарушить закон и попросить прощения позже. Обнаружение мошенничества - это довольно очевидное явление, о котором мы слышим при транзакциях по кредитным картам. Но так как типы транзакций, которые мы совершаем в финансовых услугах, меняются очень и очень быстро, есть некоторые вещи, которые PayPal делает в первую очередь при обнаружении мошенничества в реальном времени, когда деньги не переходят от одного к другому, а финансовая сделка между системами. Платформы Ebay, обнаружение мошенничества должно осуществляться в режиме реального времени в потоковом офисе.

Сейчас наблюдается тенденция к выполнению извлечения и преобразования нагрузки в потоках, поэтому мы не хотим фиксировать все, что идет в поток. Мы не можем этого сделать. Люди узнали, что данные очень быстро разбиваются, если мы все фиксируем. Теперь хитрость заключается в том, чтобы выполнять аналитику в этих потоках и выполнять ETL для нее и просто собирать то, что вам нужно, потенциально метаданные, а затем проводить аналитическую аналитику, где мы на самом деле можем затем рассказать, что произойдет немного дальше по пути, по которому мы Я только что видел в потоке на основе аналитики, которую мы провели на этом.

Поставщики энергии и коммунальных услуг испытывают это огромное желание потребителей устанавливать цены по требованию. Я мог бы решить, что я хочу купить зеленую энергию в одно конкретное время дня, потому что я просто дома один, и я не использую много устройств. Но если у меня будет званый обед, я, возможно, захочу, чтобы все мои устройства были включены, и я не хочу покупать дешевую электроэнергию и ждать, пока она будет доставлена, но хочу платить за большую стоимость, чтобы получить эту энергию. Это требование цены, особенно в коммунальном и энергетическом пространстве, уже произошло. Uber, например, является классическим примером того, что вы можете делать каждый день, и все это зависит от цены спроса. Есть несколько классических примеров, когда люди в Австралии получали билеты на 10 000 долларов из-за огромного спроса в канун Нового года. Я уверен, что они справились с этой проблемой, но потоковая аналитика проводится в режиме реального времени, пока в машине говорят вам, сколько я должен заплатить.

Интернет вещей и сенсорные потоки - мы только что об этом поцарапали, и у нас на самом деле только что состоялся базовый разговор об этом, но мы увидим интересный сдвиг в том, как технологии справляются с этим, потому что когда вы говорите, не всего около тысяч или десятков тысяч, но сотен тысяч и, возможно, миллиардов устройств, передаваемых на вас, почти ни один из технологических стеков, которые мы имеем сейчас, не спроектирован, чтобы справиться с этим.

Есть некоторые действительно горячие темы, которые мы увидим вокруг, такие как безопасность и кибер-риск. Это очень реальные проблемы для нас. В Интернете есть действительно удобный инструмент под названием «Север», где вы можете сидеть и смотреть на веб-странице различные кибератаки, происходящие в режиме реального времени. Когда вы смотрите на это, вы думаете: «О, это милая маленькая веб-страница», но примерно через пять минут вы понимаете объем данных, которые система выполняет аналитику по всем различным потокам всех различных устройств по всему миру. которые кормят их. Он начинает поражать разумом того, как они выполняют это на самом краю этой записи и предоставляет вам этот простой маленький экран, который говорит вам, что или что-то еще атакует его в реальном времени и какие типы атак. Но это действительно изящный небольшой способ просто получить представление о том, что потенциально может сделать аналитика потоков для вас в режиме реального времени, просто просмотрев эту страницу и почувствовав объем и задачи, связанные с получением потоков и обработкой запросов аналитики. их и представляющих это в режиме реального времени.

Я думаю, что разговор, который я веду до конца сессии, будет посвящен всем этим типам вещей с одной интересной точки зрения, с моей точки зрения, и это проблема DIY, испечь его самому, подходит некоторым из классические единороги, которые могут позволить себе создавать такие вещи. У них есть миллиарды долларов, чтобы построить эти инженерные команды и построить свои центры обработки данных. Но для 99, 9% организаций, которые хотят повысить ценность своего бизнеса в области потоковой аналитики, им необходимо получить готовый сервис. Им нужно купить продукт «из коробки», и им, как правило, требуются некоторые консультационные услуги и профессиональные услуги, чтобы помочь им реализовать его, и они возвращают эту ценность обратно в бизнес и продают его обратно в бизнес в качестве рабочего решения.

После этого я вернусь к вам, Ребекка, потому что я верю, что это то, что мы сейчас подробно расскажем.

Ребекка Йозвиак: Отлично. Большое вам спасибо, Дез. Это отличная презентация.

Теперь я передам мяч Робину. Унеси это.

Робин Блур: Хорошо. Из-за того, что Дез увлекся обработкой потоков, у меня не было смысла повторять это снова. Так что я просто собираюсь принять совершенно стратегический взгляд. Взгляд с почти очень высокого уровня на то, что, черт возьми, происходит, и его позиционирование, потому что я думаю, что это могло бы помочь людям, особенно нам, людям, которые раньше не занимались обработкой потоков на большой глубине.

Обработка потоков существует давно. Мы привыкли называть это CEP. До этого были системы реального времени. Оригинальные системы управления процессами фактически обрабатывали потоки информации - конечно, ничто не шло так далеко, как сейчас. Это изображение, которое вы видите на слайде здесь; на самом деле он указывает на многие вещи, но он указывает на то, что помимо всего прочего - тот факт, что здесь есть спектр задержек, которые появляются в разных цветах. То, что произошло на самом деле с момента изобретения вычислительных или коммерческих компьютеров, появившегося примерно в 1960 году, заключается в том, что все становится все быстрее и быстрее. Мы привыкли зависеть от того, как это на самом деле получалось, если вам нравится волнами, потому что это то, на что это похоже. Это на самом деле зависит от этого. Потому что все это основывалось на законе Мура, а закон Мура давал нам в десять раз больше скорости в течение шести лет. Затем, когда мы действительно добрались до 2013 года, все это сломалось, и мы неожиданно начали ускоряться со скоростью, которой у нас никогда не было, что странно беспрецедентно. Мы получили коэффициент около десяти с точки зрения увеличения скорости и, следовательно, снижения задержки примерно каждые шесть лет. За шесть лет, примерно с 2010 года, мы получили кратное число, по крайней мере, тысячу. Три порядка, а не один.

Вот что происходит, и поэтому индустрия так или иначе движется с фантастической скоростью - потому что это так. Просто пройдясь по смыслу этой конкретной графики, время отклика на самом деле, кстати, в алгоритмическом масштабе вниз по вертикальной оси. В режиме реального времени скорость компьютера выше, чем у людей. Интерактивные времена оранжевые. Именно тогда, когда вы взаимодействуете с компьютером, вам действительно нужно время ожидания от одной десятой до одной секунды. Выше есть транзакция, где мы на самом деле думаем о том, что вы делаете на компьютере, но если это произойдет примерно через пятнадцать секунд, это станет невыносимым. Люди на самом деле просто не будут ждать компьютера. Все было сделано в пакетном режиме. Многое, что было сделано в пакетном режиме, теперь идет прямо в транзакционное пространство, прямо в интерактивное пространство или даже в пространство реального времени. В то время как ранее, волнистые с очень маленькими объемами данных мы могли делать некоторые из них, теперь мы можем делать с очень большими объемами данных, используя чрезвычайно масштабируемую среду.

В общем, все это говорит о том, что на самом деле транзакции и интерактивные человеческие отклики. Очень много того, что сейчас делается с потоками, - это информировать людей о вещах. Некоторые из них идут быстрее, и это хорошо информирует, так что это в режиме реального времени. Затем мы берем лицензию, чтобы просто упасть, как камень, делая мгновенную аналитику выполнимой и, между прочим, вполне доступной. Это не просто скорость, а вершина просто рухнула. Вероятно, самое большое влияние во всех этих приложениях среди всех этих приложений - это аналитическая аналитика. Я скажу тебе почему через минуту.

Это просто хозяйственный магазин. У вас есть параллельное программное обеспечение. Мы говорим об этом в 2004 году. Масштабируемая архитектура, многоядерные чипы, увеличение памяти, конфигурируемый процессор. SSD теперь работают намного быстрее, чем вращающиеся диски. Вы можете в значительной степени волновать вращающийся диск до свидания. Твердотельные накопители также состоят из нескольких ядер, так что опять все быстрее и быстрее. Скоро появится, у нас есть мемристор от HP. У нас есть 3D XPoint от Intel и Micron. Их обещание состоит в том, что это все равно будет все быстрее и быстрее. Когда вы на самом деле думаете о двух новых технологиях памяти, каждая из которых сделает основную небольшую часть, отдельная печатная плата работает намного быстрее, мы даже не увидели конца этого.

Технология Streams, которая на самом деле является следующим сообщением, останется здесь. Должна быть новая архитектура. Я имею в виду, что Дез как бы упоминал об этом в нескольких пунктах своей презентации. В течение десятилетий мы рассматривали архитектуру как комбинацию куч данных и каналов данных. Мы имели тенденцию обрабатывать кучи, и мы имели тенденцию передавать данные между кучами. Сейчас мы в основном движемся к тому, что мы называем архитектурой данных Lambda, которая сочетает в себе обработку потоков данных с кучами данных. Когда вы на самом деле обрабатываете поток событий, приходящих на исторические данные, как поток данных или кучу данных, я имею в виду архитектуру Lambda. Это в зачаточном состоянии. Это только часть картины. Если вы рассматриваете что-то столь же сложное, как «Интернет всего», о котором также упоминал Дез, вы на самом деле поймете, что существуют всевозможные проблемы с местоположением данных - решения относительно того, что вы должны обрабатывать в потоке.

То, что я действительно говорю здесь, это то, что когда мы обрабатывали в пакетном режиме, мы фактически обрабатывали потоки. Мы просто не могли сделать это по одному. Мы просто ждем, пока не появится большая куча материала, а затем обрабатываем все сразу. Мы переходим к ситуации, когда мы можем обрабатывать вещи в потоке. Если мы сможем обрабатывать вещи в потоке, то кучи данных, которые мы храним, будут статическими данными, на которые мы должны ссылаться для обработки данных в потоке.

Это подводит нас к этой конкретной вещи. Я упоминал об этом раньше в какой-то презентации с биологической аналогией. То, о чем я хотел бы, чтобы вы подумали, это то, что мы люди. У нас есть три различные сети для прогнозирующей обработки в реальном времени. Их называют соматическими, вегетативными и кишечными. Кишечнорастворимый это ваш желудок. Вегетативная нервная система ухаживает за боем и полетами. Это на самом деле заботится о быстрой реакции на окружающую среду. Соматика, которая следит за движением тела. Это системы реального времени. Интересная вещь об этом - или я думаю, что это довольно интересно - многие из них более предсказуемы, чем вы могли бы себе представить. Это как если бы вы смотрели на экран примерно в 18 дюймах от вашего лица. Все, что вы можете ясно видеть, все, что ваше тело способно ясно видеть, на самом деле представляет собой прямоугольник 8 × 10. Все, что находится за пределами этого, на самом деле размыто для вашего тела, но ваш разум на самом деле заполняет пробелы и делает их не размытыми. Вы не видите размытия вообще. Вы видите это ясно. Ваш разум на самом деле делает прогнозирующий метод потока данных, чтобы вы могли видеть эту ясность. Это довольно любопытно, но на самом деле вы можете посмотреть на то, как работает нервная система, и на то, как нам удается обойтись и вести себя разумно - по крайней мере, некоторые из нас - достаточно разумно и не сталкиваться с вещами все время.

Все это делается с помощью ряда нейронных аналитических масштабов внутри. То, что должно произойти, это то, что организации будут иметь такие же вещи и будут строить такие же вещи, и это будет обработка потоков, включая внутренние потоки организации - вещи, которые происходят внутри это, то, что происходит вне этого, мгновенные ответы, которые действительно должны быть сделаны, конечно, подпитывают человека, чтобы принимать решения, чтобы все это происходило. Вот куда мы идем, насколько я вижу.

Следствием этого является то, что уровень потокового приложения идет хорошо. Там будет намного больше, чем мы видим сейчас. Прямо сейчас мы собираем низко висящий плод выполнения очевидных вещей.

Так или иначе, это вывод здесь. Потоковая аналитика когда-то была нишей, но она становится господствующей тенденцией и скоро будет принята в целом.

С этим я передам это Ребекке.

Ребекка Джозвиак: Большое спасибо, Робин. Отличная презентация как обычно.

Ананд, ты следующий. Вам слово.

Ананд Венугопал: Фантастика. Спасибо.

Меня зовут Ананд Венугопал, и я являюсь руководителем продукта для StreamAnalytix. Это продукт, предлагаемый Impetus Technologies, из Лос-Гатос, Калифорния.

Компания Impetus на самом деле имеет большую историю в качестве поставщика решений для больших данных для крупных предприятий. Таким образом, мы фактически реализовали несколько реализаций потоковой аналитики в качестве сервисной компании и извлекли много уроков. В последние пару лет мы также изменили положение, став компанией-производителем продуктов и компанией, ориентированной на решения, и потоковая аналитика возглавляет процесс превращения Impetus в компанию, основанную преимущественно на продуктах. Есть несколько важных, очень, очень важных активов, которые Impetus очистил благодаря нашему контакту с предприятиями, и StreamAnalytix является одним из них.

Мы находимся в бизнесе более 20 лет, и существует огромное разнообразие продуктов и услуг, которые делают нас огромным преимуществом. И StreamAnalytix родился из всех уроков, извлеченных из наших первых пяти или шести реализаций потоковой передачи.

Я коснусь нескольких вещей, но аналитики, Дез и Робин, проделали фантастическую работу по освещению всего пространства, поэтому я собираюсь пропустить много контента, который частично совпадает. Я, вероятно, пойду быстро. Мы видим, кроме настоящих потоковых случаев, использующих много просто пакетного ускорения, где на предприятиях буквально очень и очень важны пакетные процессы. Как вы можете видеть, весь этот цикл восприятия события, анализа и воздействия на него может на самом деле занимать недели на крупных предприятиях, и все они пытаются сократить его до минут, а иногда секунд и миллисекунд. Таким образом, все, что быстрее всех этих пакетных процессов, является кандидатом на приобретение бизнеса, и очень хорошо, что ценность данных резко уменьшается с возрастом, поэтому чем больше значение в начальной части в секундах, чем это только что произошло. В идеале, если бы вы могли предсказать, что должно было произойти, это самое высокое значение. Однако это зависит от точности. Следующее наивысшее значение - это когда оно прямо там, когда это происходит, вы можете проанализировать его и ответить. Конечно, после этого значение резко снижается, главное ограничение BI, в котором мы находимся.

Это интересно. Вы можете ожидать какой-то кардинально научный ответ, почему потоковая аналитика. Во многих случаях мы видим, что это стало возможным, и потому что все знают, что партия старая, партия скучная, а партия не крутая. Сейчас достаточно знаний о том, что потоковое вещание возможно, и у всех есть Hadoop. Теперь в дистрибутивы Hadoop встроена потоковая технология, будь то потоковая передача Storm или Spark и, конечно, очереди сообщений, такие как Kafka и т. Д.

Предприятия, которые мы видим, прыгают в это и начинают экспериментировать с этими случаями, и мы видим две широкие категории. Один из них имеет отношение к анализу клиента и его опыту, а второй - к оперативному интеллекту. Я подробнее расскажу об этом чуть позже. Весь аспект обслуживания клиентов и качества обслуживания клиентов, и мы в Impetus StreamAnalytix сделали это по-разному - это действительно все, действительно захватывая многоканальное вовлечение потребителей в режиме реального времени и предоставляя им очень, очень контекстно-зависимые впечатления которые не распространены сегодня. Если вы просматриваете веб-страницы, веб-сайт Банка Америки, изучаете некоторые продукты и просто звоните в колл-центр. Скажут ли они: «Привет, Джо, я знаю, что ты исследовал некоторые банковские продукты, хочешь, чтобы я заполнил тебя?» Ты не ожидаешь этого сегодня, но такой опыт действительно возможен с потоковой аналитикой. Во многих случаях это имеет огромное значение, особенно если клиент начал искать способы расторгнуть свой договор с вами, посмотрев на своем веб-сайте условия досрочного расторжения или условия досрочного расторжения, а затем позвоните, и вы сможете не прямо опровергните их об этом, но просто косвенно сделайте предложение о каком-то первом продвижении, потому что система знает, что этот человек рассматривает возможность досрочного расторжения, и вы делаете это предложение в тот момент, вы могли бы очень хорошо защитить этого растущего клиента и защитить этот актив,

Это был бы один пример, плюс множество услуг для клиентов - все это очень хорошие примеры. Мы внедряем сегодня, снижает стоимость в колл-центр, а также обеспечивает впечатляющие впечатления клиентов. Дез проделал большую работу, суммировав некоторые варианты использования. Вы можете посмотреть на этот график в течение нескольких минут. Я классифицировал его как вертикальные, горизонтальные и комбо-зоны, IoT, мобильное приложение и колл-центр. Все они вертикали и горизонтали. Это зависит от того, как вы на это смотрите. В итоге мы видим множество горизонтальных применений, которые довольно распространены в отраслевых вертикалях, и есть конкретные случаи использования, включая финансовые услуги, здравоохранение, телекоммуникации, производство и т. Д. Если вы действительно задаете себе вопрос или говорите себе что, «о, я не знаю, какие есть варианты использования. Я не уверен, есть ли какая-то ценность для бизнеса в потоковой аналитике для моей компании или для нашего предприятия », - подумайте, подумайте дважды. Поговорите с большим количеством людей, потому что есть случаи, которые в вашей компании актуальны сегодня. Я расскажу о ценности бизнеса, как именно она определяется.

Здесь, в нижней части пирамиды, у вас есть интеллектуальное обслуживание, безопасность, защита от оттока и т. Д. Такие варианты использования представляют собой защиту доходов и активов. Если Target защитит свои нарушения безопасности, которые произошли в течение нескольких часов и недель, ИТ-директор мог бы сохранить свою работу. Это может сэкономить десятки или сотни миллионов долларов и т. Д. Потоковая аналитика в реальном времени действительно помогает защитить эти активы и защитить убытки. Это прямая добавленная стоимость бизнеса прямо там.

Следующая категория становится более прибыльной, снижая ваши затраты и получая больше доходов от текущей деятельности. Это эффективность нынешнего предприятия. Это все категории использования, которые мы называем оперативной аналитикой в ​​реальном времени, когда вы получаете глубокое понимание того, как ведет себя сеть, как ведут себя операции с вашими клиентами, как ведут себя ваши бизнес-процессы, и вы можете настроить все это в режиме реального времени, потому что вы получаете обратную связь, вы получаете оповещения. Вы получаете отклонения, отклонения в режиме реального времени, и вы можете быстро действовать и отделять процесс, который выходит за пределы.

Вы также можете сэкономить много денег на дорогостоящих капитальных модернизациях и вещах, которые, по вашему мнению, необходимы, которые могут не понадобиться, если вы оптимизировали сетевой сервис. Мы слышали о случае, когда крупная телекоммуникационная компания отложила модернизацию своей сетевой инфраструктуры на 40 миллионов долларов, поскольку обнаружила, что у них достаточно ресурсов для управления текущим трафиком, то есть путем оптимизации и более эффективной интеллектуальной маршрутизации своего трафика и тому подобных вещей. Все это возможно только с некоторой аналитикой в ​​реальном времени и механизмом действия, который воздействует на эти идеи в реальном времени.

Следующий уровень добавленной стоимости - это распродажа, перекрестная продажа, где есть возможность получить больше доходов и прибыли от текущих предложений. Это классический пример, который многие из нас знают о том, что они пережили, когда вы думаете о своей жизни, когда вы действительно хотите купить продукт, который вам не предлагается. Во многих случаях это действительно происходит. В вашем уме есть вещи, которые вы хотели бы купить, которые, как вы знаете, хотите купить, что у вас есть список дел или что-то такое, что вам сказала ваша жена, или если у вас нет жены, но вы действительно хотели купить и вы ходите по магазинам на веб-сайте или взаимодействуете в розничном магазине, у витрины просто нет контекста, нет интеллекта для вычисления того, что вам может понадобиться. Следовательно, они не получают свой бизнес в безопасности. Если потоковую аналитику можно было бы развернуть, чтобы действительно делать точные прогнозы, и которые действительно возможны в отношении того, что больше всего подходит для данного конкретного контекста, у этого клиента в это время в этом месте есть много ап-продаж и кросс-продаж, и это опять-таки исходит от потоковая аналитика - возможность принять решение о том, что этот клиент, скорее всего, купит или отреагирует в тот момент истины, когда есть такая возможность. Вот почему мне нравится эта картина, которую Дез показал с медведем, собирающимся съесть эту рыбу. Вот и все.

Мы также считаем, что существует большая категория существенных трансформационных изменений на предприятии, предлагающих совершенно новые продукты и услуги, просто основанные на наблюдении за поведением клиентов, и все они основаны на наблюдении за поведением другого предприятия. Если, скажем, телекоммуникационная компания или кабельная компания действительно наблюдают за моделями использования клиентов в том сегменте рынка, который он просматривает, какую программу, в какое время и т. Д., То они фактически заканчивают тем, что создают продукты и услуги, о которых почти ничего не говорят. в некотором роде. Таким образом, вся концепция мультиэкранного поведения прямо сейчас, когда мы почти принимаем это как должное, заключается в том, что мы можем видеть телевизионный или кабельный контент в наших мобильных приложениях. Некоторые из этих примеров взяты из тех новых продуктов и услуг, которые предлагаются нам.

Я расскажу: «Каковы архитектурные аспекты потоковой аналитики?» В конечном итоге это то, что мы пытаемся сделать. Это архитектура Lambda, в которой вы смешиваете исторические данные и данные в реальном времени и видите их одновременно. Это то, что позволяет Сигма. У всех нас есть пакетная архитектура и корпоративная картина сегодня. Мы подбираем некоторый вид стека BI и стека использования и добавляем архитектуру Lambda. Как слой скорости, или необходимость, так и лямбда - это все, что объединяет эти две идеи и объединяет их в богатой форме, которая объединяет обе идеи.

Предлагается другая парадигма, называемая архитектурой Каппа, в которой предполагается, что скоростной слой является единственным механизмом ввода, который будет сохраняться в долгосрочной перспективе. Все будет проходить через этот слой скорости. Там даже не будет автономного механизма ETL. Все ETL произойдет. Очистка, очистка данных, качество ETL - все это будет происходить по проводам, поскольку имейте в виду, что все данные были получены в режиме реального времени. В какой-то момент это было в реальном времени. Мы настолько привыкли ставить это на озерах, реках и океанах, а затем делать это на статическом анализе, что мы забыли, что данные были получены в определенный момент в реальном времени. Все данные на самом деле рождаются как события в реальном времени, которые произошли в определенный момент времени, и большая часть данных сегодня на озере была просто помещена в базу данных для последующего анализа, и теперь у нас есть преимущество в архитектуре Lambda и Kappa по видеть его, анализировать, предварительно обрабатывать и реагировать на него по мере его поступления. Это то, что обеспечивается этими технологиями. Когда вы смотрите на это как на общую картину, это выглядит примерно так: внутри Hadoop, MPP и хранилища данных, которые у вас уже есть.

Мы поднимаем это, потому что важно не просто говорить о новых технологиях на острове. Они должны интегрироваться. Они должны иметь смысл в текущем корпоративном контексте, и как поставщики решений, которые обслуживают предприятия, мы очень чувствительны к этому. Мы помогаем предприятиям интегрировать все это. С левой стороны расположены источники данных, которые подаются как на уровни Hadoop, так и на уровни хранилища данных, а также на уровень в реальном времени сверху, и каждый из этих объектов, как вы можете видеть, представляют собой стандартные компьютеры, а уровень потребления данных находится справа. боковая сторона. Прилагаются постоянные усилия для того, чтобы перенести большую часть соответствия, управления, безопасности, управления жизненным циклом и т. Д., Которые доступны сегодня, - все они накоплены в этой новой технологии.

Одна из вещей, которую пытается сделать потоковая аналитика, если вы посмотрите на ландшафт сегодня, в области потоковых технологий происходит много вещей, и с точки зрения корпоративных клиентов есть так много, что нужно понять. Есть так много, чтобы не отставать. С левой стороны расположены механизмы сбора данных - NiFi, Logstash, Flume, Sqoop. Очевидно, я поднял заявление об отказе от ответственности, сказав, что оно не является исчерпывающим. Вход в очереди сообщений, а затем в потоковые движки с открытым исходным кодом - Storm, Spark Streaming, Samza, Flink, Apex, Heron. Heron, вероятно, еще не с открытым исходным кодом. Я не уверен, если это из Твиттера. Затем эти потоковые механизмы приводят или поддерживают аналитический прикладной компонент настройки, такой как сложная обработка событий, машинное обучение, прогнозная аналитика, модуль оповещения, потоковый ETL, фильтры статистических операций по обогащению. Это все, что мы называем сейчас операторами. Набор этих операторов, если они связаны друг с другом, потенциально может также привести к выводу, что в некоторых случаях пользовательский интерфейс, в значительной степени завершенный, становится потоковым приложением, работающим на потоковом движке.

В рамках этой цепочки компонентов вам также необходимо хранить и индексировать данные в вашей любимой базе данных, вашем любимом индексе. Возможно, вам также придется распределить кеш и снова, что приведет к уровню визуализации данных с правой стороны в верхней части для коммерческих продуктов или продуктов с открытым исходным кодом, но в конечном итоге вам понадобится какой-то продукт для визуализации этих данных в режиме реального времени. Кроме того, вам иногда нужно изобразить другие приложения. Мы все видели, что значения получаются только из действия, которое вы выполняете, чтобы понять, что это действие будет триггером из аналитического стека в другой стек приложений, который может быть изменен, что-то на стороне IVR, или вызовет колл-центр исходящий звонок или что-то в этом роде. Нам необходимо интегрировать эти системы и какой-то механизм для вашего потокового кластера, чтобы запускать другие приложения для отправки данных в нисходящем направлении.

Это общий стек, идущий слева направо. Затем у вас есть сервисные уровни, средний мониторинг, общий уровень безопасности и т. Д. В связи с тем, какие продукты в корпоративном пространстве присутствуют у клиентов, такие как дистрибутивы Hadoop, у всех есть потоковая передача, как я сказал, и есть коммерческая или единичная. -вендоры решений, которые явно есть у наших конкурентов. В ландшафте есть и много других, которые мы, возможно, здесь не упомянули.

То, что вы видите там, широко видят корпоративные пользователи. Как видите, сложный и быстро развивающийся технологический ландшафт для обработки потоков. Мы получили возможность упростить выбор и удобство использования. Мы считаем, что предприятия действительно нуждаются в функциональной абстракции всего этого в едином, простом в использовании интерфейсе, объединяющем все эти технологии, который делает его действительно простым в использовании и не раскрывающем все движущиеся части. и проблемы деградации и проблемы производительности и проблемы обслуживания жизненного цикла для предприятия.

Функциональная абстракция одна. Вторая часть - потоковая абстракция движка. Потоковые движки и домены с открытым исходным кодом появляются каждые три, четыре или шесть месяцев. Шторм был долгое время. Самза подошла и теперь это Spark Streaming. Флинк поднимает голову, начинает привлекать внимание. Даже дорожная карта Spark Streaming создает потенциальную возможность использования другого механизма для чистой обработки событий, потому что они также понимают, что Spark был разработан для пакетной обработки, и они прокладывают путь в своем архитектурном видении и своей дорожной карте для того, чтобы потенциально иметь другую движок для обработки потоков в дополнение к текущему шаблону микропакета в Spark Streaming.

Это реальность, с которой вы должны бороться, что будет много эволюции. Вы действительно должны защитить себя от этого технологического потока. Потому что по умолчанию вам придется выбрать один, а затем жить с ним, что не является оптимальным. Если вы смотрите на это по-другому, вы боретесь между: «Хорошо, я должен купить проприетарную платформу, где нет блокировки, нет рычага с открытым исходным кодом, может быть очень высокая стоимость и ограниченность гибкость по сравнению со всеми этими стеками с открытым исходным кодом, где вы должны сделать это сами ». Опять же, как я уже сказал, это очень затратно и задерживает выход на рынок. Мы говорим о том, что StreamAnalytix является одним из примеров великолепной платформы, объединяющей корпоративный класс, надежного единого поставщика, поддерживаемых профессиональных услуг - все, что вам действительно нужно как предприятие, и мощь гибкости экосистемы с открытым исходным кодом. где единая платформа объединяет их - Ingest, CEP, аналитика, визуализация и все такое.

Это также делает очень, очень уникальную вещь, которая объединяет множество различных технологических движков под одним пользователем. Мы действительно думаем, что будущее за возможностью использования нескольких потоковых движков, потому что разные варианты использования действительно требуют разных потоковых архитектур. Как сказал Робин, существует целый спектр задержек. Если вы действительно говорите об уровне задержки в миллисекундах, десятках или даже сотнях миллисекунд, вам действительно нужен Storm в это время, пока не появится еще один столь же зрелый продукт для меньшего снисхождения или меньших временных рамок и задержек, возможно, через пару секунд, три, четыре, пять секунд, этот диапазон, затем вы можете использовать Spark Streaming. Потенциально, есть другие двигатели, которые могут сделать оба. В итоге, на крупном предприятии, будут случаи использования всех видов. Вы действительно хотите, чтобы доступ и общность имели несколько механизмов с одним пользовательским интерфейсом, и это то, что мы пытаемся построить в StreamAnalytix.

Просто быстрый взгляд на архитектуру. Мы собираемся немного доработать это, но по сути, есть несколько источников данных, поступающих с левой стороны - Kafka, RabbitMQ, Kinesis, ActiveMQ, все эти источники данных и очереди сообщений, поступающие на платформу потоковой обработки, где вы получаете возможность собрать приложение, в котором вы можете перетаскивать из операторов, таких как ETL, все то, о чем мы говорили. Внизу есть несколько двигателей. Прямо сейчас у нас есть Storm и Spark Streaming как единственная в отрасли и первая потоковая платформа корпоративного класса с поддержкой нескольких ядер. Это очень уникальная гибкость, которую мы предлагаем, помимо всей другой гибкости наличия панелей мониторинга в реальном времени. CET двигатель встроен. У нас есть бесшовная интеграция с индексами Hadoop и NoSQL, индексами Solr и Apache. Вы можете получить доступ к своей любимой базе данных независимо от того, что это такое, и создавать приложения очень быстро, быстро выходить на рынок и оставаться на будущее. Вот и вся наша мантра в StreamAnalytix.

На этом, я думаю, я завершу свои замечания. Не стесняйтесь обращаться к нам за дополнительными вопросами. Я хотел бы оставить слово открытым для вопросов и ответов и панельной дискуссии.

Ребекка, к тебе.

Ребекка Йозвиак: Отлично, хорошо. Огромное спасибо. Дез и Робин, у вас есть вопросы, прежде чем мы передадим их в аудиторию?

Робин Блур: У меня есть вопрос. Я надену наушники, чтобы вы меня слышали. Одна из интересных вещей, если вы любезно скажете мне об этом, многое из того, что я видел в пространстве с открытым исходным кодом, выглядит так, как я бы сказал, незрелым для меня. В некотором смысле, да, вы можете делать разные вещи. Но похоже, что мы смотрим на программное обеспечение в его первом или втором выпуске в реальности, и мне было просто интересно с вашим опытом как организации, насколько вы считаете незрелость среды Hadoop проблематичной или это то, что не ' не создает слишком много проблем?

Ананд Венугопал: Это реальность, Робин. Ты абсолютно прав. Незрелость не обязательно связана с просто функциональной стабильностью и прочим, но, возможно, в некоторых случаях это тоже. Но незрелость больше в готовности к использованию. Продукты с открытым исходным кодом по мере их появления и даже в том случае, когда они предлагаются дистрибутивом Hadoop, все они представляют собой множество различных способных продуктов, компонентов, просто соединенных вместе. Они не работают вместе без проблем и не предназначены для бесперебойной работы пользователей, которую мы, например, Bank of America, Verizon или AT & T, развернем в течение нескольких недель для развертывания приложения потоковой аналитики. Они не предназначены для этого точно. Это причина, по которой мы вступаем. Мы собираем их вместе и делаем их по-настоящему легкими для понимания, развертывания и т. Д.

Функциональная зрелость этого, я думаю, в значительной степени, есть. Сегодня многие крупные предприятия используют, например, Storm. Многие крупные предприятия сегодня играют с Spark Streaming. У каждого из этих двигателей есть свои ограничения в том, что они могут делать, поэтому важно знать, что вы можете и чего не можете делать с каждым двигателем, и нет смысла ломать голову о стену и говорить: «Смотри, я Я выбрал Spark Streaming, и он не работает для меня в этой конкретной отрасли ». Это не сработает. Будут случаи, когда Spark Streaming будет лучшим вариантом, и будут случаи, когда Spark Streaming может вообще не работать для вас. Вот почему вам действительно нужно несколько вариантов.

Робин Блур: Ну, для этого вам нужны экспертные команды. Я имею в виду, я даже не знаю, с чего начать. Разумное сотрудничество опытных людей. Мне интересно, как вы вовлекаетесь и как это происходит. Это потому, что какая-то конкретная компания преследует конкретную заявку или вы видите то, что я бы назвал стратегическим принятием, когда они хотят, чтобы целая платформа делала много вещей.

Ананд Венугопал: Мы видим примеры того и другого, Робин. Некоторые из десяти ведущих брендов, которые все знают, относятся к этому очень стратегически. Они знают, что у них будет множество вариантов использования, поэтому они оценивают платформы, которые удовлетворят эту потребность, то есть различные варианты использования мультитенантным образом, которые будут развернуты на предприятии. Есть также истории с одним вариантом использования, которые также начинаются. В ипотечной компании, над которой мы работаем, есть конкретный вариант использования типа мониторинга деловой активности, который вы не могли бы представить в качестве первого варианта использования, но это было бизнес-решение или вариант использования, которые они придумали, а затем мы подключили точки к потоковой передаче., Мы сказали: «Знаете что? Это отличный пример для потоковой аналитики, и именно так мы можем ее реализовать ». Вот как это начиналось. Затем, в этом процессе, они получают образование и говорят: «Ух ты, если мы можем сделать это, и если это общая платформа, то мы можем разделить приложение, разделить их на платформы и построить много различных приложений на этом Платформа."

Робин Блур: Дез, у тебя есть вопросы?

Ананд Венугопал: Дез, вероятно, отключен.

Дез Бланчфилд: Извинения, немой. Я только что имел хороший разговор сам. Просто следуя первоначальному наблюдению за Робином, вы абсолютно правы. Я думаю, что проблема сейчас заключается в том, что у предприятий есть экосистема и культурная и поведенческая среда, где бесплатное программное обеспечение с открытым исходным кодом - это то, что им известно, и они могут использовать такие инструменты, как Firefox в качестве браузера, и у него есть достойное время жизни, пока оно не станет стабильным и безопасным. Но некоторые из этих очень больших платформ, которые они используют, являются проприетарными платформами корпоративного уровня. Поэтому принятие того, что я считаю платформами с открытым исходным кодом, не всегда легко для них в культурном или эмоциональном плане. Я видел это только благодаря принятию небольших программ, которые были локальными проектами, которые просто играли с большими данными и аналитикой в ​​качестве фундаментальной концепции. Я думаю, что одна из ключевых проблем, я уверен, что вы видели их сейчас во всех организациях, это их желание добиться результата, но в то же время они застряли одной ногой в старой банке, где они могли бы просто купить это у «Вставить большой бренд» Oracle, IBM и Microsoft. Эти новые и известные бренды появляются на платформах Hadoop и даже больше. Появляются более интересные бренды, использующие передовые технологии, такие как stream.

Какого рода разговоры у вас были такого рода, чтобы получить или пройти через это? Я знаю, что сегодня утром у нас много посетителей, и я уверен, что у всех на уме одна мысль: «Как мне пробиться сквозь весь этот сложный слой от платы до уровня управления, о, это слишком открытый исходный код и слишком кровоточащий край? «Как идут ваши разговоры с клиентами и как вы переходите к тому моменту, когда вы как бы смягчаете страхи такого типа, чтобы подумать о принятии подобных StreamAnalytix?

Ананд Венугопал: На самом деле нам очень легко продавать наше ценностное предложение, потому что клиенты естественным образом переходят на открытый исходный код в качестве предпочтительного варианта. Им нелегко просто сдаться и сказать: «Хорошо, теперь я пойду с открытым исходным кодом». Они на самом деле проходят очень тщательную оценку основного продукта, скажем, IBM или типичного продукта, потому что у них есть эти отношения с поставщиками. Они не будут относиться к нам или движку с открытым исходным кодом против этого продукта. Они пройдут от шести до восьми до двенадцати недель оценки. Они убедят себя в том, что здесь нужна определенная производительность и стабильность, а затем решают сказать: «Ух ты, знаешь что, я действительно могу это сделать».

Например, сегодня у нас есть телекоммуникационная компания первого уровня, в которой потоковая аналитика запущена в производство поверх большого стека, и они оценивают ее по отношению к другому очень, очень крупному известному поставщику, и они были убеждены только после того, как мы доказали все производительность, стабильность и все эти вещи. Они не принимают это как должное. Они выяснили, что open source компетентен в своих оценках, и они понимают, что в худшем случае: «Возможно, есть два варианта использования, которые я, возможно, не смогу сделать, но большинство из моих сценариев использования ускорения бизнеса сегодня в высшей степени возможны с открытым исходным кодом стек ». И мы разрешаем его использование. Так что это большое сладкое пятно прямо там. Они хотели с открытым исходным кодом. Они действительно хотят выйти из ситуации, в которой они были привязаны к поставщикам, к которой они привыкли много-много лет. Затем мы приходим и говорим: «Знаете, мы сделаем открытый исходный код намного проще и удобнее в использовании».

Дез Бланчфилд: Я думаю, что другая проблема, с которой сталкиваются предприятия, заключается в том, что когда они привносят традиционную силу, они часто оказываются на пороге того, что мы обсуждаем здесь, и я не имею в виду это как Отрицательное незначительное. Просто реальность такова, что у них есть поколение и путь, чтобы пройти через то, что они считают стабильными платформами, циклы разработки и интеграции UATN, тестирование и документирование, а также маркетинг и продажи. Принимая во внимание тот тип, которым вы занимаетесь, я думаю, что мне интересно подумать о том, что, глядя на некоторые из ваших последних релизов прошлой ночью, проводя какую-то исследовательскую работу, вы получили этот микс сейчас, где вы получили компетентность с точки зрения первоначального консультирования и реализации, но у вас также есть стек, который вы можете развернуть. Я думаю, что именно здесь сотрудники будут бороться в течение некоторого времени. Мы видели многих из них, как я сделал на рынке. Они часто находятся в том, что я называю узлами догоняющего типа, тогда как из того, что вы нам рассказываете, когда вы там ведете эти разговоры, и вы там реализуете.

Можете ли вы дать нам несколько примеров некоторых вертикалей границ, которые вы видели усыновлением? Например, существует действительно нишевая среда, такая как ракетостроение и размещение спутников в космосе и сбор данных с Марса. Есть только горстка людей, делающих это на планете. Но есть такие большие вертикали, как, например, здравоохранение, в авиации, в судоходстве и логистике, в производстве и машиностроении. Вот несколько примеров более крупных и широких отраслей промышленности, в которых вы были настолько далеко, что вы видели действительно хорошие принятие в?

Ананд Венугопал: Telco - большой пример.

Я просто собираюсь быстро исправить мои слайды здесь. Можете ли вы увидеть слайд здесь, пример 4?

Это случай, когда большой оператор принимает данные телеприставки и выполняет с ней несколько задач. Они смотрят на то, что на самом деле делают клиенты в режиме реального времени. Они смотрят на то, где ошибки происходят в реальном времени в телевизионных приставках. Они пытаются проинформировать колл-центр о том, что, если этот клиент звонит прямо сейчас, информацию о кодовой ссылке из телеприставки этого клиента, информацию о билете на обслуживание быстро коррелируют, есть ли у данного конкретного телеприставки проблема или нет даже раньше клиент говорит слово. Каждая кабельная компания, каждая крупная телекоммуникационная компания пытается это сделать. Они принимают данные телеприставок, проводят аналитику в реальном времени, аналитику кампаний, чтобы они могли размещать свои объявления. Там огромный вариант использования.

Как я уже сказал, есть эта ипотечная компания, которая снова является общей моделью, в которой большие системы участвуют в обработке данных. Данные, которые проходят через систему A в систему B в систему C, и это регулируемые предприятия, и все должно быть согласованным. Часто системы не синхронизируются друг с другом, одна система говорит: «Я обрабатываю сто кредитов на общую сумму 10 миллионов долларов». Система говорит: «Нет, я обрабатываю 110 кредитов некоторых других другое число ». Они должны решить это очень быстро, потому что на самом деле они обрабатывают одни и те же данные и делают разные интерпретации.

Будь то кредитная карта, обработка ссуды, бизнес-процесс или бизнес-процесс ипотеки, или что-то еще, мы помогаем им выполнять сопоставление и сверку в реальном времени, чтобы обеспечить синхронизацию этих бизнес-процессов. Это еще один интересный пример использования. Существует один крупный правительственный подрядчик США, который просматривает DNS-трафик для обнаружения аномалий. Они создали автономную модель обучения, и они оценивают ее на основе трафика в реальном времени. Некоторые из этих интересных вариантов использования. Существует крупная авиакомпания, которая следит за очередями безопасности, и они пытаются предоставить вам такую ​​информацию: «Эй, это ваши ворота для вашего самолета для вашего полета. Сегодня очередь TSA составляет около 45 минут, а не два часа, а что-то еще ». Вы получаете это обновление заранее. Они все еще работают над этим. Интересный пример использования IoT, но отличный пример потоковой аналитики, направленной на взаимодействие с клиентами.

Ребекка Йозвиак: Это Ребекка. В то время, как вы обсуждаете варианты использования, один из участников аудитории задается вопросом: «Являются ли эти примеры из практики, эти инициативы основаны на аналитической стороне информационной системы или они в большей степени ориентированы на бизнес, который имеет конкретные вопросы или потребности? »

Ананд Венугопал: Я думаю, что мы видим около 60 процентов, от 50 до 55 процентов, в основном очень инициативных, увлеченных технологическими инициативами, которые знают, которые достаточно опытны и понимают определенные бизнес-требования, и у них, вероятно, есть один спонсор, которого они Выявленные, но это технологические группы, готовящиеся к натиску бизнес-прецедентов, и затем, когда они создают возможности, они знают, что могут это сделать, и затем они идут в бизнес и настойчиво продают это. В 30-40% случаев мы видим, что в бизнесе уже есть конкретный пример использования, который требует возможности потоковой аналитики.

Ребекка Йозвиак: Это имеет смысл. У меня есть еще один более технический вопрос от члена аудитории. Он интересуется, поддерживают ли эти системы как структурированные, так и неструктурированные потоки данных, такие как отложения потоков Twitter или постов Facebook в режиме реального времени, или это необходимо предварительно отфильтровать?

Ананд Венугопал: Продукты и технологии, о которых мы говорим, очень скоро поддерживают как структурированные, так и неструктурированные данные. Они могут быть настроены. Все данные имеют какую-то структуру, будь то текст, XML или что-то вообще. Существует некоторая структура с точки зрения подачи метки времени. Может быть, есть еще один большой двоичный объект, который нужно проанализировать, чтобы вы могли вставить анализ в поток для анализа структур данных. Если он структурирован, то мы просто сообщаем системе: «Хорошо, если есть значения, разделенные запятыми, и первое - это строка, второе - это дата». Таким образом, мы можем внедрить этот анализ при разборе в верхние слои экрана и легко обрабатывать как структурированные, так и неструктурированные данные.

Ребекка Йозвиак: У меня есть еще один вопрос из зала. Я знаю, что мы пробежали немного больше часа. Этот участник хочет знать, кажется, что потоковые приложения в реальном времени могут развить как потребность, так и возможность для интеграции обратно в транзакционные системы, например системы предотвращения мошенничества, которые они используют. В таком случае, нужно ли настраивать транзакционные системы, чтобы они соответствовали этому?

Ананд Венугопал: Это слияние, верно? Это слияние транзакционных систем. Иногда они становятся источником данных, где мы анализируем транзакции в режиме реального времени, а во многих случаях, например, когда есть поток приложений, и здесь я пытаюсь показать сайт поиска статических данных, а затем в нашем случае, когда происходит потоковая передача данных. и вы ищите статическую базу данных, такую ​​как HBase или RDBMS, чтобы объединить потоковые данные и статические данные вместе, чтобы принять решение или аналитическую информацию.

Есть еще одна крупная отраслевая тенденция, которую мы также наблюдаем - конвергенция OLAP и OLTP - и поэтому у вас есть базы данных, такие как Kudu, и базы данных в памяти, поддерживающие как транзакции, так и аналитическую обработку одновременно. Слой потоковой обработки будет полностью в памяти, и мы будем рассматривать или взаимодействовать с некоторыми из этих транзакционных баз данных.

Ребекка Йозвиак: Смешанная нагрузка была одним из последних препятствий для прыжка, я думаю. Дез, Робин, у вас есть еще вопросы?

Дез Бланчфилд: Я собираюсь перейти к последнему вопросу и подвести итог, если вы не возражаете. Первая проблема, с которой организации, с которыми я сталкивался в течение последнего десятилетия или около того, привела к этой захватывающей задаче потоковой аналитики, первое, что они склонны ставить на стол, когда мы начинали разговор вокруг этой всей проблемы, - это где мы получили набор навыков? Как мы переобучим набор навыков и как мы получим эту способность внутренне? Наличие Импульса, входящего и поддерживающего нас, проведет нас через путешествие, а затем осуществит как отличный первый шаг, и в этом есть большой смысл делать это.

Но для средних и крупных организаций, какие вещи вы видите в данный момент, чтобы подготовиться к этому, создать эту способность внутренне, получить что-нибудь из простого словарного запаса и какие сообщения они могут сделать с этим? организация, занимающаяся переходом к такого рода инфраструктуре и переоборудованием своего существующего технического персонала из ИТ-отдела из генерального директора, чтобы они могли сами управлять этим, как только вы создадите и внедрите его? Просто очень кратко, какие проблемы и как они решают, клиенты, с которыми вы сталкиваетесь, типы проблем, которые они обнаружили, и как они проходят, решая эту переподготовку и возвращая опыт и знания, чтобы подготовиться к этому и быть способен обойти оперативно?

Ананд Венугопал: Часто небольшая группа людей, которые пытаются выйти и купить платформу потоковой аналитики, уже достаточно умны в том, что они осведомлены о Hadoop, они уже приобрели свои навыки в Hadoop MapReduce и потому, что они тесно сотрудничают с Hadoop. Поставщик дистрибуции, они либо знакомы. Например, все получает Кафка. Они что-то делают с этим, и потоковая передача Storm или Spark находится в их области с открытым исходным кодом. Определенно, люди знакомы с этим или строят навыки вокруг него. Но это начинается с небольшой группы людей, которые достаточно опытны и достаточно умны. Они посещают конференции. Они учатся и задают интеллектуальные вопросы продавцам, а в некоторых случаях они учатся у продавцов. Поскольку поставщики приходят и представляют на первом собрании, они, возможно, не знают ничего, но они совместно читают, а затем начинают играть с ним.

Эта небольшая группа людей является ядром, и затем она начинает расти, и теперь все понимают, что первый бизнес-сценарий используется. Начинается волна, и на прошлой неделе на саммите Spark мы увидели, что такое крупное предприятие, как Capital One, было в полном составе. Они выбирали Спарк. Они говорили об этом. Они обучают много своих людей в Spark, потому что они вносят свой вклад в это также во многих случаях как пользователь. То же самое мы видим на многих крупных предприятиях. Это начинается с нескольких небольших очень умных людей, а затем начинается волна общего образования, и люди знают, что однажды старший вице-президент или старший директор согласны, и они хотят сделать ставку на это, и слово приходит в себя и все они начинают приобретать эти навыки.

Дез Бланчфилд: Я уверен, что вы отлично провели время, создавая этих чемпионов тоже.

Ананд Венугопал: Да. Мы много обучаемся, работая с первыми чемпионами, и проводим обучающие курсы, и многие, многие для наших крупных клиентов, мы вернулись назад и провели много тренингов, чтобы привлечь многих пользователей к основной фазе использования, особенно на сайте Hadoop MapReduce. Мы обнаружили, что в крупной компании, выпускающей кредитные карты, которая является нашим клиентом, мы разработали по меньшей мере от пяти до восьми различных учебных программ. У нас также есть бесплатные общественные выпуски всех этих продуктов, включая наши, песочницы, которые люди могут загружать, привыкать и обучать себя таким же образом.

Дез Бланчфилд: Это все, что у меня есть для тебя сегодня утром. Большое спасибо. Я нахожу невероятно интересным видеть типы моделей и варианты использования, которые вы получили для нас сегодня. Спасибо.

Ананд Венугопал: Отлично. Спасибо большое, ребята.

Ребекка Йозвиак: Спасибо всем, кто присоединился к нам в этой веб-трансляции Hot Technologies. Было восхитительно слышать от Деза Бланчфилда, доктора Робина Блура и от Impetus Technologies, Ананда Венугопала. Спасибо, докладчики. Спасибо ораторам и аудитории. В следующем месяце у нас есть еще одна «Горячая технология», так что ищите. Вы всегда можете найти наш контент в архиве на Insideanalysis.com. Мы также разместили много контента на SlideShare и некоторые интересные фрагменты на YouTube.

Это все, ребята. Еще раз спасибо и хорошего дня. Пока-пока.

Использование пожарного рукава: получение бизнес-ценности от потоковой аналитики: расшифровка стенограммы вебинара