Дом Базы данных Сила внушения: как каталог данных расширяет возможности аналитиков

Сила внушения: как каталог данных расширяет возможности аналитиков

Anonim

Персоналом Техопедии, 22 июня 2016 г.

Вывод: ведущий Rebecca Jozwiak обсуждает преимущества каталогов данных с Dez Blanchfield, Robin Bloor и David Crawford.

Вы должны зарегистрироваться для этого события, чтобы просмотреть видео. Зарегистрируйтесь, чтобы посмотреть видео.

Ребекка Йозвиак: Дамы и господа, привет и добро пожаловать в Hot Technologies 2016 года. Сегодня у нас есть «Сила предложений: как каталог данных расширяет возможности аналитиков». Я ваш ведущий Ребекка Йозвиак, заменяющая нашего обычного ведущего Эрика Кавана сегодня, пока он путешествует по миру, так что спасибо, что присоединились к нам. В этом году жарко, не только в Техасе, где я нахожусь, но и жарко повсюду. Там взрыв всех видов новых технологий выходит. У нас есть IoT, потоковая передача данных, внедрение в облаке, Hadoop продолжает развиваться и быть принятым. У нас есть автоматизация, машинное обучение, и все это, конечно, подчеркивается данными. И предприятия становятся все более и более управляемыми данными с каждым днем. И, конечно же, смысл в том, чтобы привести к знаниям, открытиям и, как вы знаете, принимать лучшие решения. Но чтобы действительно извлечь максимальную пользу из данных, к нему легко добраться. Если вы держите его запертым, или похороненным, или в мозгу нескольких людей на предприятии, это не принесет пользы для предприятия в целом.

И я как бы думал о каталогизации данных и думал о библиотеках, куда давно вы пошли, если вам нужно было что-то выяснить, если вам нужно изучить тему или найти какую-то информацию, вы пошли в библиотеку. и, конечно, вы пошли в карточный каталог или кудрявую леди, которая там работала. Но было также забавно гулять, если вы просто хотите посмотреть, и, конечно, вы можете просто обнаружить что-то изящное, вы можете узнать некоторые интересные факты, которые вы не знали, но если вам действительно нужно что-то выяснить и вы знали, что искали, вам был нужен карточный каталог, и, конечно же, корпоративный эквивалент - это каталог данных, который может помочь нашим пользователям пролить свет на все данные, чтобы обогащать, открывать, делиться, потреблять и действительно помогать люди получают данные быстрее и проще.

Итак, сегодня у нас есть Dez Blanchfield, наш собственный специалист по данным, и у нас есть доктор Робин Блур, наш собственный главный аналитик, у нас есть Дэвид Кроуфорд из Alation, который расскажет об истории каталогизации данных своей компании, но сначала мы собираемся увести с Дез. Дез, я передаю тебе мяч, и слово твое.

Дез Бланчфилд: Спасибо, спасибо, что приняли меня сегодня. Это вопрос, который меня чрезвычайно интересует, потому что почти в каждой организации, с которой я сталкиваюсь в своей повседневной работе, я нахожу точно такую ​​же проблему, о которой мы очень кратко говорили в подшучивании перед шоу, и это то, что большинство организаций, которые работают в бизнесе более нескольких лет, имеют множество данных, скрытых в организации, разных форматов, и на самом деле у меня есть клиенты, у которых есть наборы данных, которые возвращаются в Lotus Notes, базы данных, которые все еще работают в некоторых как псевдоинтернеты, и все они сталкиваются с этой проблемой: найти, где находятся их данные и как получить к ним доступ, кому предоставить доступ к ним, когда предоставить к ним доступ и как просто каталог, и как получить его в месте, где каждый может: A) знать, что там и что в нем, и B), как получить к нему доступ и использовать его. И одна из самых больших проблем, конечно, это найти, другая большая проблема - узнать, что там и как получить к нему доступ.

Я, возможно, хорошо знаю, что у меня есть десятки баз данных, но я не знаю, что там и как узнать, что там, и так неизменно, как мы сейчас обнаруживаем в данных до шоу, вы склонны ходить по офису и задавать вопросы, кричать через кубические стены и пытаться выяснить, часто мой опыт таков, что вы даже можете обнаружить, что вы бродите к стойке регистрации, стойке регистрации и спрашиваете, знает ли кто-нибудь, кто ты пойдешь поговорить. Довольно часто это не всегда ИТ-специалисты, потому что они не знают о наборе данных, потому что кто-то только что создал его, и это может быть что-то простое, как … довольно часто мы находим какой-то проект, который стоит в ИТ-среде и менеджер проекта использовал электронную таблицу всех вещей, и он получил огромное количество ценной информации об активах, контексте и именах, и если вы не знаете этот проект и не знаете этого человека, вы просто не сможете найти эту информацию. Это просто недоступно, и вам нужно достать этот оригинальный файл.

В отношении данных есть какая-то фраза, и я не обязательно с ней согласен, но я думаю, что это немного мило, и это то, что определенное количество людей считает, что данные - это новая нефть, и я конечно, мы расскажем об этом в некотором аспекте позже сегодня. Но что я заметил, безусловно, являясь частью этой трансформации, так это то, что организации предприятий, которые научились ценить свои данные, получили значительное преимущество перед своими конкурентами.

Примерно пять или шесть лет назад IBM опубликовала интересную статью, в которой они опросили около 4000 компаний в Австралии, и они взяли всю информацию, все данные о производительности, все финансовые данные и собрали ее в кипящий котел, а затем отправили его в Австралийскую школу экономики, и они фактически начали здесь общую тенденцию, и это было то, что компании, которые использовали технологии, неизменно получали такое конкурентное преимущество по сравнению со своими сверстниками и конкурентами как таковое, что их конкуренты почти никогда не догоняли, и я думаю, это в значительной степени относится и к данным, которые мы видели, что люди называют цифровым преобразованием, когда организации, которые четко выяснили, как найти данные, которые они получили, сделать эти данные доступными и сделать их доступными в некоторых очень легко потребляемых мода на организацию, не обязательно всегда зная, почему организация может нуждаться в этом, и получить значительное преимущество перед конкурентами.

У меня есть пара примеров на этом слайде, которые вы можете увидеть. Моя единственная линия заключается в том, что крупномасштабные сбои практически во всех секторах промышленности, на мой взгляд, обусловлены данными, и, если текущие тенденции будут чем-то соответствовать, мое мнение таково, что мы на самом деле только что получили началось потому, что когда давние бренды наконец осознают, что это значит, и войдут в игру, они начнут играть в игру оптом. Когда крупные розничные продавцы, у которых есть масса данных, начнут применять некоторый исторический анализ данных, если они даже знают, что они существуют, то некоторым онлайн-игрокам придется получить сигнал пробуждения.

Но со многими из этих брендов я имею в виду Uber, который является крупнейшей компанией такси в мире. У них нет такси, так что же делает их волшебными, каковы их данные? Airbnb, крупнейший провайдер услуг размещения, у нас есть WeChat, крупнейшая телефонная компания в мире, но у них нет ни реальной инфраструктуры, ни телефонов, ни телефонных линий. Alibaba, крупнейший розничный продавец на планете, но у них нет ни одного инвентаря. Facebook, крупнейшая медиакомпания в мире. Я думаю, по последним подсчетам у них сейчас 1, 4 миллиарда активных пользователей данных, что является ошеломляющим числом. Это не где-то рядом - я думаю, что кто-то утверждал, что четверть планеты фактически находится там каждый день, и все же вот поставщик контента, который фактически не создает контент, все данные, которые они обслуживают, не создаются ими, они создаются их подписчиками, и мы все знаем эту модель.

SocietyOne, о котором вы, возможно, и не слышали, это местный бренд, я думаю, что в нескольких странах это банк, который фактически предоставляет одноранговое кредитование, поэтому, другими словами, у него нет денег. Все, что он делает, это управляет транзакциями, а данные находятся под ним. Netflix, мы все очень, очень знакомы с этим. Здесь интересный однострочник. Когда Netflix юридически можно было использовать в Австралии, когда он был официально объявлен, вам не нужно было использовать VPN для доступа к нему, многие люди по всему миру склонны - если вы не можете получить к нему доступ в своем регионе - когда Netfix был запущен в Австралии, он увеличил пропускную способность международного трафика на наших интернет-каналах на 40 процентов, так что он почти удвоил использование Интернета в Австралии за одну ночь - всего лишь одно приложение - одно приложение, размещенное в облаке, которое не выполняет ничего, кроме воспроизведения данных. Это просто ошеломляющая статистика.

И, конечно, мы все знакомы с Apple и Google, но это крупнейшие софтверные компании на планете, но они на самом деле не пишут приложения. Что согласованно со всеми этими организациями? Ну, это данные, и они туда не попали, потому что не знали, где их данные, и не знали, как их каталогизировать.

Теперь мы обнаруживаем, что существует целый новый класс активов, называемый данными, и компании начинают осознавать это. Но у них не всегда есть инструменты и ноу-хау и, следовательно, для сопоставления всех этих данных, для каталогизации всех этих данных и их доступности, но мы обнаружили, что компании, практически не имеющие физических активов, приобрели высокую рыночную стоимость в время записи через этот новый класс активов данных. Как я уже сказал, некоторые из старых игроков сейчас осознают это и, конечно же, выдают это.

Я большой поклонник того, чтобы брать людей в маленькое путешествие, поэтому в восемнадцати сотнях, в конце восемнадцати сотен, и вы будете более чем знакомы с этим на американском рынке, оказалось, что провести перепись каждый год или около того, я думаю, что они запускали их каждые десять лет в тот момент, но если вы собираетесь проводить перепись каждый год, вам может потребоваться до восьми или девяти лет, чтобы действительно провести анализ данных. Оказалось, что этот набор данных затем оставляли в коробках в местах на бумаге, и почти никто не мог его найти. Они просто продолжали выкачивать эти отчеты, но к фактическим данным было очень трудно добраться, у нас похожая ситуация с другим значимым для мира моментом, примерно в 1940-х годах, со Второй мировой войной, и это BomchE Bombe, написанное Bletchley Park. и это был огромный аналитический инструмент, позволяющий обрабатывать небольшие наборы данных, находить в нем сигналы и помогать взламывать коды в Enigma.

Опять же, эта штука была, по сути, устройством, разработанным не столько для каталогизации, сколько для маркировки и отображения данных, и позволяло брать шаблоны и находить их в наборах данных, в этом случае разбивать коды, находить ключи и фразы и находить их регулярно в наборах данных, и поэтому мы прошли этот путь поиска вещей в данных и привели к каталогизации данных.

А потом пришли эти вещи, эти массивные недорогие стойки машин, просто готовые машины. И мы сделали несколько очень интересных вещей, и одна из вещей, которые мы сделали с ними, - мы создали очень дешевые кластеры, которые могли бы начать индексирование планеты, и очень известные эти крупные бренды, которые приходили и уходили, но, вероятно, Google - самый распространенный дом бренд, о котором мы все слышали - он стал настоящим глаголом, и вы знаете, что добились успеха, когда ваш бренд стал глаголом. Но Google научил нас, даже не осознавая этого, возможно, в деловом мире, что они смогли проиндексировать всю планету до определенного уровня, каталогизировать данные, которые были по всему миру, и сделать их доступными очень легко, удобная форма в маленькой крошечной однострочной формуле, веб-страница, на которой почти ничего нет, и вы набираете запрос, он идет и находит его, потому что они уже просканировали планету, проиндексировали ее и сделали ее легко доступной.

И мы заметили: «Ну, подожди, мы не занимаемся этим в организациях - почему это так? Почему у нас есть организация, которая может картировать всю планету и индексировать ее, сканировать и индексировать ее, и делать ее доступной, мы можем искать ее, а затем нажимать на вещь, чтобы пойти и найти ее, почему мы не сделали этого внутренне? »Итак, сейчас в мире существует множество таких маленьких стоек с машинами, которые делают это для интрасетей и находят что-то, но они все еще просто вступают в борьбу с идеей выйти за рамки традиционной сети. страница или файловый сервер.

Вместо того, чтобы теперь входить в этот каталог данных следующего поколения во многих отношениях, обнаружение доступа к данным с помощью заметок и разговоров с водяным кулером на самом деле больше не является подходящим методом для обнаружения и каталогизации данных, и на самом деле, я не думаю, что это когда-либо действительно был. Мы больше не можем вести весь этот вызов людям, просто передавая заметки, публикуя заметки и болтая об этом. Теперь мы находимся далеко за пределами области, в которой этот новый подход к каталогизации данных пришел и ушел. Мы должны обнять это. Если бы это была простая проблема, мы бы уже решили ее многими способами раньше, но я думаю, что это не простая проблема, просто индексация и вызов данных - это только одна часть, зная, что находится в данных, и построение метаданных вокруг того, что мы обнаруживаем, и затем предоставление их в легкой, удобной форме, особенно для самообслуживания и аналитики. Это все еще решаемая проблема, но многие части головоломки за пять лет хорошо и действительно решены и доступны.

Как мы знаем, каталогизация данных о людях - это путь к неудаче, потому что человеческая ошибка - один из величайших кошмаров, с которыми мы сталкиваемся при обработке данных, и я регулярно говорю об этой теме, где, на мой взгляд, люди, заполняющие бумажные формы, являются, вероятно, самым большим кошмаром Мы имеем дело с большими данными и аналитикой, с постоянной необходимостью исправлять то, что они делают, даже вплоть до простых вещей, таких как даты и поля, люди ставят их в неправильном формате.

Но, как я уже сказал, мы видели, что интернет-поисковики индексируют мир каждый день, поэтому теперь мы приходим к мысли, что это можно сделать с наборами бизнес-данных в процессе обнаружения, а инструменты и системы сейчас легко доступны, поскольку вы собираетесь учиться сегодня. Так что, на мой взгляд, хитрость заключается в выборе правильных инструментов, лучших инструментов для работы. И, что еще более уместно, найти правильную часть, чтобы помочь вам начать этот путь. И я полагаю, что мы услышим об этом сегодня, но прежде чем мы это сделаем, я перейду в мой колледж, Робин Блур, и услышу его мнение по этой теме. Робин, я могу перейти к тебе?

Робин Блур: Да, конечно, вы можете. Давайте посмотрим, работает ли это, о да, это работает. Ладно, я иду с другого направления, чем Дез, но я окажусь в том же месте. Речь идет о подключении к данным, поэтому я просто решил пройтись по реальности подключения к данным, точка за точкой.

Есть факт, что данные более фрагментированы, чем когда-либо. Объем данных растет феноменально, но на самом деле различные источники данных также растут с невероятной скоростью, и, следовательно, данные все более фрагментируются. Но, в частности, из-за аналитических приложений - но это не единственные приложения - у нас есть действительно веские основания для подключения ко всем этим данным, поэтому мы застряли в трудном месте, мы застряли в мире фрагментированных данных, и в данных есть возможность, как называл это Дез, новое масло.

Что касается данных, то раньше они жили на вращающемся диске, либо в файловых системах, либо в базах данных. Теперь он живет в гораздо более разнообразной среде, он живет в файловых системах, но в настоящее время он также живет в экземплярах Hadoop или даже в экземплярах Spark. Он живет в нескольких видах баз данных. Не так давно мы как-то стандартизировали некоторую реляционную базу данных, и вы знаете, что она вышла за рамки последних пяти лет, потому что есть потребность в базах данных документов, и есть необходимость в графических базах данных, так что вы знаете, что игра имеет изменилось. Так что он жил на вращающемся диске, но теперь он живет на SSD. Последнее количество SSD - определенно новейшее устройство SSD выходит от Samsung - двадцать гигабайт, что огромно. Теперь он живет в памяти, в том смысле, что основная копия данных может находиться в памяти, а не на диске, которую мы не использовали для создания подобных систем; мы делаем сейчас. И он живет в облаке. Это означает, что он может жить в любой из этих вещей, в облаке, вы не обязательно будете знать, где он находится в облаке, у вас будет только его адрес.

До сих пор Hadoop потерпел неудачу в качестве расширяемого хранилища данных. Мы надеялись, что он станет расширяемым хранилищем масштабируемых данных, и он просто станет единой файловой системой для всего, и это произойдет - в основном, на небе появятся радуги, и вокруг будут танцевать единороги, и ничего из этого не произошло. Это означает, что мы сталкиваемся с проблемой передачи данных, и время от времени нет необходимости в передаче данных, но это также является трудностью. В настоящее время данные действительно имеют гравитацию, когда вы попадаете в мульти-терабайты данных, подбираете их и разбрасываете их, что приводит к появлению задержек в вашей сети или появлению в разных местах. Если вы хотите передавать данные, время является фактором. В настоящее время почти всегда существуют ограничения на то, сколько у вас есть времени, чтобы получить одну вещь, одни данные из одного места в другое. Раньше было то, что мы привыкли считать пакетными окнами, когда машина находилась в режиме ожидания, и независимо от того, сколько у вас было данных, вы могли просто выбросить их, и все получилось. Ну вот и все, мы живем в гораздо более реальном мире. Поэтому время является фактором. Как только вы захотите переместить данные, поэтому, если данные имеют гравитацию, вы, вероятно, не сможете их переместить.

Управление данными является фактором в том смысле, что у вас фактически есть возможность управлять всеми этими данными, вы не получаете это бесплатно, и репликация может потребоваться для того, чтобы на самом деле получить данные для выполнения работы, которая им необходима, потому что это может быть не там, где вы его положили. Возможно, у него недостаточно ресурсов для нормальной обработки данных. Таким образом, данные реплицируются, а данные копируются больше, чем вы думаете. Я думаю, что кто-то давным-давно сказал мне, что средняя часть данных реплицируется как минимум два с половиной раза. ESB или Kafka предоставляют возможность потока данных, но в настоящее время это требует архитектуры. В настоящее время вам действительно нужно так или иначе задуматься о том, что на самом деле означает разбрасывать данные. Поэтому доступ к данным там, где они есть, обычно предпочтительнее, если, конечно, вы можете получить необходимую производительность, когда вы действительно обращаетесь к данным, и это зависит от контекста. Так что в любом случае это сложная ситуация. Что касается запросов к данным, мы привыкли мыслить с точки зрения SQL, мы действительно придумали, знаете ли, разные формы запросов, SQL да, но смежные, также графовые запросы, Spark - это только один пример делая график, потому что мы также должны выполнять поиск текста, больше, чем когда-либо, также поиск по типу регулярных выражений, который действительно усложняет поиск шаблонов и подлинное сопоставление шаблонов, все эти вещи на самом деле пузыряются. И все они полезны, потому что они дают вам то, что вы ищете, или они могут получить то, что вы ищете.

В наши дни запросы охватывают несколько данных, поэтому это не всегда происходит, и часто производительность ужасает, если вы делаете это. Таким образом, это зависит от обстоятельств, но люди ожидают, что смогут запрашивать данные из нескольких источников данных, поэтому объединение данных того или иного рода становится все более актуальным. Виртуализация данных, которая является другим способом сделать это, в зависимости от производительности, также очень распространена. Запросы данных на самом деле являются частью процесса, а не всего процесса. Стоит только отметить, что если вы на самом деле смотрите на производительность аналитики, реальная аналитика может занять намного больше времени, чем сбор данных, потому что это зависит от обстоятельств, но запросы данных абсолютно необходимы, если вы хотите сделать что-либо своего рода аналитика по нескольким источникам данных, и просто вам действительно нужно иметь возможности, которые охватывают.

Итак, о каталогах. Каталоги существуют по причине, по крайней мере, мы говорим, что у нас есть каталоги, и у нас есть схемы в базах данных, и у нас есть каждый каталог, и у нас есть, куда бы вы ни пошли, вы найдете одно место, а затем вы на самом деле обнаружите, что есть какой-то каталог, и единый глобальный каталог - это, очевидно, хорошая идея. Но очень немногие компании имеют такую ​​вещь. Я помню, что в 2000-м году - панике в две тысячи лет - я помню, что коммунисты даже не могли определить, сколько у них было исполняемых файлов, не говоря уже о том, сколько у них было разных хранилищ данных, и, вероятно, сейчас так и есть. Вы знаете, что большинство компаний не знают активно в глобальном смысле, какие данные они имеют. Но очевидно, что становится все более необходимым иметь глобальный каталог или, по крайней мере, иметь глобальную картину того, что происходит из-за роста источников данных и продолжающегося роста приложений, и это особенно необходимо для аналитики, потому что вы также с одной стороны, и здесь есть другие вопросы, такие как происхождение и проблемы с данными, и это необходимо для безопасности, многие аспекты управления данными, если вы действительно не знаете, какие данные у вас есть, идея то, что вы собираетесь управлять, просто абсурдно. Таким образом, все данные каким-то образом каталогизированы - это просто факт. Вопрос в том, является ли каталог последовательным, и на самом деле, что вы можете с ним сделать. Так что я перейду обратно к Ребекке.

Ребекка Джозвиак: Хорошо, спасибо, Робин. Далее у нас есть Дэвид Кроуфорд из Alation, Дэвид. Я собираюсь пойти дальше и передать вам мяч, и вы можете забрать его.

Дэвид Кроуфорд: Большое спасибо. Я очень ценю, что вы, ребята, пригласили меня на это шоу. Я думаю, что я собираюсь начать это, так что я думаю, что моя роль здесь состоит в том, чтобы взять некоторые из этой теории и посмотреть, как она на самом деле применяется, и результаты, которые мы можем дать реальным клиентам, и вы можете увидеть Несколько на слайде, я хочу поговорить о том, какие результаты мы сможем увидеть в аналитических, возможно, улучшениях. Таким образом, чтобы мотивировать обсуждение, мы будем говорить о том, как они туда попали. Так что мне повезло, что я довольно тесно поработал со многими действительно умными людьми, этими клиентами, и я просто хочу указать на несколько человек, которые смогли реально измерить, и рассказать о том, как каталог данных повлиял на их аналитика. рабочий процесс. И просто для того, чтобы кратко остановиться на переднем крае, я думаю, что одна из вещей, которые мы видим, меняется, с каталогами данных по сравнению с предыдущими опосредованными решениями и одним из способов, которыми отношения действительно думают о решениях, которые мы собираем, - это начать с аналитиков и работать в обратном направлении. Скажем так, давайте сделаем это для обеспечения производительности аналитиков. В отличие от простого соответствия или просто наличия инвентаря, мы создаем инструмент, который делает аналитиков более продуктивными.

Итак, когда я разговариваю с специалистом по данным из компании Square, занимающейся финансовыми услугами, есть парень, Ник, который рассказывал нам о том, как его, он раньше занимал несколько часов, чтобы найти правильный набор данных для начала отчета, теперь он может Сделав это за считанные секунды, используя поиск по доле рынка, мы поговорили с их техническим директором, который вытащил своих аналитиков, которые использовали Square, извините, использовал Alation, чтобы выяснить, что их, какие преимущества они увидели, и они сообщили о 50 процент повышения производительности, и что, один из ведущих мировых ритейлеров, eBay, у них более тысячи человек, которые регулярно проводят анализ SQL, и я довольно тесно работаю с Деб Сэйс, который является проектом менеджера в своей группе инструментов обработки данных, и она обнаружила, что, когда запросчики принимают Alation, принимают каталог, они видят удвоенную скорость написания новых запросов к базе данных.

Так что это реальные результаты, это люди, которые на самом деле применяют каталог в своей организации, и я хочу рассказать вам, что нужно для настройки. Как каталог создается в компании, и, возможно, самое важное, что он происходит, - это то, что многое происходит автоматически, поэтому Дез говорил о системах, изучая системы, и это именно то, что делает современный каталог данных. Поэтому они устанавливают Alation в своем центре обработки данных, а затем подключают его к различным источникам метаданных в своей среде данных. Я сосредоточусь немного на базах данных и инструментах BI - из обоих мы собираемся извлечь технические метаданные, в основном о том, что существует. Хорошо, так что за столы? Какие отчеты? Каковы определения отчета? Таким образом, они извлекают эти технические метаданные, и страница каталога автоматически создается для каждого объекта внутри этих систем, а затем они также извлекают и накладывают поверх этих технических метаданных, они накладывают поверх данных об использовании. Это в основном делается путем чтения журналов запросов из базы данных, и это действительно интересный источник информации. Таким образом, всякий раз, когда аналитик пишет запрос, всякий раз, когда инструмент отчетности, является ли он домашним или готовым, запускает ли инструмент отчетности запрос для обновления панели мониторинга, когда приложение выполняет запрос для вставки данных для работы с ними набор данных - все эти вещи фиксируются в журналах запросов базы данных. Независимо от того, есть у вас каталог или нет, они записываются в журнал запросов вместе с базой данных. Что может сделать каталог данных, и особенно то, что может сделать каталог Alation, так это прочитать эти журналы, задать запросы внутри них и создать действительно интересный график использования, основанный на этих журналах, и мы вводим его в действие, чтобы информировать будущих пользователей. данных о том, как прошлые пользователи данных использовали его.

Итак, мы объединяем все эти знания в каталог, и просто для того, чтобы это стало реальностью, это те интеграции, которые уже развернуты у клиентов, поэтому мы видели Oracle, Teradata, Redshift, Vertica и кучу других реляционные базы данных. В мире Hadoop существует целый ряд SQL на Hadoop, своего рода реляционные мета-хранилища поверх файловой системы Hadoop, Impala, Tez, Presto и Hive, мы также добились успеха с частными поставщиками облачных Hadoop, такими как Altiscale, и мы также удалось подключиться к серверам Tableau, серверам MicroStrategy и индексировать там информационные панели, а также интегрировать их с такими инструментами построения графиков, как Plotly.

Итак, мы подключаемся ко всем этим системам, мы подключили эти системы к клиентам, мы извлекли технические метаданные, мы извлекли данные об использовании и вроде как автоматически заполняли каталог данных, но таким образом мы централизация знаний, но просто централизация вещей в каталоге данных сама по себе не обеспечивает тех действительно замечательных повышений производительности, о которых мы говорили с eBay, Square и долей рынка. Чтобы сделать это, нам действительно нужно изменить способ представления знаний аналитикам. Один из вопросов, который они просят подготовить для этого, был: «Как каталог на самом деле влияет на рабочий процесс аналитика?»

Это то, о чем мы думаем целый день, и, чтобы поговорить об этом изменении мышления, модели «толчок», «модель притяжения», я хотел сделать быструю аналогию с тем, каким был мир до и после чтения на Kindle. Так что это просто опыт, который некоторые из вас могут испытывать, когда вы читаете физическую книгу, вы сталкиваетесь со словом, вы не уверены, что знаете это слово очень хорошо, вы можете догадаться об этом из контекста, не так уж вероятно, что вы собираемся встать с дивана, подойти к вашей книжной полке, найти свой словарь, вычистить его и перевернуть в нужное место в алфавитном списке слов, чтобы убедиться, что да, у вас было правильное определение, и вы знаете, нюансы этого. Так что на самом деле этого не происходит. Таким образом, вы покупаете приложение Kindle и начинаете читать книги там, и вы видите слово, в котором вы не совсем уверены, и вы касаетесь этого слова. Внезапно, прямо на том же экране, есть словарное определение слова со всеми его нюансами, различными примерами использования, и вы немного проводите пальцем, и вы получаете статью Википедии по этой теме, вы проводите снова, Вы получаете инструмент для перевода, который может перевести его на другие языки или с других языков, и внезапно ваше знание языка становится намного богаче, и это происходит поразительное количество раз по сравнению с тем, когда вам приходилось уходить и вытащить этот ресурс для себя.

И вот что я собираюсь спорить, так это то, что рабочий процесс для аналитика и то, как аналитик будет обращаться с документацией данных, на самом деле очень похож на то, как читатель будет взаимодействовать со словарем, будь то физический или хотя Kindle и то, что мы, то, как мы действительно увидели это повышение производительности, не разливают каталог, а связывают его с рабочим процессом аналитика, и поэтому они попросили меня сделать демо здесь, и я хочу чтобы сделать это в центре внимания этой презентации. Но я просто хочу настроить контекст для демонстрации. Когда мы думаем о том, чтобы передать знания о данных пользователям, когда они в них нуждаются, мы думаем, что правильное место для этого, место, где они проводят свое время и где они проводят анализ, - это инструмент SQL-запроса. Место, где вы пишете и выполняете SQL-запросы. Итак, мы создали один и создали его, и в этом его отличие от других инструментов запросов - его глубокая интеграция с каталогом данных.

Итак, наш инструмент запросов называется Alation Compose. Это веб-инструмент для запросов, и я покажу его вам через секунду. Веб-инструмент для запросов, который работает со всеми логотипами базы данных, которые вы видели на предыдущем слайде. В частности, я попытаюсь продемонстрировать, каким образом информация из каталога поступает к пользователям. И это происходит с помощью трех разных способов. Он делает это с помощью вмешательств, и именно здесь кто-то, кто является управляющим данными, или управляющим данными, или каким-то образом администратором, или менеджером, может сказать: «Я хочу что-то вроде вставки с запиской или предупреждением в рабочий процесс и убедитесь, что он доставлен пользователям в нужное время ». Так что это вмешательство, и мы покажем это.

Умные предложения - это способ, при котором инструмент использует все свои совокупные знания каталога, чтобы предлагать объекты и части запроса в процессе его написания. Здесь важно знать, что для этого действительно нужно использовать журнал запросов, чтобы предлагать вещи, основанные на использовании, а также находить даже части запросов, которые были написаны ранее. И мы покажем это.

А потом превью. При предварительном просмотре, когда вы вводите имя объекта, мы показываем вам все, что знает каталог, или, по крайней мере, наиболее важные вещи, которые каталог знает об этом объекте. Таким образом, образцы данных, которые использовали их ранее, логическое имя и описание этого объекта, все приходят к вам, пока вы пишете их, не нужно спрашивать их.

Поэтому без лишних разговоров я доберусь до демоверсии и просто буду ждать ее появления. Здесь я собираюсь показать вам инструмент запросов. Это специальный интерфейс для написания SQL. В определенном смысле это отдельный интерфейс из каталога. Дез и Робин говорили о каталоге, и я немного перепрыгиваю через интерфейс каталога, чтобы узнать, как он напрямую используется для обслуживания рабочего процесса.

Я просто показываю здесь место, где я могу вводить SQL, и внизу вы увидите, что у нас есть какая-то информация об объектах, на которые мы ссылаемся. Так что я просто собираюсь начать вводить запрос и остановлюсь, когда доберусь до одного из этих вмешательств. Поэтому я наберу «выбрать» и хочу год. Я хочу имя. И я собираюсь посмотреть некоторые данные о зарплате. Так что это набор данных об образовании. Там есть информация о высших учебных заведениях, и я смотрю на среднюю зарплату преподавателей, которая находится в одной из этих таблиц.

Поэтому я на самом деле набрал слово «зарплата». Это не совсем так в названии столбца. Мы используем как логические метаданные, так и физические метаданные, чтобы делать предложения. И что я хочу отметить здесь, это желтая коробка, которая появляется здесь. Там написано предупреждение в этой колонке. Я не искал это, я не брал урок о том, как правильно использовать эти данные. Оно пришло ко мне и стало предупреждением о соглашении о конфиденциальности, касающемся этих данных. Так что есть некоторые правила раскрытия. Если я собираюсь запросить эти данные, я собираюсь извлечь данные из этой таблицы, я должен быть осторожен с тем, как я их раскрываю. Итак, у вас есть политика управления здесь. Существуют некоторые проблемы с соблюдением нормативных требований, которые значительно упрощают соблюдение этой политики, когда я знаю об этом в то время, когда я просматриваю данные.

Так что у меня это подходит, а потом я тоже собираюсь посмотреть на обучение. И здесь мы видим превью вступают в игру. В этом столбце обучения, я вижу - на столе в учреждении есть столбец обучения, и я вижу профиль этого. Alation отправляет образцы данных из таблиц, и в этом случае он показывает мне кое-что довольно интересное. Он показывает мне распределение значений и показывает, что нулевое значение показывалось в выборке 45 раз, и больше, чем любое другое значение. Так что у меня есть чувство, что мы можем упустить некоторые данные.

Если я продвинутый аналитик, то это может быть частью моего рабочего процесса. Особенно, если я особенно дотошный, где я буду делать кучу запросов профилирования заранее. Всякий раз, когда я приближаюсь к новому фрагменту данных, я всегда думаю о том, каков наш охват данных. Но если я новичок в анализе данных, если я новичок в этом наборе данных, я могу предположить, что если есть столбец, он заполняется все время. Или я могу предположить, что если он не заполнен, он не равен нулю, он равен нулю или что-то в этом роде. Но в этом случае у нас много нулей, и если бы я сделал среднее значение, они, вероятно, были бы неправы, если бы я просто предположил, что эти нули на самом деле равны нулю, а не отсутствующим данным.

Но Alation, внедрив этот предварительный просмотр в свой рабочий процесс, как бы просит вас взглянуть на эту информацию и дает даже новичкам-аналитикам шанс увидеть, что здесь есть что заметить в отношении этих данных. Итак, у нас есть предварительный просмотр.

Следующее, что я собираюсь сделать, - это попытаться выяснить, из каких таблиц получить эту информацию. Так что здесь мы видим умные предложения. Это происходит все время, но, в частности, здесь я даже ничего не печатал, но мне будет предложено, какие таблицы я мог бы использовать для этого запроса. И самое важное, что нужно знать об этом, это то, что он использует статистику использования. Таким образом, в такой среде, как, например, eBay, где у вас есть сотни тысяч таблиц в одной базе данных, наличие инструмента, который может отчасти ударить по пшенице из мусора, и использование этой статистики использования, действительно важно для предложения чего-то стоят.

Так что это будет предлагать эту таблицу. Когда я смотрю на предварительный просмотр, мы на самом деле выделяем три столбца, которые я уже упоминал в своем запросе. Я знаю, что у него три, но у него нет названия. Мне нужно получить имя, поэтому я собираюсь присоединиться. Когда я делаю объединение, теперь снова у меня есть эти предварительные просмотры, чтобы помочь мне найти, где находится таблица с именем. Итак, я вижу, что у этого есть хорошо отформатированное, немного заглавное имя. Кажется, что для каждой организации есть по одной строке с названием, так что я собираюсь взять это, и теперь мне нужно условие соединения.

Итак, здесь то, что делает Alation, снова просматривает журналы запросов, наблюдая в прошлые разы, что эти две таблицы были объединены, и предлагая различные способы присоединения к ним. Еще раз, есть некоторое вмешательство. Если я посмотрю на один из них, то получит предупреждение, которое показывает, что это следует использовать только для совокупного анализа. Вероятно, это приведет к неправильным результатам, если вы попытаетесь что-то сделать через учреждение за учреждением. Принимая во внимание, что этот, с идентификатором OPE, считается правильным способом объединения этих двух таблиц, если вам нужны данные университетского уровня. Итак, я делаю это, и это короткий запрос, но я написал свой запрос, не обязательно понимая, что это за данные. На самом деле я никогда не смотрел на диаграмму ER этого набора данных, но я уже довольно много знаю об этих данных, потому что соответствующая информация поступает ко мне.

Таким образом, это три способа, которыми каталог может через встроенный инструмент запросов напрямую влиять на рабочий процесс при написании запросов. Но одно из других преимуществ интеграции инструмента запросов с каталогом состоит в том, что, когда я заканчиваю свой запрос и сохраняю его, я могу добавить заголовок, такой как «Учебное заведение и зарплата на факультете», а затем у меня есть кнопка, которая позволяет мне просто опубликовать его в каталоге. Мне становится очень легко прокормить это. Даже если я не публикую его, он регистрируется как часть журнала запросов, но когда я публикую его, он фактически становится частью централизованного места, где живут все знания данных.

Поэтому, если я нажму Поиск всех запросов в Alation, меня заберут - и здесь вы увидите еще немного интерфейса каталога - я попаду на специальный поиск запросов, который покажет мне способ поиска запросов по вся организация. И вы видите, что мой недавно опубликованный запрос находится вверху. И некоторые могут заметить здесь, когда мы фиксируем запросы, мы также фиксируем авторов, и мы как бы устанавливаем эту связь между мной как автором и этими объектами данных, о которых я теперь кое-что знаю. И я становлюсь экспертом по этому запросу и по этим объектам данных. Это действительно полезно, когда людям нужно изучать данные, тогда они могут найти подходящего человека, с которым можно узнать. И если я на самом деле новичок в данных, будь я продвинутым аналитиком - как продвинутый аналитик, я мог бы взглянуть на это и увидеть кучу примеров, которые помогут мне начать работу с новым набором данных. Как человек, который может не очень разбираться в SQL, я могу найти готовые запросы, которые представляют собой отчеты, которыми я могу воспользоваться.

Вот один из Фил Мазанетт о средних баллов SAT. Нажмите на это, и я получаю вид страницы каталога для самого запроса. В нем говорится о написанной статье, которая ссылается на этот запрос, поэтому мне нужно почитать некоторую документацию, если я хочу узнать, как ее использовать. И я могу открыть его в инструменте запросов, нажав кнопку «Создать», и я могу просто запустить его сам, даже не редактируя его. И на самом деле, вы можете увидеть немного наших облегченных возможностей создания отчетов, где, когда вы пишете запрос, вы можете вставить переменную шаблона, подобную этой, и это создает простой способ создания формы для выполнения запроса на основе по паре параметров.

Вот что у меня есть для демонстрации. Я собираюсь вернуться к слайдам. Напомним, что мы показали, как администратор, управляющий данными, может вмешиваться, размещая предупреждения на объектах, которые отображаются в инструменте запросов, как Alation использует свои знания об использовании объектов данных, чтобы делать умные предложения, как это приносит в профилировании и других советах по улучшению рабочих процессов аналитиков, когда они касаются определенных объектов, и о том, как все эти виды возвращаются в каталог при написании новых запросов.

Очевидно, я являюсь представителем компании. Я собираюсь сказать хорошие вещи о каталогах данных. Если вы хотите услышать мнение одного из наших клиентов, у Кристи Аллен из Safeway есть команда аналитиков, и у нее есть действительно классная история о времени, когда ей нужно было по-настоящему бить время, чтобы провести маркетинговый эксперимент, и о том, как все в целом. Команда использовала Alation, чтобы сотрудничать и очень быстро развернуться в этом проекте. Таким образом, вы можете перейти по этой ссылке bit.ly, чтобы ознакомиться с этой историей, или если вы хотите немного узнать о том, как Alation может внести каталог данных в вашу организацию, мы будем рады создать персонализированную демонстрацию. Большое спасибо.

Ребекка Йозвиак: Большое спасибо, Дэвид. Я уверен, что у Деза и Робина есть несколько вопросов, прежде чем я перейду к аудитории. Дез, ты хочешь пойти первым?

Дез Бланчфилд: Абсолютно. Мне нравится идея этой концепции опубликованных запросов и ссылки на источник авторинга. Я был давним чемпионом этой идеи внутреннего магазина приложений, и я думаю, что это действительно отличная основа для этого.

Я пришел к некоторому пониманию некоторых организаций, которые, как вы видите, делают это, и некоторых историй успеха, которые они могли бы получить за весь этот путь не только использования вашего инструмента и платформы для обнаружения данных, но и затем измените их внутренние культурные и поведенческие особенности. Теперь, имея такой собственный магазин приложений, который вы просто загружаете, концепция, в которой они могут не только просто найти его, но и реально начать создавать небольшие сообщества с хранителями этих знаний.

Дэвид Кроуфорд: Да, я думаю, мы были удивлены. Мы верим в ценность обмена запросами, как из моего прошлого в качестве менеджера по продуктам в Adtech, так и со стороны всех клиентов, с которыми мы общались, но я все еще удивляюсь тому, как часто это одна из самых первых вещей, которую клиенты говорить о ценности, которую они получают от Alation.

Я проводил пользовательское тестирование инструмента запросов у одного из наших клиентов, который назывался Invoice2go, и у них был менеджер по продукту, который был относительно новичком, и они сказали - он на самом деле сказал мне без всякого запроса во время пользовательского теста: «На самом деле я бы не стал писать на SQL вообще, за исключением того, что это легко сделать с помощью Alation ». И, конечно, как премьер-министр, я вроде бы говорю:« Что вы имеете в виду, как мы это сделали? »И он сказал:« Ну, на самом деле это просто потому что я могу войти в систему и увидеть все эти существующие запросы ». Начать с чистого листа с SQL - невероятно трудная задача, но изменить существующий запрос, чтобы вы могли увидеть результат, который выдается, и сказать: «О, мне просто нужен этот дополнительный столбец» или «Мне нужно отфильтровать его по определенному диапазону дат», это гораздо проще сделать.

Мы видели такие вспомогательные роли, как, например, менеджеры по продуктам, может быть, сотрудники по продажам, которые начинают изучать и всегда хотят изучать SQL и начинать изучать его с помощью этого каталога. Мы также видели, что многие компании пытались сделать что-то с открытым исходным кодом. Я пытался создать такие вещи внутри, чтобы они отслеживали запросы и делали их доступными, и есть некоторые действительно сложные задачи дизайна, чтобы сделать их полезными. У Facebook был внутренний инструмент, который они назвали HiPal, который собирал все запросы, написанные в Hive, но вы обнаружите, что если вы не подтолкнете пользователей правильным образом, вы просто получите очень длинный список избранных утверждений. И как пользователь, который пытается выяснить, полезен ли мне запрос или если он полезен, если я просто посмотрю длинный список операторов выбора, мне понадобится гораздо больше времени, чтобы получить что-то полезное, чем Начиная с нуля. Мы очень тщательно подумали о том, как создать каталог запросов, который выводит нужные вещи на передний план и предоставляет их полезным способом.

Дез Бланчфилд: Я думаю, что мы все переживаем это путешествие с самого раннего возраста, во взрослую жизнь, во многих отношениях. Куча технологий. Я, лично я, прошел через ту же самую подлинную вещь, типа обучения сокращению кода. Я просматривал журналы, а затем книги, и я учился до определенного уровня, а затем мне нужно было пойти и фактически получить дополнительное обучение и образование.

Но по неосторожности я обнаружил, что даже когда я собирался учить себя, читать журналы и читать книги, выбирать программы для других людей и посещать курсы, я все равно заканчивал тем, что учился на этих курсах так же много, как и просто общался с другими. люди, которые имели некоторый опыт. И я думаю, что это интересное открытие, что теперь, когда вы привносите это в аналитику данных, мы в основном видим ту же самую параллель, что люди неизменно весьма умны.

Еще одна вещь, которую я действительно хочу понять, это то, что на очень высоком уровне многие организации зададут вопрос: «Сколько времени нужно, чтобы добраться до этой точки?». Каков переломный момент, когда люди получают ваша платформа установлена, и они начали обнаруживать типы инструментов? Как быстро люди просто видят, как эта штука превращается в действительно мгновенный момент «а-ха», когда они понимают, что больше не беспокоятся о рентабельности инвестиций, потому что она есть, но теперь они фактически меняют способ ведения бизнеса ? И они обнаружили потерянное искусство, и они ожидают, что могут сделать что-то действительно, действительно забавное с этим.

Дэвид Кроуфорд: Да, я могу немного коснуться этого. Я думаю, что когда мы установимся, одна из приятных вещей, одна из вещей, которые нравятся людям в каталоге, который напрямую связан с системами данных, заключается в том, что вы не начинаете с пустого места, когда вам нужно как-то его заполнить. страница за страницей. И это похоже на предыдущие решения для обработки данных, когда вы начинаете с пустого инструмента и начинаете создавать страницу для всего, что хотите документировать.

Поскольку мы автоматически документируем очень много вещей, извлекая метаданные, по существу, в течение нескольких дней с момента установки программного обеспечения, вы можете получить представление о вашей среде данных, которая по крайней мере на 80 процентов присутствует в инструменте. И затем я думаю, что как только люди начнут писать запросы с помощью инструмента, они автоматически сохранятся обратно в каталог, и поэтому они тоже начнут появляться.

Я не хочу быть чрезмерно готовым заявить об этом. Я думаю, что две недели - довольно хорошая консервативная оценка, до месяца. От двух недель до месяца, по самым скромным подсчетам, вы по-настоящему оборачиваетесь и чувствуете, что извлекаете из этого выгоду, как будто вы начинаете делиться некоторыми знаниями и можете пойти туда и узнать кое-что о ваших данных.

Дез Бланчфилд: Это действительно удивительно, когда ты думаешь об этом. Тот факт, что некоторые из крупных платформ данных, которые вы эффективно индексируете и каталогизируете, иногда занимает до года на внедрение, развертывание и правильную работу.

Последний вопрос, который у меня к вам перед тем, как я передам слово Робину Блуру, - это разъемы. Одна из вещей, которая сразу бросается мне в глаза, это то, что у тебя, очевидно, есть весь этот вызов. Так что есть пара вопросов просто очень быстро. Во-первых, как быстро внедряются разъемы? Очевидно, вы начинаете с самой большой платформы, такой как Oracles, Teradatas и т. Д. И DB2. Но как часто вы видите, как появляются новые разъемы, и сколько времени они занимают? Я полагаю, у вас есть стандартная структура для них. И как глубоко вы углубляетесь в это? Например, Oracles и IBM мира, и даже Tereadata, а затем некоторые из наиболее популярных поздних платформ с открытым исходным кодом. Они работают с вами напрямую? Вы сами это открываете? Вы должны иметь внутренние знания на этих платформах?

Как выглядит разработка соединителя, и насколько глубоко вы вовлечены в эти партнерские отношения, чтобы эти соединители открывали для себя все, что только возможно?

Дэвид Кроуфорд: Да, конечно, это отличный вопрос. Я думаю, что по большей части мы можем разработать разъемы. Мы, конечно, сделали, когда мы были молодым стартапом и не имели клиентов. Мы можем развивать связи, безусловно, без необходимости внутреннего доступа. Мы никогда не получаем особого доступа к системам данных, которые не являются общедоступными, и зачастую без какой-либо внутренней информации. Мы пользуемся услугами метаданных, доступными самими системами данных. Часто они могут быть довольно сложными и трудными для работы. Я знаю SQL Server, в частности, то, как они управляют журналом запросов, есть несколько разных конфигураций, и это то, над чем вам действительно нужно работать. Вы должны понимать нюансы, а также ручки и циферблаты, чтобы правильно его настроить, и это то, над чем мы работаем с клиентами, так как мы делали это несколько раз раньше.

Но в определенной степени мы используем общедоступные API-интерфейсы или общедоступные интерфейсы. У нас есть партнерские отношения с несколькими из этих компаний, что в основном является основанием для сертификации, поэтому они чувствуют себя комфортно, говоря, что мы работаем, а также они могут предоставить нам ресурсы для тестирования, иногда ранний доступ, возможно, к платформе, которая выходит, чтобы убедиться, что мы работаем над новыми версиями.

Чтобы изменить новую связь, я бы сказал снова, пытаясь быть консервативным, скажем, от шести недель до двух месяцев. Это зависит от того, насколько это похоже. Так что некоторые из работ Postgre выглядят очень похоже на Redshift. Redshift и Vertica делятся своими подробностями. Таким образом, мы можем воспользоваться этими вещами. Но да, от шести недель до двух месяцев было бы справедливо.

У нас также есть API-интерфейсы, так что - мы думаем об Alation как о платформе метаданных, поэтому, если у нас нет ничего для того, чтобы мы могли протянуть руку и автоматически захватить, есть способы, которыми вы можете сами написать соединитель и вставить его в нашу систему, чтобы что все еще централизовано в одной поисковой системе.

Дез Бланчфилд: Фантастика. Я ценю это. Итак, мы передадим это Робину, потому что я уверен, что у него тоже есть множество вопросов. Робин?

Ребекка Джозвиак: Робин может быть отключен.

Дез Бланчфилд: Вы отключили звук.

Робин Блур: Да, верно. Извините, я приглушил себя. Когда вы реализуете это, каков процесс? Мне любопытно, потому что во многих местах может быть много данных. Так как это работает?

Дэвид Кроуфорд: Да, конечно. Мы начинаем, во-первых, это своего рода ИТ-процесс, который заключается в том, чтобы убедиться, что наш сервер подготовлен, что сетевые подключения доступны, что порты открыты, поэтому мы действительно можем получить доступ к системам. Все они часто знают, с каких систем они хотят начать. Знание внутри системы данных, которая - а иногда мы на самом деле им поможем. Мы поможем им сделать начальный просмотр журнала запросов, чтобы понять, кто чем пользуется и сколько у них пользователей в системе. Таким образом, мы поможем выяснить, где … они часто, если у них есть сотни или тысячи людей, которые могут входить в базы данных, они на самом деле не знают, куда они входят, поэтому мы можем узнать об этом из В журнале запросов регистрируется, сколько уникальных учетных записей у вас есть на самом деле, когда вы заходите и выполняете запросы в течение месяца или около того.

Таким образом, мы можем воспользоваться этим, но часто только на самых важных. Мы их настраиваем, а затем идет процесс: «Давайте расставим приоритеты». Есть ряд действий, которые могут происходить параллельно. Я бы сосредоточился на обучении использованию инструмента запросов. Как только люди начинают использовать инструмент запросов, во-первых, многим людям нравится тот факт, что это всего лишь один интерфейс для всех их различных систем. Им также нравится тот факт, что это веб-приложение, не требующее установки, если они этого не хотят. С точки зрения безопасности им нравится иметь своего рода единую точку входа, с точки зрения сети, между своего рода ИТ-сетью корпорации и центром обработки данных, где живут производственные источники данных. Итак, они настроят Alation в качестве инструмента запросов и начнут использовать Compose в качестве точки доступа для всех этих систем.

Поэтому, как только это произойдет, мы сосредоточимся на обучении, а именно на понимании того, в чем заключаются некоторые различия между веб-инструментами или инструментами запросов на основе сервера и инструментами, которые есть у вас на рабочем столе, и некоторыми нюансами использования. тот. И в то же время мы попытаемся выявить наиболее ценные данные, снова воспользовавшись информацией из журнала запросов и сказав: «Эй, возможно, вы захотите войти и помочь людям понять их. Давайте начнем публиковать репрезентативные запросы в этих таблицах ». Это иногда самый эффективный способ очень быстро заставить людей раскрутиться. Давайте посмотрим на вашу собственную историю запросов, опубликуем эти вещи, чтобы они отображались в качестве первых запросов. Когда люди смотрят на страницу таблицы, они могут видеть все запросы, которые касались этой таблицы, и они могут начать с нее. А затем давайте начнем добавлять заголовки и описания к этим объектам, чтобы их было легче находить и искать, чтобы вы знали некоторые нюансы того, как их использовать.

Мы тщательно изучили журнал запросов, чтобы мы могли генерировать происхождение. Одна из вещей, которые мы делаем, - мы просматриваем журнал запросов, когда данные перемещаются из одной таблицы в другую, и это позволяет нам задать один из наиболее часто задаваемых вопросов о таблице данных: откуда это взялось? Как я могу доверять этому? И поэтому мы можем показать не только, из каких других таблиц он получен, но и как он был преобразован по пути. Опять же, это отчасти зависит от журнала запросов.

Таким образом, мы следим за тем, чтобы все это было настроено, и чтобы мы получили линии в систему, и мы нацелены на наиболее ценные и наиболее эффективные части метаданных, которые мы можем установить на страницах таблиц, чтобы когда вы ищете, вы найдете что-то полезное.

Робин Блур: Хорошо. Другой вопрос - есть много вопросов от аудитории, поэтому я не хочу занимать здесь слишком много времени - другой вопрос, который приходит на ум, это просто болевые точки. Много программного обеспечения куплено, потому что люди, так или иначе, испытывают трудности с чем-то. Так в чем же общая причина боли, которая приводит людей к Alation?

Дэвид Кроуфорд: Да. Я думаю, что есть несколько, но я думаю, что одним из тех, что мы слышим довольно часто, является привлечение аналитиков. «Мне нужно будет нанять 10, 20, 30 человек в ближайшем будущем, которые должны будут получить новую информацию из этих данных, как они собираются набрать скорость?» снасти. Это также освобождает старших аналитиков от необходимости тратить все свое время на ответы других людей о данных. Это тоже очень часто. И то, и другое - это проблемы образования.

И затем я бы сказал, что в другом месте, где мы видим, что люди принимают Alation, это когда они хотят создать совершенно новую среду данных для того, чтобы кто-то в ней работал. Они хотят рекламировать и продвигать это на внутреннем рынке, чтобы люди могли им воспользоваться. Тогда очень важно сделать Alation интерфейсом для этой новой аналитической среды. У него есть документация, у него есть единственная точка введения в … единую точку доступа к системам, и это еще одно место, куда люди будут приходить к нам.

Робин Блур: Хорошо, я передам тебя Ребекке, потому что публика пытается добраться до тебя.

Ребекка Йозвиак: Да, у нас здесь много действительно хороших вопросов для аудитории. И Дэвид, этот был задан специально для вас. Это от кого-то, кто, очевидно, имеет некоторый опыт работы с людьми, которые неправильно используют запросы, и он как бы говорит, что чем больше мы расширяем возможности пользователей, тем сложнее управлять ответственным использованием вычислительных ресурсов. Таким образом, вы можете защитить от распространения ошибочных, но распространенных фраз?

Дэвид Кроуфорд: Да, я вижу этот вопрос. Это отличный вопрос, который мы получаем довольно часто. Я сам видел боль в предыдущих компаниях, где нужно обучать пользователей. Например: «Это таблица журналов, в которой журналы хранятся годами. Если вы собираетесь написать запрос в этой таблице, вам действительно нужно ограничиться датой ». Так, например, это тренинг, который я прошел в предыдущей компании, прежде чем мне был предоставлен доступ к базе данных.

У нас есть несколько способов решить эту проблему. Я бы сказал, что я думаю, что данные журнала запросов действительно уникальны для их решения. Это дает другое представление о том, что база данных делает внутренне со своим планировщиком запросов. И что мы делаем, это одно из этих вмешательств - у нас есть ручные вмешательства, которые я показал, и это полезно, верно? Так, например, в конкретном соединении вы можете сказать: «Давайте откажемся от этого». У него будет большой красный флаг, когда он появится в умном предложении. Так что это один из способов добраться до людей.

Еще одна вещь, которую мы делаем, автоматизирована во время выполнения вмешательств. Это на самом деле будет использовать дерево разбора запроса, прежде чем мы его запустим, чтобы увидеть, включает ли он определенный фильтр или пару других вещей, которые мы также делаем там. Но один из самых ценных и простейших объяснений - включает ли он фильтр? Так что, как и в примере, который я только что привел, эта таблица журнала, если вы собираетесь ее запрашивать, должна иметь диапазон дат, вы можете указать на странице таблицы, что вы обязываете применить этот фильтр диапазона дат. Если кто-то попытается выполнить запрос, который не включает этот фильтр, он на самом деле остановит его с большим предупреждением, и он скажет: «Вам, вероятно, следует добавить в ваш запрос некоторый SQL, похожий на этот». Они могут продолжить, если они хотят. На самом деле мы не собираемся полностью запрещать им использовать его - это тоже запрос, в конце концов, он должен выполнять запросы. Но мы ставим перед ними довольно большой барьер и даем им предложение, конкретное применимое предложение по изменению запроса для повышения его производительности.

На самом деле мы также делаем это автоматически в некоторых случаях, снова наблюдая журнал запросов. Если мы увидим, что какой-то действительно большой процент запросов в этой таблице использует преимущества определенного фильтра или определенного предложения соединения, то мы на самом деле выведем это. Мы будем продвигать это к вмешательству. На самом деле, это случилось со мной на внутреннем наборе данных. У нас есть данные о клиентах, и у нас есть идентификаторы пользователей, но набор идентификаторов пользователей установлен, поскольку это своего рода - у нас есть идентификаторы пользователей у каждого клиента. Он не уникален, поэтому вы должны связать его с идентификатором клиента, чтобы получить уникальный ключ соединения. И я писал запрос, пытался что-то проанализировать, и он выскочил и сказал: «Эй, похоже, все остальные присоединяются к этим таблицам как с идентификатором клиента, так и с идентификатором пользователя. Вы уверены, что не хотите этого делать? »И это фактически остановило меня от неправильного анализа. Так что это работает как для точности анализа, а также производительности. Вот как мы решаем эту проблему.

Ребекка Йозвиак: Мне кажется, это будет эффективно. Вы сказали, что не обязательно заблокируете людей от добычи ресурсов, но учите их, что то, что они делают, может быть не лучшим, верно?

Дэвид Кроуфорд: Мы всегда предполагаем, что пользователи не являются злонамеренными - дайте им наилучшие намерения - и мы стараемся быть такими открытыми.

Ребекка Йозвиак: Хорошо. Вот еще один вопрос: «Какая разница между менеджером каталога, как в вашем решении, и инструментом MDM? Или же он действительно полагается на другой принцип, расширяя выбор таблиц запросов, тогда как MDM будет делать это автоматически, но с тем же основным принципом сбора метаданных ».

Дэвид Кроуфорд: Да, я думаю, что когда я смотрю на традиционные решения MDM, основное различие является философским. Это все о том, кто пользователь. В некотором роде, как я уже говорил в начале своей презентации, Alation, я думаю, когда мы были основаны, мы были основаны с целью позволить аналитикам создавать больше идей, быстрее их представлять, чтобы быть более точными в том, что они производить. Я не думаю, что это когда-либо было целью традиционного решения MDM. Эти решения, как правило, ориентированы на людей, которым необходимо составлять отчеты о том, какие данные были получены в SCC или для внутренних целей аудита. Иногда он может включать аналитиков, но чаще, если он собирается включить специалиста в их работу, он с большей вероятностью включает архитектора данных, такого как администратор баз данных.

Когда вы думаете о вещах с точки зрения аналитика, именно тогда вы начинаете создавать инструмент запроса, который инструмент MDM никогда бы не сделал. Именно тогда вы начинаете задумываться о производительности, а также о точности и понимании того, какие данные относятся к потребностям моего бизнеса. Все эти вещи - вещи, которые появляются у нас в голове, когда мы разрабатываем инструмент. Это входит в наши алгоритмы поиска, в макет страниц каталога и возможность делиться знаниями со всей организации. Это связано с тем, что мы создали инструмент запросов и что каталог мы встроили непосредственно в него, так что я думаю, что это действительно происходит из этого. Какой пользователь у вас на уме в первую очередь?

Ребекка Йозвиак: Хорошо, хорошо. Это действительно помогло объяснить это. который умирал, чтобы завладеть архивами, потому что ему пришлось уйти, но он действительно хотел, чтобы на его вопрос был дан ответ. Он сказал, что в начале было упомянуто, что существует несколько языков, но является ли SQL единственным языком, используемым в компоненте Compose?

Дэвид Кроуфорд: Да, это правда. И одна из вещей, которые я заметил, когда я был свидетелем взрыва различных типов баз данных, баз данных документов, графовых баз данных, хранилищ ключевых значений, заключается в том, что они действительно эффективны для разработки приложений. Они могут действительно там удовлетворять конкретные потребности лучше, чем реляционные базы данных.

Но когда вы возвращаете его к анализу данных, когда вы возвращаетесь к нему - когда вы хотите предоставить эту информацию людям, которые собираются делать специальные отчеты или специально копаться в данных, они всегда возвращаются к реляционным По крайней мере, интерфейс для людей. Отчасти это объясняется тем, что SQL является языком анализа данных, что означает, что для людей это также относится и к инструментам, которые интегрируются. Я думаю, что это причина того, что SQL в Hadoop так популярен, и существует множество попыток его решить, потому что в конце концов это то, что люди знают. Вероятно, есть миллионы людей, которые знают, как писать SQL, и я бы не рискнул миллионы людей, которые знают, как написать запрос структуры агрегационного конвейера Mongo. И это стандартный язык, который используется для интеграции с очень широким спектром платформ. Таким образом, все это говорит о том, что нас очень редко просят выйти за его пределы, потому что именно этот интерфейс используют большинство аналитиков, и именно на этом мы сосредоточились, особенно в Compose, на том, что мы сосредоточились на написании SQL.

Я бы сказал, что наука о данных - это то место, где они больше всего выходят за рамки, и поэтому у нас иногда возникают вопросы об использовании Pig или SAS. Это те вещи, которые мы определенно не обрабатываем в Compose, и которые мы хотели бы зафиксировать в каталоге. И я вижу также R и Python. У нас есть несколько способов создания интерфейсов, с помощью которых вы можете использовать запросы, написанные на языке Alation, внутри сценариев R и Python, поэтому часто, когда вы работаете с данными и работаете на языке сценариев, ваш Исходные данные находятся в реляционной базе данных. Вы начинаете с запроса SQL, а затем обрабатываете его и создаете графики внутри R и Python. И мы создали пакеты, которые вы можете импортировать в те сценарии, которые извлекают запросы или результаты запроса из Alation, чтобы вы могли как бы иметь смешанный рабочий процесс там.

Ребекка Йозвиак: Хорошо, отлично. Я знаю, что мы пробежали немного позже, я собираюсь задать еще один или два вопроса. Я знаю, что вы говорили о всех различных системах, к которым вы можете подключиться, но что касается данных, размещенных извне и данных, размещенных внутри, можно ли искать их вместе в едином представлении, на единой платформе?

Дэвид Кроуфорд: Конечно. Есть несколько способов сделать это. Я имею в виду, что я принимаю внешнюю информацию и пытаюсь понять, что именно это может означать. Это может означать базу данных, которую кто-то размещает в AWS для вас. Это может означать общедоступный источник данных из data.gov. Мы подключаемся напрямую к базам данных, выполняя вход, как и другое приложение, с учетной записью базы данных, и таким образом мы извлекаем метаданные. Так что, если у нас есть учетная запись и у нас открыт сетевой порт, мы можем получить к нему доступ. И затем, когда у нас нет таких вещей, у нас есть нечто, называемое виртуальным источником данных, которое позволяет вам по существу выдвигать документацию, будь то автоматически, путем написания вашего собственного коннектора или заполнения, выполняя даже как CSV-загрузку, чтобы документировать данные вместе с вашими внутренними данными. Все это помещается в поисковик. Он становится доступным для ссылок внутри статей и другой документации и разговоров внутри системы. Вот как мы поступаем, когда не можем напрямую подключиться к системе.

Ребекка Йозвиак: Хорошо, это имеет смысл. Я просто задам вам еще один вопрос. Один участник задается вопросом: «Как следует проверять, проверять или поддерживать содержимое каталога данных, как обновляются исходные данные, как изменяются исходные данные и т. д.»

Дэвид Кроуфорд: Да, это вопрос, который мы часто получаем, и я думаю, одна из вещей, которые мы - одна из наших философий, как я уже сказал, - мы не считаем пользователей злонамеренными. Мы предполагаем, что они пытаются внести лучшие знания. Они не собираются входить и намеренно вводить людей в заблуждение насчет данных. Если это проблема в вашей организации, возможно, Alation не подходит вам. Но если вы принимаете благие намерения пользователей, тогда мы думаем об этом как о чем-то, где приходят обновления, и затем обычно мы назначаем управляющего каждым объектом данных или каждым разделом данных. И мы можем уведомить этих стюардов о внесении изменений в метаданные, и они могут справиться с этим таким образом. Они видят, что обновления приходят, они проверяют их. Если они не правы, они могут вернуться и изменить их и сообщить, и, надеюсь, даже обратиться к пользователю, который предоставил информацию и помочь им учиться.

Так что это основной способ думать об этом. Это своего рода предложение толпы и руководство стюардами, поэтому у нас есть кое-какие возможности.

Ребекка Йозвиак: Хорошо, хорошо. И если бы вы могли просто дать людям знать, как лучше всего начать работу с Alation и куда они могут обратиться, чтобы получить больше информации. Я знаю, что вы поделились этим немного. Это лучшее место?

Дэвид Кроуфорд: Alation.com/learnmore Я думаю, это отличный путь. Чтобы подписаться на демонстрацию, на сайте Alation.com есть много отличных ресурсов, официальных документов и новостей о нашем решении. Поэтому я думаю, что это отличное место для начала. Вы также можете по электронной почте.

Ребекка Йозвиак: Хорошо, отлично. И я знаю, посетители, извините, если я не ответил на все вопросы сегодня, но если нет, они будут перенаправлены Дэвиду, его команде по продажам или кому-то в Alation, чтобы они могли определенно помочь ответить на ваши вопросы и помочь понять что делает Alation или что они делают лучше всего.

И с этим, ребята, я пойду и подпишу нас. Вы всегда можете найти архивы на InsideAnalysis.com. Вы также можете найти его на Techopedia.com. Они имеют тенденцию обновляться немного быстрее, так что обязательно проверьте это. И большое спасибо Дэвиду Кроуфорду, Дезу Бланчфилду и Робину Буру сегодня. Это была отличная веб-трансляция. И с этим я попрощаюсь с вами. Спасибо, ребята. Пока-пока.

Дэвид Кроуфорд: Спасибо.

Сила внушения: как каталог данных расширяет возможности аналитиков