Персоналом Техопедии, 8 июня 2016 г.
Вывод: ведущий Эрик Кавано обсуждает инновации в технологии баз данных с экспертами Дезом Бланчфилдом, Робином Блором и Бертом Скальцо.
Вы не вошли в систему. Пожалуйста, войдите или зарегистрируйтесь, чтобы увидеть видео.
Эрик Кавана: Дамы и господа, сегодня среда, в четыре часа по восточному времени. Я в Новом Орлеане, лето наступает, значит, жарко! Пришло время для Hot Technologies, да, действительно, да, действительно. Меня зовут Эрик Кавана, я буду вашим хозяином. Я собираюсь отбить мяч назад за Горячие Технологии. Сегодняшняя тема: «Прямой импульс: выход за пределы традиционного». Ребята, сегодня у нас есть три эксперта по базам данных, поэтому любые вопросы, которые у вас есть, присылайте их на сложные, не стесняйтесь. Сегодня у нас есть куча хорошего контента. Есть место о твоем правде, достаточно обо мне. Конечно, в этом году жарко. Мы говорим все о горячих технологиях в этом шоу, которое является партнерством с нашими друзьями из Techopedia. И сегодня мы подошли к основам управления информацией, которая, конечно же, является базой данных. Мы поговорим о том, как мы попали сюда, что происходит сегодня и что происходит дальше. Происходит много очень интересных вещей.
Очевидно, у нас есть некоторые серьезные инновации в области базы данных. Какое-то время было тихо; Если вы поговорите с некоторыми аналитиками в бизнесе, я бы сказал, что, вероятно, с 2005 по 2009 год или с 10-го года, похоже, что с точки зрения инноваций не так уж много происходит. И внезапно он только что разразился, как джейлбрейк или что-то в этом роде, и теперь происходит много всего интересного. Многое из-за масштаба сети и всех интересных веб-свойств, которые делают разные интересные вещи. Вот откуда появилась концепция NoSQL. И это означает две разные вещи: это означает отсутствие SQL, поскольку в нем не поддерживается SQL, это также означает не только SQL. Есть термин «NewSQL», который использовали некоторые люди. Но очевидно, что SQL - язык структурированных запросов - действительно является основой, основой запросов.
И интересно, что все эти движки NoSQL, что случилось? Ну, они вышли, было много волнения об этом, а потом, спустя несколько лет, что мы все начали слышать? О, SQL на Hadoop. Все эти компании начали использовать интерфейсы SQL на своих инструментах NoSQL, и любой, кто находится в мире программирования, знает, что это приведет к некоторым трудностям и трудностям, к некоторым перекрещенным проводам и так далее. Итак, мы собираемся узнать о многих из этих вещей сегодня.
У нас три докладчика: к нам звонит Дез Бланчфилд из Сиднея, наш собственный Робин Блур, который находится в Техасе, как и Берт Скальцо, он тоже в Техасе. Итак, прежде всего мы услышим от Деза Бланчфилда. Ребята, мы будем чирикать в хэштеге #HotTech, поэтому не стесняйтесь отправлять свои комментарии или отправлять свои вопросы через компонент вопросов и ответов консоли веб-трансляции или даже через окно чата. И с этим, Дез Бланчфилд, забери это.
Дез Бланчфилд: Спасибо, Эрик. Всем привет. Итак, я попытаюсь установить сцену с точки зрения 30 000 футов, вроде того, что произошло за последнее десятилетие, и значительных сдвигов, которые мы наблюдали - или, по крайней мере, полтора десятилетия - системы управления базами данных, а также некоторые воздействия с коммерческой или технической точки зрения, а также некоторые из тенденций, которые мы пережили в последнее время, и ведут нас к разговору, который мы собираемся провести сегодня по этой теме.
Мое изображение на обложке здесь - песчаная дюна, и с ее верха дует ветер с крошечными кусочками песка. И в результате этого песчаная дюна медленно перемещается из одного пространства в другое. И это удивительное явление, когда эти огромные песчаные горы высотой 40 и 50 футов фактически движутся. И они двигаются очень медленно, но они движутся наверняка, и, двигаясь, они меняют ландшафт. И это очень интересно, если вы проводите какое-то время в районе, где песчаные дюны являются естественным явлением. Потому что однажды вы можете посмотреть в окно и понять, что эта огромная песчаная гора, маленькие крошечные зерна, по сути, сами переместились, и что ветер медленно перемещает ее из одного места в другое.
И я думаю, что во многих отношениях это был мир систем баз данных в течение достаточно долгого времени. Еще совсем недавно этот очень маленький сдвиг в виде песчинок переместил гигантскую песчаную гору в виде песчаной дюны. С годами небольшие сдвиги произошли в платформах баз данных, и это была довольно стабильная и надежная среда вокруг систем баз данных и платформ на протяжении мейнфрейма эпохи среднего уровня. Но в последнее время у нас произошли довольно важные вещи с нашими коммерческими потребностями и нашими техническими драйверами. Я собираюсь провести нас через них.
У меня есть мнение, что основная концепция базы данных, какой мы ее знали в течение многих, многих лет, и, как вы, возможно, слышали во время предварительной выставки, наши два эксперта, которые сегодня находятся на связи со мной, прожили всю жизнь в это пространство, и они совершенно правы в том, что разделяют права хвастаться тем, что были там, когда все это началось в начале 80-х. Но мы наблюдали этот огромный сдвиг за последнее десятилетие и немного, и я собираюсь быстро провести нас, прежде чем передать его доктору Робину Блуру.
Мы прошли через то, что я называю опытом «больше, лучше, быстрее, дешевле». Как я уже сказал, определение базы данных изменилось. Ландшафт, в котором платформы баз данных должны были учитывать производительность, а также технические и коммерческие требования также изменились. Мы наблюдаем рост спроса на решения для решения более сложных коммерческих или более сложных технических требований. И поэтому очень быстрый взгляд на то, что это на самом деле означает, на мой взгляд, состоит в том, что мы подошли к 90-м годам, и мы увидели технологию баз данных, на которую повлияло появление Интернета, и то, что мы тогда называли Интернетом. масштаб. Мы не просто говорили о людях, сидящих перед терминалами, первоначально подобных терминалам телетайпа со встроенными в них физическими принтерами и 132 столбцами текста, выходящими на бумаге. Тогда рано зеленый экран терминалов, пробивая с клавиатуры.
Но вы знаете, наш мир был терминалами и последовательными кабелями или сетевыми кабелями, которые долго общались с компьютерами. Затем появился Интернет и этот взрывной рост числа подключений, так что вам больше не нужно было подключаться к компьютеру. Чтобы попасть в систему баз данных, вам просто нужен веб-браузер. Таким образом, технологии баз данных должны были кардинально измениться, чтобы иметь дело с масштабом всего, от базовых технологий поисковых систем, которые использовались для индексации мира и хранения индекса информации, на примере масштаба формата базы данных. И такие люди, как Google и другие, предоставили платформу для этого. И все новые типы хранения баз данных и запросов и индексации были произведены. А потом у нас были музыкальные сайты и кино сайты.
А затем, в 2000-х годах, мы увидели бум доткомов, который вызвал еще более драматический взрыв числа людей, использующих системы, которые неизменно питались базой данных некоторой формы. На этом этапе реляционные базы данных по-прежнему справлялись с большей частью нагрузки, мы просто перекладывали их на большие объемы и переходили к очень, очень, очень крупным средним системам, работающим на платформах Unix, от таких людей, как IBM, Sun и так далее., Бум доткомов только увеличил и ускорил ситуацию с точки зрения аппаратного обеспечения и производительности, и в движках баз данных произошли некоторые существенные изменения, но, к лучшему, это было то же самое, что мы видели в много времени.
И тогда мы получили эту эру web 2.0, как мы на нее ссылаемся. И это был чудовищный сдвиг, потому что внезапно нам понадобились гораздо более простые платформы баз данных, и должен был быть масштаб в горизонтальной форме. И это был настолько значительный сдвиг в том, что мы подошли к идее о том, что такое база данных. Мы все еще действительно догоняем сейчас, на мой взгляд. И теперь мы имеем дело со всем этим трясиной, и я говорю, что с положительным вращением, а не с отрицательной коннотацией, с этим трясиной, которую мы называем большими данными, и огромным взрывом, и я имею в виду взрыв. Это возмутительное смещение по вертикали на графике количества вариантов, которые мы имеем, когда мы говорим о базе данных, и некоторой форме возможностей реляционных запросов.
И что интересно, лично я считаю, что большие данные на самом деле являются лишь верхушкой айсберга. Мы, как правило, немного волнуемся о влиянии больших данных и о типах вариантов, которые у нас есть сейчас. У нас есть все от движков NoSQL, у нас есть графические движки, у нас есть все эти разные типы платформ, на которые мы можем генерировать данные и что-то с ними делать. Даже до такой степени, что на самом деле одна из самых первых моих бесед с Эриком Кавана, который находится здесь с нами сегодня, была вокруг разговора, касающегося вещи под названием Apache Drill, которая является проектом с открытым исходным кодом, который позволяет вам делать запросы Данные внутри модели различаются по типам данных: от необработанных файлов CSE на жестком диске до файловых систем HDFS в петабайтном масштабе. И вы знаете, это позволяет вам выполнять эти запросы в стиле SQL со структурированными и неструктурированными данными всех видов захватывающих растений.
Мы собираемся сделать так, чтобы «умное здание» стало чем-то особенным, и мы хотели бы думать, что у нас есть умные здания безопасности и управления теплом, но я говорю об умных зданиях, которые знают гораздо больше о том, кто вы есть и где вы находитесь, когда вы входите и делаете все виды аккуратных вещей на этом уровне, вплоть до умных городов - целых экосистем на уровне городов - которые знают, как делать вещи разумно. И кроме того, у нас есть эта невероятная вещь, которую, я думаю, никто в мире не осознал полностью, и это форма Интернета вещей. За последнее десятилетие произошли все эти различные изменения, и, если мы округлим, немного, может быть, примерно два десятилетия, это, на мой взгляд, как-то повлияло на мир того, что мы считаем базами данных.
Было несколько важных вещей, которые сделали это возможным. Стоимость жестких дисков значительно снизилась, и во многих отношениях это позволило использовать некоторые эталонные архитектуры, такие как модель Hadoop, так как мы берем большое количество данных и распределяем их по множеству жестких дисков, и делать умные вещи с ним. И, по сути, то, что стало осколком, на мой взгляд, реляционной базы данных или традиционной модели блоков БД. А оперативная память стала очень, очень дешевой, и это дало нам совершенно новую возможность играть с различными эталонными архитектурами, такими как оперативная память, и выполнять такие вещи, как разделение очень, очень больших кусков данных.
Таким образом, это дало нам маленькую картину, на которую мы сейчас смотрим, которая представляет собой диаграмму, показывающую типы платформ, которые доступны, если вы находитесь в среде больших данных. И это очень, очень трудно читать, и причина тому, слишком много информации об этом. Существует так много вариантов изготовления, моделирования и изготовления способов размещения данных в системах баз данных любой формы, а также запроса и выполнения традиционных операций чтения-записи. И они не все совместимы, на самом деле очень немногие из них даже соответствуют какому-либо базовому стандарту стиля, но они все еще считают себя базой данных. И я собираюсь показать вам пару экранов в секунду, чтобы дать вам некоторое представление о том, что я имею в виду под переходом от 90-х годов и масштаба Интернета к веб-версии 2.0, а затем весь рост за счет больших данных. Если мы думаем, что этот пейзажный граф с технологией больших данных впечатляет, потому что на нем много опций, давайте просто посмотрим на одну ключевую вертикаль.
Давайте посмотрим на маркетинговые технологии. Вот варианты для систем управления базами данных или управления данными внутри только мар-тек пространства, поэтому технологии связаны с маркетингом. Это было в 2011 году, несколько лет назад; пять лет назад так выглядел пейзаж. Если я кратко вернусь на один слайд, это то, как выглядит современный ландшафт данных в различных брендах и предложениях, которые мы получили в технологиях баз данных. Вот как пять лет назад выглядела одна вертикаль, только в маркетинговой технологии.
Теперь, если я перейду к сегодняшнему взгляду, это то, на что это похоже, и это совершенно непроницаемо. Это просто стена брендов и опций, и это тысячи и тысячи комбинаций программного обеспечения, которое считает себя частью класса базы данных, которое может захватывать, создавать или хранить и извлекать данные в различных формах. И я думаю, что сейчас мы вступаем в очень, очень интересное и смелое время, когда когда-то вы могли знать основные бренды, вы могли знать пять или шесть различных платформ от Oracle и Informix, DB2 и так далее, и быть почти эксперт по всем брендам, которые были доступны около 20 лет назад. Десять лет назад стало немного легче, потому что некоторые бренды обвалились, и не все бренды могли справиться с масштабом бума доткомов, а некоторые компании просто обанкротились.
Сегодня абсолютно невозможно быть экспертом по всем существующим технологиям баз данных, будь то реляционные базы данных или стандартные платформы управления базами данных, которые мы узнали за последние пару десятилетий. Или, скорее всего, дело в более современных двигателях, таких как Neo4j и тех типах. И поэтому я думаю, что мы вступаем в очень смелый мир, где доступно множество вариантов, и у нас теперь есть платформы в горизонтальном масштабе, как в оперативной памяти, так и на диске. Но я думаю, что это непростое время для тех, кто принимает решения в области технологий и бизнеса, потому что им нужно принимать очень важные решения по технологическим стекам, которые в некоторых случаях существовали всего несколько месяцев. Восемнадцать месяцев - не страшное число для некоторых из самых захватывающих и новых платформ баз данных с открытым исходным кодом. И они начинают объединять платформы и становятся еще более новыми и захватывающими.
Я думаю, что сегодня у нас будет отличный разговор о том, как все это повлияло на традиционные платформы баз данных и как они реагируют на это, и типы технологий, которые используются в этом. И с учетом этого я сейчас перейду к доктору Робину Блуру и узнаю его мнение. Робин, к тебе.
Робин Блур: Хорошо, спасибо за это. Да, это слишком большая тема. Я имею в виду, если бы вы просто взяли одну из иллюстраций, которые только что показала вам Дез, вы могли бы долго поговорить об одной из них. Но вы знаете, вы можете обращаться к базе данных - я смотрел базы данных, я не знаю, с 1980-х годов, и вы можете смотреть на базу данных по-разному. И одна из вещей, которые я рассчитывал сделать, просто добавив сегодня разговор, - это рассказать о причине, по которой разрушительные вещи произошли на уровне аппаратного обеспечения. И вы должны иметь в виду, что на уровне программного обеспечения действительно произошло очень много разрушительных вещей, так что это не полная картина чего-либо, это просто аппаратная вещь.
Я не собирался говорить слишком долго, я просто хотел дать вам аппаратную картину. База данных представляла собой возможности извлечения данных, охватывающие процессор, память и диск, и это резко меняется. И причина, по которой я это сказал, заключалась в том, что я научился понимать базу данных с точки зрения того, что вы на самом деле сделали. Вы знаете, есть разница в задержке между данными на самом процессоре и данными, загружаемыми в процессор из памяти, и данными, переносимыми с диска в память и через процессор. И старые архитектуры баз данных просто пытались сбалансировать это. Вы знаете, они просто говорили: «Ну, это идет очень медленно, мы будем кэшировать данные на диске, чтобы они были в памяти. Мы постараемся сделать это очень точно, чтобы действительно хорошая часть запрашиваемых нами данных уже находилась в памяти. И мы перенесем данные на процессор так быстро, как сможем ».
И базы данных были написаны в старые времена, машины написаны для небольших кластеров. А теперь для невежественных параллелей. Потому что, если вы хотите повысить производительность кластера, вам придется параллельно выполнять различные действия. Параллелизм - это часть игры, совсем не такая, как сейчас. Я просто прогуляюсь по тому, что случилось.
Прежде всего, диск. Ну, диск окончен, правда. Это в значительной степени закончено в отношении баз данных. Я думаю, что существует несколько контекстов для архивирования данных, и даже очень большие озера данных, работающие на Hadoop, худший вращающийся диск, вероятно, жизнеспособен в настоящее время. Действительно, проблема с вращающимся диском заключалась в том, что скорость чтения особо не улучшалась. И когда процессор увеличивал скорость закона Мура, на порядок выше, каждые шесть лет. И память как бы следовала за ней, затем эти двое разумно шли в ногу друг с другом, это было не совсем гладко, но они это сделали.
Но случайное чтение на диск, где голова летит вокруг диска, я имею в виду, кроме всего прочего, это физическое движение. И если вы делаете случайное чтение с диска, это невероятно медленно по сравнению с чтением из памяти, это как в 100 000 раз медленнее. И сравнительно недавно большинство архитектур баз данных, на которые я смотрел в любой глубине, фактически только последовательно читали с дисков. Вы действительно хотите, так или иначе, просто кэшировать как можно больше с диска, вынуть его из этого медленного устройства и поместить его в быстрое устройство. И есть много умных вещей, которые вы можете сделать с этим, но это вроде бы закончилось.
И твердотельные диски, или флэш-накопители, действительно, то, что они есть, очень быстро заменяет вращающийся диск. И это снова полностью меняется, потому что способ организации данных на диске организован в соответствии с тем, как работает диск. На самом деле речь идет о головке, движущейся по вращающейся поверхности, фактически о нескольких головках, движущихся по нескольким вращающимся поверхностям, и собирающих данные по мере их движения. Твердотельный накопитель - это просто блок материала, который вы можете прочитать. Я имею в виду, во-первых, все традиционные базы данных были спроектированы для вращающегося диска, а теперь они перестраиваются для SSD. Новые базы данных, вероятно, могут - любой, кто пишет новую базу данных сейчас, может игнорировать вращающийся диск, даже не думать об этом. Но Samsung, крупнейший производитель твердотельных накопителей, говорит нам, что твердотельные накопители на самом деле находятся на кривой закона Мура.
Я думаю, что они уже были в три-четыре раза быстрее вращающегося диска, но теперь они будут работать намного быстрее каждые 18 месяцев. Удвоить скорость и увеличить ее в 10 раз примерно до шести лет. Если это было только это, однако, это не так, как я скажу вам через минуту. Конечно, вращающийся диск становится средой архивации.
О памяти. Перво-наперво, оперативная память. Соотношение ЦП между ОЗУ на ЦП все время увеличивается. И это, конечно, в некотором смысле обеспечивает намного большую скорость, потому что акры памяти, которые вы можете иметь сейчас, могут хранить намного больше. На самом деле это уменьшает нагрузку на приложения типа MLTP или приложения для случайного чтения, потому что их легче обслуживать, потому что теперь у вас много памяти, и таким образом вы можете кэшировать все, что скорее всего, будет прочитано в память. Но вы сталкиваетесь с проблемами с большей кучей данных, поэтому большие данные на самом деле не так просто, на самом деле.
Кроме того, у нас есть Intel с 3D Xpoint, а IBM с так называемой PCM, то есть памятью с фазовым переходом, предлагает то, во что они верят - ну, как минимум, в 10 раз быстрее, чем современные твердотельные накопители, и они верят, что получат очень близко к той же скорости, что и ОЗУ. И, конечно, это дешевле. Раньше у вас была структура базы данных ЦП, памяти и диска, и теперь мы движемся к структуре, которая имеет четыре слоя. Он имеет ЦП, память или ОЗУ, а затем этот тип памяти быстрее SSD, который на самом деле является энергонезависимым, а затем SSD. И эти новые технологии энергонезависимы.
И есть мемристор HP, которого еще нет, вы знаете, потому что он был анонсирован около семи лет назад, но еще не появился. Но ходят слухи, что HP собирается немного изменить игру с помощью мемристора, так что у вас просто новая ситуация с памятью. Это не значит, что у нас есть более быстрые вещи, это похоже на то, что у нас есть целый новый слой. И тогда у нас есть тот факт, что доступ к SSD, вы можете читать его параллельно. Вы не можете читать вращающиеся диски параллельно, за исключением того, что у вас есть много разных вращающихся дисков. Но блок SSD вы можете читать параллельно. И поскольку вы можете читать это параллельно, он идет намного быстрее, чем его простые скорости чтения, если вы фактически настроили несколько процессов в разных процессах на одном процессоре и просто подключились к SSD.
По оценкам, вы можете получить почти до скорости оперативной памяти, делая это. И все, что это говорит, будущее архитектуры памяти неясно. Я имею в виду, что реальность такова, что различные доминирующие поставщики, кем бы они ни оказались, вероятно, будут определять направление аппаратного обеспечения. Но никто не знает, куда он идет в данный момент. Я говорил с некоторыми инженерами баз данных, которые говорят: «Я не боюсь того, что происходит», но они не знают, как оптимизировать его с самого начала. И ты всегда так делал, так что это интересно.
И еще есть процессор. Ну, многоядерные процессоры были не просто многоядерными процессорами. У нас также есть значительные объемы кэш-памяти L1, L2 и L3, в частности L3, который составляет, я не знаю, десятки мегабайт. Вы можете многое там поставить, вы знаете. И, следовательно, вы можете использовать чип в качестве средства кэширования. Так что это изменило игру. И, конечно же, многие поставщики сделали векторную обработку и сжатие данных, перетаскивая эти данные на ЦП, чтобы все это работало намного быстрее на ЦП. Тогда вы получаете тот факт, что процессоры с графическими процессорами действительно хороши в ускорении аналитики. И они действительно довольно хороши в определенных видах запросов, это зависит только от того, какой у вас запрос.
Вы можете создавать платы с процессорами и графическими процессорами, или, как сейчас делает AMD, вы производите нечто, называемое APU, что является своего рода сочетанием процессора и графического процессора; у него есть оба вида способностей. Так что это другой вид процессора. А потом недавнее объявление Intel о том, что они собираются поставить FPGA на чип, что-то вроде меня задело. Я подумал: «Как, черт возьми, это произойдет?» Потому что, если у вас есть возможность CPU, GPU, и у вас есть возможность CPU, FPGA - и, между прочим, если вы действительно хотите, на одной плате вы можете разместить CPU, и GPU, и FPGA. Я понятия не имею, как бы вы на самом деле работали таким образом, но я знаю компании, которые делают подобные вещи, и они получают очень и очень быстрые ответы на запросы. Это не то, что будет игнорироваться, это то, что будет использоваться признанными поставщиками и, возможно, новыми поставщиками. СУБД всегда были параллельны, но теперь параллельные возможности просто взорвались, потому что это позволяет вам распараллеливать это с этим, с этим, с этим по-разному.
Наконец, чтобы увеличить или уменьшить масштаб? Масштабирование - действительно лучшее решение, но с одной стороны. Вы получите гораздо лучшую производительность узла, если просто сможете полностью оптимизировать производительность процессора и памяти на диске на одном узле. И вы будете использовать меньше узлов, так что это будет дешевле, верно? И это будет легче управлять. К сожалению, это аппаратно-зависимый дизайн, и по мере изменения аппаратного обеспечения это становится все менее и менее возможным, если только ваши инженеры не смогут работать так же быстро, как меняется оборудование. И у вас возникают проблемы с рабочей нагрузкой, потому что, когда вы увеличиваете масштаб, вы делаете различные предположения о том, что будет делать рабочая нагрузка.
Если вы масштабируете, то есть если ваша архитектура подчеркивает масштабирование до масштабирования - на самом деле вы должны сделать их оба, просто вы подчеркиваете один. Тогда вы получите лучшую производительность сети, потому что архитектура будет иметь дело с этим. Это будет дороже с точки зрения аппаратного обеспечения, потому что будет больше узлов, но будет меньше проблем с рабочей нагрузкой и будет более гибкий дизайн.
И я просто подумал, что добавлю это, потому что если вы на самом деле думаете обо всех аппаратных изменениях, на которые я просто указал пальцем, а затем вы подумали, как вы собираетесь увеличивать и уменьшать масштаб этого материала? Тогда вы понимаете, что инженеры баз данных, по крайней мере, на мой взгляд, плохо оплачиваются. Так что, если вы просто рассматриваете аппаратный уровень, проблемы с базой данных очевидны. Теперь я передаю это Берту, который заставит нас всех чувствовать себя образованными.
Эрик Кавана: Вот и все! Берт?
Берт Скальцо: Большое спасибо. Позвольте мне сразу перейти к этим слайдам. Мне нужно просмотреть много слайдов, поэтому на некоторых из них я могу пройти довольно быстро. Мы будем говорить об этом «Прямом импульсе: движение за пределы традиционного». Это больше не база данных вашего отца. Ситуация изменилась, и, как сказал более ранний оратор, за последние шесть-семь лет ландшафт радикально изменился.
Я сам занимаюсь базами данных с середины 80-х годов. Я написал книги по Oracle, SQL Server, бенчмаркингу и многим другим вещам. «Мир очень быстро меняется. Большое больше не побьет маленькое. Это будет быстрое избиение медленного ». Я добавил« адаптироваться ». Это было от Руперта Мердока. Я действительно верю, что это будет правдой. Вы не сможете работать с базами данных так, как 10, 15, 20 лет назад. Вы должны будете делать это так, как этого хочет бизнес.
Я постараюсь остаться немного общим в том, что я представляю, но большинство функций, о которых я говорю, вы найдете в Oracle, вы найдете в SQL Server, MySQL, MariaDB и некоторых других крупных игроки. Революция в реляционной базе данных, я снова согласен с предыдущими ораторами. Если вы посмотрите прямо в 2010 году, мы перешли от красной гоночной машины к желтой гоночной машине. Произошли существенные изменения, и к 2020 году, я думаю, вы увидите еще одно радикальное изменение. Мы в очень интересном времени.
Теперь этот слайд является ключевым, поэтому я поставил ключ там. Все эти изменения происходят, и с левой стороны у меня есть технологии, а с правой стороны у меня есть бизнес. И вопрос в том, кто что вызывает, а кто что поддерживает? У нас есть все эти аппаратные изменения: диски уменьшаются, размер диска увеличивается, новые типы дисков, так что это было рассмотрено предыдущими ораторами. Цена памяти падает, все эти новые версии баз данных. Но с правой стороны у нас есть защита и соответствие данных, хранение данных, бизнес-аналитика, аналитика, обязательное хранение данных. Обе стороны уравнения являются движущими, и обе стороны уравнения будут использовать все эти новые функции.
Во-первых, у нас есть типичный вращающийся диск SAS, теперь он имеет до 10 терабайт. Если вы еще не видели, Western Digital, у HGST есть то, что они называют своим гелиевым накопителем, который сейчас достигает примерно 10 терабайт. Затраты на вращающийся диск становятся довольно низкими. Как упоминалось ранее, вы можете получить твердотельные диски объемом до двух терабайт, но в скором времени у Samsung появится 20-терабайтный блок. Затраты становятся разумными. Одна вещь, которую я собираюсь рассказать о других, которых нет, это концепция флеш-дисков. PCIe, это PCI Express, в отличие от NVMe, вы, возможно, слышали или не слышали об этом энергонезависимом экспрессе памяти. По сути, NVMe станет заменой SAS и SATA, и это действительно больше коммуникационный протокол, чем все остальное. Но эти диски до трех терабайт сейчас.
Вы также, возможно, видели, что некоторые диски SAS теперь поставляются с разъемами U.2, которые в некотором роде отличаются от разъемов SAS или SATA, которые поддерживают NVMe со стандартным диском - диск, конечно же, должен его поддерживать. А потом SATA с разъемами M.2, и те начинают получать NVMe. Фактически, есть производители ноутбуков, которые сейчас продают ноутбуки с флэш-диском NVMe, и эти вещи будут кричать по сравнению с технологией, которую вы использовали ранее.
Многие люди не знают, что это за вспышки. Если вы посмотрите в правом нижнем углу, это пример M.2. Вы можете сказать: «Ну и дела, это очень похоже на накопитель mSATA слева от него». Но, как вы можете видеть, у него есть два зазора по сравнению с одним, и он немного больше. А также, M.2 может быть трех разных размеров.
Затем флэш-память PCI Express и флэш-память NVMe. Теперь флэш-память NVMe также является PCI Express, но PCI Express обычно по-прежнему является алгоритмом контроллера типа SAS или SATA, который был написан для вращающегося диска, а NVMe - это алгоритмы или методы, которые были написаны специально для флэш-памяти. И снова вы увидите все это.
NVMe предлагает немало вещей. Я думаю, что два самых больших улучшения, в правом верхнем углу, задержка уменьшается на целых 70 процентов. Я на самом деле видел даже выше, чем это. Кроме того, если вы посмотрите в правый нижний угол, когда ваша операционная система обращается к диску NVMe, она проходит через гораздо меньше уровней программного обеспечения. По сути, вы проходите через драйвер NVMe, который теперь включен в операционную систему, и он напрямую обращается к носителю. Есть много причин, почему эта технология радикально изменит мир баз данных.
И много раз люди говорили: «Ну, как быстро NVMe?». Вы знаете, в старые добрые времена, в 2004 году и раньше, мы были взволнованы, если бы у нас был Ultra-320 SCSI, 300 мегабайт в секунду. Сегодняшние скорости, многие из вас, вероятно, на оптоволокне или InfiniBand, и такие виды превосходят. NVMe там справа, начинается там, где заканчиваются современные технологии. Я имею в виду, что PCI Express 3.0 с восьмиполосным каналом начинается с почти 8000, и он будет расти по мере того, как мы получим более новые версии PCI Express, версии четыре и так далее. NVMe идти некуда, кроме как вверх.
Теперь, что меняется в базе данных? Теперь в верхнем правом углу моих слайдов я изложил причины, по которым, я думаю, появилась технология. В этом случае из-за хранилищ данных и нормативных причин обязательного хранения данных базы данных начинают предлагать сжатие в них. Теперь некоторые базы данных предлагают сжатие в качестве дополнения, некоторые предлагают его как встроенный в стандарт, скажем, корпоративную редакцию своей базы данных, и все же некоторые базы данных, как в Oracle, могут даже иметь еще лучшую версию сжатия, которая скажем, в их платформе Exadata, поэтому они на самом деле создали оборудование, которое может поддерживать очень специализированное сжатие, а это, например, в Exadata, имеет степень сжатия 40x, и это очень важно. И я думаю, что это обязательное хранение данных, люди просто хотят, чтобы данные дольше. Предприятиям для аналитики и бизнес-анализа необходимы данные за последние 5, 10, 15 лет.
Теперь появилась еще одна функция, которая начала появляться примерно в том же периоде 2008 и 2009 годов, - это разделение. Опять же, вы найдете это в базах данных, таких как Oracle, SQL Server, и в обеих из них вам придется заплатить за это. В Oracle вы должны купить опцию разделения, а в SQL Server вы должны быть в редакции центра обработки данных. Это ваша традиционная техника «разделяй и властвуй», и у вас там есть концепция большой логической таблицы вверху, а когда она помещается на диск, она фактически разбивается на сегменты. И вы можете видеть, что эти сегменты организованы по некоторым критериям для разделения, обычно ссылаются или называются вашей функцией разделения, а затем аналогичным образом вы можете также подразделить на некоторых платформах баз данных, и вы можете пойти еще дальше.
Опять же, я думаю, что и хранилище данных, и обязательное хранение данных подтолкнули это, и в некоторых из этих баз данных вы можете иметь до 64 000 разделов, и я считаю, что в некоторых других базах данных даже до 64 000 подразделов. Это позволяет вам разбить ваши данные на управляемые части. Вы также разделите индексы; это опция, вам не нужно, но вы также можете разделить свои индексы. Одной из причин этого может быть то, что у вас есть скользящее окно данных. Вы хотите сохранить данные за 10 лет, но чтобы отбросить индексы для выполнения пакетной загрузки сегодня вечером, вам не нужно отбрасывать индексы для каждой отдельной строки, только для строк в текущем сегменте. Разбиение на самом деле является очень хорошим административным инструментом, хотя большинство людей считает, что его большое преимущество заключается в отказе от удаления разделов в ваших планах и, следовательно, ускорении запросов. Это действительно своего рода глазурь на торте.
Теперь вы, наверное, слышали о шардинге и, возможно, думаете: «Ну, зачем вы разместили этот слайд здесь?» Это один из тех NoSQL - это одна из тех сред типа Hadoop. Oracle 12c выпустил два, которые еще не G8, но которые показываются или демонстрируются, на самом деле имеют шарды. У вас будет традиционная система баз данных, такая как Oracle, и вы сможете осколковать, как в модели Hadoop, и поэтому у вас будет еще один метод «разделяй и властвуй», который разделит ваш построчно разбивайте таблицы на группы по узлам, и это будет так же, как то, что вы видите в некоторых ваших базах данных NoSQL. И на самом деле MySQL, вы можете сделать это в значительной степени, используя один из методов кластеризации, но он подходит к традиционной базе данных, и я предполагаю, что Microsoft не захочет отставать. Эти двое постоянно играют друг с другом, поэтому я ожидаю увидеть шардинг в следующей версии SQL Server.
Управление жизненным циклом данных, опять же обязательное хранение данных, но также для бизнес-аналитики и аналитики. Действительно, это метод «разделяй и властвуй», и, как правило, администраторы баз данных делают это вручную, а именно: «Я собираюсь сохранить данные этого года на быстрых дисках, данные прошлого года на немного более медленных дисках, возможно, я собираюсь сохранить последние два года до этого на еще более медленных дисках, и тогда у меня будет какой-то архивный метод ». Как правило, он больше не записывается на пленку, обычно - у вас есть какое-то сетевое хранилище или какое-то устройство, которое имеет много хранения и, вы знаете, экономически выгодно, но это все еще крутящийся диск.
И теперь вы можете - как в Oracle, так и в SQL Server - вы можете приобрести опцию, в которой вы определяете правила, и это просто происходит автоматически в фоновом режиме. Вам больше не нужно писать сценарии, вам не нужно ничего делать. И если вы видели SQL Server 2016, который только что вышел в июне, есть новая функция, которая называется «Растянуть базы данных», которая в основном позволяет вам - в правом нижнем углу - вы можете перемещаться из нескольких слоев прямо в облако и опять же, это функция, которая встроена в базу данных, вы просто говорите что-то вроде: «Если данные старше 365 дней, пожалуйста, переместите их в облако и, вы знаете, сделайте это автоматически для меня».
Это будет действительно крутая функция, на самом деле я думаю, что это может быть тем, что мы увидим в будущем, то есть у вас будут гибридные базы данных, где вы будете хранить некоторые локальные а некоторые в облаке. До этого люди думали: «О, я или собираюсь делать на месте, или я собираюсь делать в облаке». Теперь мы видим соединение двух технологий в этом гибридном стиле. Я думаю, что это будет довольно большим, и Microsoft попала туда первой
Редакция, это связано с защитой данных и соблюдением. Теперь, в старые добрые времена, мы могли бы сказать: «Эй, разработчик приложений, когда вы отображаете это в отчете, когда вы отображаете это на экране, вот некоторые вещи, которые нужно проверить, и, пожалуйста, вы знаете, только показывайте данные они должны видеть или маскировать или редактировать данные, которые они не должны видеть ». Ну, как обычно, когда вы отправляете их в приложение, это делается не в одном месте, поэтому это делается по-другому, или это не так. не сделано в некоторых местах. И теперь у вас есть такая возможность в ваших системах баз данных.
Теперь, в SQL Server 2016, эта функция встроена, так что, я полагаю, она не является дополнительной статьей затрат для добавления в центр обработки данных; а в Oracle 12 вы должны купить их надстройку для управления жизненным циклом, но это что-то новое, и опять-таки это зависит от бизнеса. И особенно потому, что вы сейчас храните так много данных, и вы занимаетесь интеллектуальным анализом данных, поэтому BI и аналитики должны знать, кто имеет доступ к каким данным, и убедиться, что им разрешено видеть только то, что им разрешено видеть
Кроме того, еще раз посмотрите на это, защита данных и соответствие. Вы обнаружите, что многие системы баз данных в настоящее время создают сжатие или, извините, шифрование непосредственно в базе данных и что важно в этом шифровании, если вы посмотрите на стрелку вниз и стрелку вверх на диаграмме, на которой она записана. до зашифрованного диска, а затем читает его обратно в память и расшифровывает. Это на самом деле одна модель, есть другая модель, которая, вы знаете, на самом деле делает это только тогда, когда она передает эти данные по сети реальному клиентскому приложению.
В этом случае он даже на сервере базы данных в памяти может быть зашифрован и дешифрован только при отправке клиентскому приложению. Здесь есть две разные модели, и вы найдете их в базах данных, и фактически одна из баз данных, которая недавно добавила это, была MariaDB в их версии 10.X; Я считаю, что они на 10.1 или 10.2 сейчас. И я на самом деле провел некоторые тесты для этого шифрования, и для того, чтобы получить это шифрование, я испытал только примерно 8-процентное снижение пропускной способности или скорости. В бенчмаркинговом тесте шифрование не вызывало так много, и поэтому это очень полезная функция.
Теперь мы уже упоминали ранее о флэш-памяти и SSD и подобных вещах. Одна из функций, которые есть у вас в Oracle и SQL Server, о которых многие люди не догадываются, это то, что вы можете использовать флэш-память или твердотельный накопитель на своем сервере базы данных и сказать базе данных: «Используйте это так, как если бы это была память. Относитесь к ОЗУ как к предпочтительному, но притворяйтесь, будто это медленная память, и используйте ее как расширенный кеш ». Теперь в SQL Server 2014 это вышло и называлось« Расширение буферного пула », оно бесплатно. В Oracle он вышел в 11g R2 и назывался «Database Flash Cache», и он также был там бесплатным.
Однако мой совет - тщательно протестировать эту функцию. Каждый раз, когда вы увеличиваете кеш, когда вы делаете поиск, это занимает больше времени. Если вы поместите флеш-карту объемом три терабайта и скажете базе данных: «Добавьте это в свою память», вы на самом деле можете обнаружить, что что-то замедлилось из-за того, что время заглянуть и посмотреть, является ли оно флэш-памятью, грязное или чистый? Есть точка убывающей отдачи. Мой совет: снова протестируйте этот диск, посмотрите, что работает для вас, но опять же, он находится в вашей базе данных, а в случае Oracle, как в SQL Server, так и в Oracle, он существует уже пару лет.
И затем это приводит нас к дедушке, который был базами данных в памяти, и это потому, что цены на базы данных упали. Другая причина, по которой вы, вероятно, думаете, что это произошло, заключается в том, что многие аналитики требуют, чтобы данные были очень быстро доступны, и поэтому они должны находиться в памяти. Обратите внимание, что алгоритмы, используемые базами данных для доступа к этим данным, их сжатия, шифрования, хранения, вы знаете, в некоторых случаях некоторые базы данных могут продолжать хранить в памяти в виде строки.
В некоторых случаях некоторые базы данных могут разбить это на ориентированные на столбцы, и причина, по которой они это делают, заключается в том, что они получают гораздо более высокий уровень сжатия, где-то в диапазоне от 11 до 12Х, сохраняя его в порядке столбцов по сравнению с порядком строк. Впервые он появился в SQL Server 2014, он назывался «Hekaton». В SQL Server 2016 он был радикально расширен, они увидят, что на него ссылаются под разными именами, и он появился в Oracle 12c; Я говорю второй релиз здесь, а не R2. Было два разных выпуска Oracle 12c, 12.1.0.1 и 12.1.0.2. Это второй выпуск версии базы данных R1.
И способ, которым вы его определяете, объект в памяти похож в обеих базах данных. Здесь вы можете видеть в правом верхнем углу, я создаю SQL Server, и вы можете видеть, что он говорит с оптимизированной памятью и долговечностью, являющейся только схемой. Я не буду вдаваться в подробности всех этих синтаксических значений, а в Oracle на самом деле это даже проще: вы просто изменяете таблицу и говорите в памяти или нет, и вы можете изменить это. Сегодня я могу сказать, что это в памяти, а завтра - нет, и поэтому он очень гибкий.
Я провел несколько тестов на Oracle с таблицами в памяти, у меня было несколько тестов, на выполнение которых ушло почти 40 минут, в верхнем ряду. Теперь важно то, что к тому времени, когда я добрался до двух нижних строк, я увеличил время выполнения или уменьшил его, я бы сказал, примерно до пяти минут, а когда я посмотрел на коэффициент сжатия, данные в памяти фактически составляли 3, 6. в 4, 6 раза меньше. Это важно, потому что в этом случае я использовал формат, ориентированный на столбцы, и это сжатие. И так, угадайте, что? Я фактически помещал в мою память почти в четыре-пять раз больше данных. Я получил не только преимущество в памяти, преимущество ориентированного на столбцы, но и преимущество гораздо большего объема данных - до пятикратного увеличения объема данных в кэш-памяти, так что это довольно мощный метод. Опять же, Oracle и SQL Server, вы хотите посмотреть на них, это действительно классные функции. И с этим, я думаю, я открою это для вопросов.
Эрик Кавана: Хорошо, Берт, во-первых, ты был очень самоотверженным во всем этом замечательном образовании. Не могли бы вы немного поговорить о том, что вы, ребята, делаете? Потому что у вас есть несколько технологий, которые могут облегчить то, о чем вы говорили. Просто поговорите минутку о том, что вы, ребята, делаете, а затем давайте приведем Деза и Робина к уравнению.
Берт Скальцо: Да, я работаю в компании под названием IDERA. Мы в Техасе, со штаб-квартирой в Хьюстоне, и я сейчас сижу в Остине, но я живу в Далласе. Мы создаем инструменты базы данных и инструменты базы данных, чтобы помочь вам решить проблемы. Эта проблема может быть такой же простой, как производительность, и в этом случае у нас есть инструмент DBArtisan, который позволяет вам выполнять административные задачи базы данных, и один инструмент, который позволяет вам управлять 12 различными платформами баз данных. Я могу управлять SQL Server, я могу управлять Oracle, я могу управлять MySQL, DB2, Postgres, и я использую один инструмент, один исполняемый файл, один дизайн GUI и один согласованный набор рабочих процессов. Мы также создаем инструменты для обеспечения соответствия, у нас есть инструмент под названием SQL Compliance Manager, который поможет вам удовлетворить ваши требования соответствия. Еще один инструмент под названием SQL Security, поэтому мы пытаемся создать инструменты, которые помогут вам быть эффективными и действенными, и что действительно приятно, если вы зайдете на наш сайт, у нас есть целая куча бесплатных программ, так что, если ничего другого, идите скачать - Я думаю, что у нас есть около 20 или 25 бесплатных программ. Есть несколько действительно хороших бесплатных программ, таких как SQL Server и Windows Help Check, которые просто в основном смотрят на то, что у вас есть, и сообщают вам, есть ли у вас проблемы или что-то в этом роде, и это абсолютно бесплатно.
Эрик Кавана: И ты действительно …
Берт Скальцо: Определенно первый материал
Эрик Кавана: Вы говорите о неоднородности на рынке сегодня, когда-то существовало некое универсальное уравнение, которое, на самом деле, я помню, когда брал интервью у доктора Майкла Стоунбрейкера еще в 2005 году, когда он продолжал. большой толчок говорил о вердикте по движению баз данных, ориентированных на столбцы, и он говорил все о том, как реляционная модель "один размер подходит всем" доминировала в течение многих лет, и он предсказывал, что все изменится, и мальчик был прав тот. Теперь у нас есть действительно разнообразная и интересная среда с множеством различных вариантов и возможностей, но вам действительно нужен кто-то, кто бы справился со всем этим, и мне кажется, что ваша компания довольно остро сосредоточена на решении математических задач, таким образом, являясь инструментом поддержки заголовок неоднородности, верно?
Берт Скальцо: Абсолютно. Я имею в виду, что всегда будут администраторы баз данных, которые скажут: «Я не хочу использовать инструмент с графическим интерфейсом, я все делаю со скриптами», вы знаете? Они думают, что это администратор типа «супермен», и это хорошо, но для большинства из нас, людей, мы хотим просто выполнить работу и - вы знаете, я использую Microsoft Word для написания своих документов. Я использую Microsoft Outlook, чтобы сделать мою электронную почту. Я имею в виду, у меня есть инструменты для выполнения задач. Мы создаем такую же концепцию, мы создаем инструменты для администраторов баз данных и разработчиков, чтобы помочь им сосредоточиться на том, что они хотят сделать, а не на том, как они должны это делать.
Эрик Кавана: Это имеет смысл, но позвольте мне передать вас нашим экспертам, и люди могут свободно погружаться. У нас есть пара комментариев от аудитории. Может быть, Дез, пару вопросов, а Робин пару вопросов?
Дез Бланчфилд: Конечно. Один из первых вопросов, которые я хочу задать вам, учитывая огромный опыт, который вы получили, видите ли вы момент времени, когда все это замедлится? Или вы думаете, что мы действительно находимся на начальном этапе этой непрерывной линии роста? Я думаю, что одна из самых больших проблем, с которыми сталкиваются компании, а затем неизменно люди, пытающиеся поддержать технологию, предоставляемую этим компаниям для управления их бизнесом, заключается в том, что скорость изменений настолько драматична, что они просто не могут идти в ногу со всеми различные функции, и программное обеспечение, и системы, и платформы, и архитектуры, и новый код, и затем аппаратное обеспечение под ним, видите ли вы, что текущая скорость изменений вообще замедляется? Я имею в виду, вы имеете дело с таким широким спектром платформ со всем пакетом IDERA, мы собираемся замедлиться в скором времени или мы уже как-то на этом сумасшедшем безудержном грузовом поезде?
Берт Скальцо: Я думаю, что мы находимся на первых 20 процентах этой кривой роста, и нам предстоит долгий путь, и есть две вещи, которые его подталкивают. Технология продолжает развиваться. Вы упомянули некоторые из новых типов памяти, которые будут выходить, это будет фантастически. У Samsung скоро будет 20-терабайтная флешка. Это изменит вещи. У нас есть все эти NoSQL и облачные базы данных, и это будет продолжаться. Единственное, что забавно, это то, что когда я смотрю на базы данных, такие как Oracle и SQL Server и некоторые другие, они больше не являются реляционными базами данных. Я могу поместить неструктурированные данные в Oracle и при этом поддерживать соответствие ACID. Если бы вы сказали мне это 20 лет назад, я бы сказал, что вы принимаете наркотики.
Дез Бланчфилд: Да, да, они классные. Ну, даже сейчас те двигатели, которые имеют довольно хорошие нишевые вертикали, такие как ГИС, просто лучше, чем собственные возможности сейчас Вы сделали несколько замечательных комментариев о проблемах, с которыми сталкиваются администраторы баз данных, и о разном времени администраторов баз данных, которые мы надеемся увидеть повсюду, но как выглядит мир с таким уровнем бизнеса, с которым вы работаете? Я имею в виду, что это люди, которые используют разные платформы от вашего менеджера по диагностике до инструментов инвентаризации и вплоть до кричащей дефрагментации, как администраторы баз данных справляются с этими изменениями и как они вроде - вы знаете, Что они делают с вашими инструментами, чтобы справиться с этим значительным изменением в их ландшафте?
Берт Скальцо: Ну, я собираюсь вернуться почти 20 лет назад, а потом я скажу, что администраторы баз данных играют очень специфическую роль в организации. Они обычно работают с одной платформой баз данных, может быть, двумя, и они управляют относительно небольшим количеством баз данных. Теперь перенесемся на сегодня и администратор базы данных, он на самом деле собирается узнать 10 платформ баз данных. Он управляет, и это не шутка, в некоторых случаях тысячи баз данных; это больше о мире SQL Server или мире MySQL. Но все же в мире Oracle они могут управлять сотнями баз данных. И поэтому у них есть все эти новые функции, у них есть все эти новые платформы, и у них есть все эти базы данных, за которые они отвечают. Они ищут инструменты, которые позволят им повысить производительность и научиться чему-то.
И я приведу вам пример - если я хочу разделить таблицу, это довольно туманный синтаксис, и если я хочу разбить его на части, синтаксис становится еще сложнее. Я знаю, что я хочу сделать, я хочу создавать ведра. Если у меня есть такой инструмент, как DBArtisan, который говорит: «Эй, вот хороший экран, который позволяет вам сконцентрироваться на том, что вы пытаетесь сделать, а не на том, как вы пытаетесь это сделать, и, кстати, нажмите Когда закончите, покажите кнопку SQL, и мы покажем вам, каким был SQL, чтобы вы могли по-настоящему изучить и освоить это ».
Администраторы баз данных находят, что инструменты, которые помогают им выполнять свою работу, но также помогают обучать их всем этим новым вещам, которые они используют, и то же самое будет правдой - скажем, я парень из Oracle, и я перехожу к MySQL и говорю: «Хорошо, создайте базу данных, DBArtisan. Теперь покажите мне SQL, потому что мне интересно, каково это создавать базу данных на MySQL, и я только что научился синтаксису ». И поэтому мы не только помогаем им работать с базами данных, мы также обучаем их всем базам данных.
Дез Бланчфилд: Это становится еще интереснее, когда вы выбираете некоторые из более современных - или не более современных, это нечестно сказать, - но однажды база данных - это база данных. В эти дни я вижу все, о чем вы говорите, с дополнительным вызовом, который технология ставит перед нами, как мы обычно видим от поставщиков, и вы вроде как с открытым исходным кодом, а также с тем, что они хороши. Вы не только имеете дело с механизмами баз данных и языками запросов, но они также имеют дело с типами данных, структурированными и неструктурированными, понимаете, с проблемой необходимости иметь дело со всем от дальнего конца спектра многопетабайтной HDFS окружение для маленьких крошечных контейнеров, а также файлы пакетов и различные форматы файлов журналов.
И я думаю, что это то, что мы видим сейчас, когда просто нет человека, независимо от того, какой из суперменов, сверхчеловек, какими бы они ни считали себя физически, они просто не могут мысленно справиться с такой скоростью перемен и шкала вариаций. Я думаю, что набор инструментов, которые вы предлагаете сейчас, достигнет точки, в которой они почти во многих отношениях будут использовать набор по умолчанию, так что мы не сможем запустить среды баз данных, которые мы получили без них, потому что мы просто физически не могу бросить столько тел в них. Мне очень понравилась ваша презентация. Я собираюсь передать доктору Робину Блуру, я уверен, что у него есть много вопросов, чтобы бросить на вас.
Робин Блур: Хорошо. Ну, у меня, конечно, есть вопросы. Берт, я не знаю, куда ты идешь - у меня был очень интересный разговор пару дней назад, когда кто-то начал рассказывать мне о новейшей защите данных DU, и мне показалось, что это было невероятно суровый с точки зрения вещей, на которых они настаивали. Интересно, вы на самом деле смотрели на это? это то, с чем ты знаком?
Берт Скальцо: Абсолютно. Да.
Робин Блур: 2016, хорошо, расскажи нам об этом.
Берт Скальцо: И я на самом деле …
Робин Блур: Очень интересно.
Берт Скальцо: На самом деле я некоторое время работал на поставщика флэш-памяти, занимаясь их базой данных, помогая им создавать флэш-продукты для баз данных, и я могу вам сказать, что драконианец идет полным ходом. Я имею в виду, что если вы помните мой один слайд, я сказал, что в некоторых базах данных он выполняет шифрование, но он помещает его в память сервера, а в некоторых базах данных шифрование - он все еще шифруется в памяти сервера, он расшифровывается только тогда, когда оно отправляется клиенту. Хорошо, что вы также найдете некоторые из этих государственных стандартов, особенно Министерство обороны или военные здесь, в США, они также полностью опустились до уровня флэш-памяти, и они хотят знать не только, что вы поддерживаете шифрование и дешифрование в ваше оборудование, но если кто-то украл чипы, которые - вы знаете, вытащили их из вещи, из вашего сервера, то, что там зашифровано, и поэтому, даже если у них есть хранилище, это не может быть, и они будут вплоть до реальной - не до самой флеш-части, а до отдельных чипов. Они хотели знать, что чип за чипом, все было зашифровано.
Робин Блур: Вау. Я имею в виду, что есть много вещей, которые … вы знаете, я думаю, что вы упомянули об этом только один или два слайда, но это был сценарий, который, на мой взгляд, действительно интересен. Например, редактирование информации должно быть немного умнее, чем просто маскировать различные поля, потому что в настоящее время, особенно с машинным обучением, вы можете делать дедуктивные вещи, которые позволяют вам выявлять информацию, которую вы не могли ранее обнаружить.
Если вы пытаетесь защитить, скажем, медицинскую информацию, то в США это очень и очень суровые правила в отношении медицинской информации, но на самом деле вы можете, используя различные методы машинного обучения, часто определять, кто является чьей-либо медицинской информацией. на самом деле Мне просто интересно, есть ли у вас что-нибудь сказать об этом, потому что все они думают, что это интересная область.
Берт Скальцо: Да, конечно, и я просто использую это в качестве примера, я не пытаюсь сказать, что одна база данных лучше, чем другая, но это очень хороший пример того, что вы только что спросили. В Oracle, если мне не разрешено видеть ряд данных, например, как мне не разрешают просматривать медицинскую карту Джона Смита. В Oracle, если я скажу: «Выберите эту запись», я буду заблокирован или мне будет позволено увидеть то, что мне разрешено видеть, и она будет отредактирована. И если я скажу: «Выберите звезду аккаунта из таблицы, где стоит Джон Смит», я получу ноль.
В SQL Server он может выполнять редактирование, но в нем есть некоторые дыры. Если я скажу: «Выберите звезду учетной записи из таблицы, где она равна Джону Смиту», я на самом деле верну одну, поэтому я знаю, что есть Джон Смит. Один более безопасен, чем другой. Теперь я ожидаю, что они это исправят, они всегда играют в прыгунов друг с другом. И опять же, я не пытаюсь провести различие между базами данных, кроме того, чтобы показать пример - посмотрите на то, о чем мы сейчас говорим, что-то столь же простое, как выбор учетной записи, также должно быть урезано редактированием, хотя технически говоря, нет ничего редактируемого кроме существования ряда.
Робин Блур: Да, верно. Это довольно интересно. Я имею в виду, еще один общий вопрос, потому что у меня не так много времени, это просто улучшения. Я имею в виду, что вы были там, где я знаю, что вы демонстрировали нам примеры различных результатов тестирования, которые вы выполняли - вы думаете, что традиционные базы данных, давайте назовем их доминирующими базами данных, SQL Server и Oracle, думаете, что они собираются остаться до завершения? Или вы думаете, что на самом деле их поймают те или иные сбои на рынке, которые действительно им нужны? Каково твое мнение?
Берт Скальцо: У меня есть мнение, и это - вы знаете, я снова скажу, что это мое мнение - например, Microsoft, в эпоху после Баллмера, просто впечатляет меня живым адом. Я имею в виду эту растянутую базу данных с SQL Server в Linux, с .NET в Linux, с PowerShell в Linux; Я не думаю, что традиционные поставщики баз данных останутся позади. Я думаю, что они решили: «Эй, пусть новые парни, стартапы что-то определяют. Пусть они выяснят, что такое шардинг и как его следует усовершенствовать, и после того, как они выполнили все исследования и разработки, мы точно знаем, чего хотят пользователи, теперь давайте добавим шардинг в Oracle ». Я думаю, они просто становятся умными и говоря: «Эй, быть вторым или третьим неплохо, когда ты доминирующий игрок, потому что тогда люди не уйдут от тебя».
Робин Блур: Да, я имею в виду, что это стратегия, которая была использована. Я имею в виду, что раньше IBM делала это и весь … для всей линейки своих продуктов, и она достаточно неплохо оценивается, пока кто-то не придумает что-то совершенно за пределами стены, о котором никто никогда не думал, но вы не можете планировать против этого в любом случае.
Вопросы из зала, Эрик?
Эрик Кавана: Да, но у вас есть время, я думаю, что, может быть, только для одного, и я знаю, что Берт должен бежать. Здесь было что-то, о чем - хорошо, архитектура шардинга в Oracle 12c - это признак - или, по вашему мнению, это признак того, что, по вашему мнению, происходит там?
Берт Скальцо: Хорошо, Oracle поглощает и / и предлагает все, что есть все остальные поставщики баз данных. Например, я могу поместить неструктурированные данные в Oracle. Я не знаю, как вы можете поместить неструктурированные данные и затем назвать их реляционной базой данных, так что это не имеет никакого смысла, но вы можете. И теперь Oracle добавляет шардинг, поэтому Oracle говорит: «Знаете что? Что бы ни захотел рынок, мы сделаем предложение для нашей базы данных, потому что рынок хочет того, чего хочет рынок, и мы хотим предоставить решение, мы хотим, чтобы они остались с нами ».
Я думаю, что вы собираетесь увидеть дополнительные предметы. Я не удивлюсь, если Hadoop-подобная кластеризация узлов базы данных будет не в стойке Oracle или в реальном кластере приложений, а в основном в более традиционной кластеризации Hadoop-типа, выполняющей такое разделение. И поэтому я думаю, что вы сможете развернуть базу данных, такую как Oracle, как Hadoop, и такие тенденции будут продолжаться. Эти крупные поставщики баз данных зарабатывают миллиарды долларов и не хотят терять свой рынок, поэтому они готовы адаптироваться к чему-либо или принять что-либо.
Эрик Кавана: Ну, вы знаете, это забавно, потому что я довольно долго следил за поставщиками открытого кода и все время удивлялся, какое влияние это окажет на традиционные технологии закрытых дверей, и какое-то время это Я чувствовал, что поставщики программного обеспечения с открытым исходным кодом добились серьезных успехов, и теперь, когда я смотрю на рынок, я вижу, что вы говорите, что большие парни сделали свою математику, заточили свои карандаши, и они поняли, как они могут вплетать много такого в свои архитектуры. Будь то IBM, Oracle или SAP - я был на конференции SapphireNow в прошлом месяце, и Стив Лукас, возглавляющий половину этой компании, похвастался, что SAP теперь включает в свою облачную платформу HANA больше компонентов с открытым исходным кодом, чем любой из их конкуренты. Если вы посчитаете это, это довольно внушительное утверждение, и оно говорит мне, что большие парни никуда не денутся в ближайшее время.
Берт Скальцо: Нет, я бы поставил свои деньги на оба. Я имею в виду, если вы посмотрите, акции Microsoft недавно были на уровне около 50 долларов, и, знаете, всего несколько лет назад они были на уровне 25. Вы не удваиваете свою цену за короткий период, если вы не делаете хорошие вещи, и вы знаете, начиная от того, чтобы сделать Windows 10 бесплатной в течение первого года, до всех других умных вещей, которые они делают, эта функция растягивающейся базы данных, я думаю, просто феноменальна. Я думаю, что произойдет, когда многие люди окажутся в Azure, а не напрямую, а не так, как они сказали: «Давайте перенесем мою базу данных в Azure». Она будет перемещаться туда волшебным образом, потому что она будет заархивирована. там с использованием этой новой функции базы данных растяжения и поэтому принятие Azure будет просто стремительно расти.
Эрик Кавана: Хорошо, это одна из тенденций на рынке, которую даже я вижу, даже на вашем Mac. Когда вы зайдете на свой Mac, чтобы сохранить некоторые документы, они теперь - и новые Mac просто следуют через облако, верно? Я имею в виду, что в этой стратегии есть большой смысл, и я также смотрю на нее и говорю: «Хорошо, ребята, вы пытаетесь заманить меня по кусочкам в свою облачную среду, а потом, когда я захочу посмотреть какой-нибудь фильм, если срок действия моей кредитной карты истек, у меня будут проблемы.
Берт Скальцо: Да, но вы делаете это на Facebook.
Эрик Кавана: Да. Это правда.
Берт Скальцо: Вы помещаете все на Facebook.
Эрик Кавана: Ну, не совсем все.
Берт Скальцо: Нет, я имею в виду
Эрик Кавана: Да, продолжай.
Берт Скальцо: Эти социальные тенденции проникают в бизнес. Теперь у бизнеса все еще есть много других дел, которые они должны сделать, но они видят эти тенденции и делают то же самое. Я не вижу, чтобы Oracle или Microsoft уходили. На самом деле, я собираюсь покупать акции обеих компаний каждый раз, когда происходит падение.
Эрик Кавана: Да, действительно. Ну, ребята, перейдите на idera.com, IDERA точка ком. Как сказал Берт, у них есть целая куча бесплатных вещей, и это одна из новых тенденций на рынке - дать вам бесплатные вещи, с которыми можно поиграть, зацепить вас, а затем вы идете покупать реальные вещи.
Ребята, это была еще одна горячая технология. Спасибо, что уделили нам время, Берт, Дез и Робин. Мы поговорим с вами на следующей неделе, ребята, много чего происходит. Если у вас есть какие-либо идеи, не стесняйтесь, пишите свои по-настоящему, . Мы поговорим с вами в следующий раз, будьте осторожны. Пока-пока.