Q:
Почему важно масштабируемое машинное обучение?
A:Масштабируемое машинное обучение является основным модным словом в индустрии машинного обучения, отчасти потому, что масштабирование процессов машинного обучения является важным и сложным аспектом многих проектов машинного обучения.
Например, некоторые небольшие проекты по машинному обучению могут не нуждаться в таком большом масштабировании, но когда инженеры рассматривают различные виды продуктивного моделирования, пытаются провести анализ гигантских наборов данных или пытаются применить машинное обучение к различным аппаратным средам, масштабируемость может значит все
Скачать бесплатно: машинное обучение и почему это важно |
Масштабируемое машинное обучение важно, когда ясно, что объем проекта будет превышать исходную настройку. Различные алгоритмические подходы могут потребоваться для того, чтобы процессы машинного обучения соответствовали другим процессам анализа данных. Машинное обучение может потребовать больше ресурсов для того же набора данных.
Что касается используемых инструментов, Apache Hadoop часто используется для чрезвычайно больших наборов данных, например, около 5 ТБ. Ниже этой отметки есть другие инструменты среднего уровня, которые могут хорошо выполнять свою работу, такие как Pandas, Matlab и R. ИТ-специалисты сопоставят инструменты с требуемым уровнем масштабируемости. Они поймут, сколько нужно программам машинного обучения, и как они должны быть оснащены для достижения этих целей.
Наряду с возможностью масштабирования до гораздо больших наборов данных, порядка нескольких терабайт, еще одной проблемой масштабируемого машинного обучения является разработка системы, которая может работать на нескольких узлах. Некоторые базовые системы машинного обучения могут быть настроены только для работы на отдельном компьютере или аппаратном компоненте. Но когда процессы машинного обучения должны взаимодействовать с несколькими узлами, это потребует другого подхода. Получение машинного обучения для работы в распределенной архитектуре является еще одной важной частью масштабируемого машинного обучения. Рассмотрим ситуацию, когда алгоритмы машинного обучения должны получать доступ к данным с десятков или даже сотен серверов - для этого потребуется значительная масштабируемость и универсальность.
Другой движущей силой масштабируемого машинного обучения является процесс глубокого обучения, где инженеры и заинтересованные стороны могут получить больше результатов, углубившись в наборы данных и манипулируя ими более глубокими способами. Проекты глубокого обучения являются отличным примером того, как компаниям может понадобиться принять масштабируемую стратегию машинного обучения для достижения необходимых им возможностей. Поскольку глубокое обучение продолжает развиваться, оно будет оказывать давление на системы машинного обучения для более эффективного масштабирования.