Дом аудио Каковы некоторые ключевые способы автоматизации и оптимизации процессов обработки данных?

Каковы некоторые ключевые способы автоматизации и оптимизации процессов обработки данных?

Anonim

Q:

Каковы некоторые ключевые способы автоматизации и оптимизации процессов обработки данных?

A:

Процессы науки о данных в контексте машинного обучения и искусственного интеллекта можно разделить на четыре этапа:

  1. сбор и исследование данных,
  2. Построение модели,
  3. развертывание модели и
  4. онлайн оценка и уточнение.

Исходя из моего опыта, наиболее затрудняющими фазами являются этапы сбора данных и развертывания моделей в любом процессе обработки данных на основе машинного обучения, и вот два способа их оптимизации:

1. Установите высокодоступное хранилище данных.

В большинстве организаций данные не хранятся в одном центральном месте. Давайте просто возьмем информацию, связанную с клиентами. Если у вас есть веб-приложение, у вас есть контактная информация, электронная почта службы поддержки, отзывы клиентов и история посещений. Все эти данные естественно разбросаны, так как они служат разным целям. Они могут находиться в разных базах данных, а некоторые могут быть полностью структурированными, а некоторые неструктурированными и даже могут храниться в виде текстовых файлов.

К сожалению, разбросанность этих наборов данных сильно ограничивает работу по науке о данных, поскольку основой всех проблем НЛП, машинного обучения и искусственного интеллекта являются данные . Таким образом, хранение всех этих данных в одном месте - хранилище данных - имеет первостепенное значение для ускорения разработки и развертывания модели. Учитывая, что это критически важная составляющая для всех процессов обработки данных, организации должны нанять квалифицированных инженеров данных, чтобы помочь им создать свои хранилища данных. Это может легко начаться с простых дампов данных в одном месте и постепенно превратиться в хорошо продуманный репозиторий данных, полностью документированный и запрашиваемый с помощью служебных инструментов для экспорта подмножеств данных в различные форматы для различных целей.

2. Представьте свои модели как сервис для бесшовной интеграции.

Помимо обеспечения доступа к данным, важно также иметь возможность интегрировать модели, разработанные учеными-данными, в продукт. Может быть чрезвычайно сложно интегрировать модели, разработанные на Python, с веб-приложением, которое работает на Ruby. Кроме того, в моделях может быть много зависимостей от данных, которые ваш продукт может не предоставить.

Один из способов справиться с этим - создать надежную инфраструктуру вокруг вашей модели и предоставить достаточно функциональности, необходимой вашему продукту, чтобы использовать модель в качестве «веб-службы». Например, если вашему приложению требуется классификация настроений в обзорах продуктов. все, что ему нужно сделать, это вызвать веб-сервис, предоставив соответствующий текст, и сервис вернет соответствующую классификацию настроений, которую продукт может использовать напрямую. Таким образом, интеграция происходит просто в форме вызова API. Разделение модели и продукта, который ее использует, позволяет новым продуктам, которые вы придумали, также легко использовать эти модели.

Теперь настройка инфраструктуры вокруг вашей модели - это совсем другая история, требующая больших начальных вложений от ваших инженерных команд. Когда есть инфраструктура, это просто вопрос построения моделей таким образом, чтобы они вписывались в инфраструктуру.

Каковы некоторые ключевые способы автоматизации и оптимизации процессов обработки данных?