Q:
Может ли быть когда-либо слишком много данных в больших данных?
A:Ответ на вопрос звучит ДА. В большом проекте данных может быть слишком много данных.
Есть множество способов, которыми это может произойти, и различные причины, по которым профессионалы должны ограничивать и курировать данные любым количеством способов, чтобы получить правильные результаты. (Прочтите 10 больших мифов о больших данных.)
В общем, эксперты говорят о дифференцировании «сигнала» от «шума» в модели. Другими словами, в море больших данных становится трудно ориентироваться на соответствующие данные. В некоторых случаях вы ищете иголку в стоге сена.
Например, предположим, что компания пытается использовать большие данные, чтобы сформировать определенную информацию о сегменте клиентской базы и своих покупках за определенный период времени. (Читайте, что делают большие данные?)
Принятие огромного количества активов данных может привести к получению случайных данных, которые не имеют значения, или это может даже привести к смещению, которое искажает данные в ту или иную сторону.
Это также значительно замедляет процесс, поскольку вычислительные системы вынуждены бороться с большими и большими наборами данных.
В очень многих различных типах проектов для инженеров данных очень важно подбирать данные к ограниченным и конкретным наборам данных - в приведенном выше случае это будут только данные для исследуемого сегмента клиентов, только данные за это время. исследуемый фрейм и подход, который отсеивает дополнительные идентификаторы или справочную информацию, которая может запутать вещи или замедлить работу систем. (Роль ReadJob: инженер данных.)
Более подробно давайте посмотрим, как это работает на границе машинного обучения. (Читайте Машинное обучение 101.)
Эксперты по машинному обучению говорят о так называемом «переоснащении», когда чрезмерно сложная модель приводит к менее эффективным результатам, когда программа машинного обучения развязывается на новых производственных данных.
Переоснащение происходит, когда сложный набор точек данных слишком хорошо соответствует начальному обучающему набору и не позволяет программе легко адаптироваться к новым данным.
В настоящее время технически переоснащение вызвано не наличием слишком большого количества выборок данных, а коронацией слишком большого количества точек данных. Но вы можете утверждать, что наличие слишком большого количества данных может также способствовать возникновению проблемы такого типа. Чтобы справиться с проклятием размерности, используются те же методы, которые применялись в более ранних проектах с большими данными, когда профессионалы пытались точно определить, чем они питают ИТ-системы.
Суть в том, что большие данные могут быть чрезвычайно полезны для компаний, или это может стать серьезной проблемой. Одним из аспектов этого является наличие у компании правильных данных. Эксперты знают, что не стоит просто сбрасывать все ресурсы данных в хранилище и таким образом придумывать идеи - в новых облачных и сложных системах данных необходимо контролировать и управлять данными, чтобы получать более точные и точные данные. эффективное использование вне активов данных.