Q:
Как максимальный пул помогает сделать AlexNet отличной технологией для обработки изображений?
A:В AlexNet, инновационной сверточной нейронной сети, концепция максимального пула вставляется в сложную модель с несколькими сверточными слоями, частично для того, чтобы помочь с подгонкой и упростить работу, которую нейронная сеть выполняет при работе с изображениями, что эксперты называют «нелинейная стратегия понижающей дискретизации».
AlexNet по праву считается отличным CNN, победившим в ILSVRC 2012 года (Крупномасштабном конкурсе по визуальному распознаванию ImageNet), который рассматривается как переломный момент для машинного обучения и развития нейронных сетей (некоторые называют его «Олимпиадой» компьютерного зрения). ).
В рамках сети, где обучение разделено на два графических процессора, существует пять сверточных уровней, три полностью связанных уровня и некоторая реализация максимального пула.
По сути, максимальный пул берет «пул» выходов из коллекции нейронов и применяет их к значениям последующего слоя. Другой способ понять это состоит в том, что подход максимального пула может консолидировать и упростить значения для более точного соответствия модели.
Максимальное объединение может помочь вычислить градиенты. Можно сказать, что это «уменьшает нагрузку на вычисления» или «сокращает переоснащение» - благодаря понижающей дискретизации максимальное объединение включает в себя то, что называется «уменьшением размерности».
Уменьшение размерности связано с проблемой наличия слишком сложной модели, которую трудно запустить через нейронную сеть. Представьте себе сложную форму со множеством маленьких зубчатых контуров, и каждый маленький кусочек этой линии представлен точкой данных. С уменьшением размерности инженеры помогают программе машинного обучения «уменьшить масштаб» или отобрать меньшее количество точек данных, чтобы сделать модель в целом проще. Вот почему, если вы посмотрите на слой максимального пула и его выходные данные, вы иногда можете увидеть более простую пикселизацию, соответствующую стратегии уменьшения размерности.
AlexNet также использует функцию, называемую выпрямленными линейными единицами (ReLU), и максимальный пул может дополнять эту технику при обработке изображений через CNN.
Эксперты и участники проекта предоставили множество визуальных моделей, уравнений и других деталей, чтобы показать специфическую структуру AlexNet, но в общем смысле вы можете думать о максимальном объединении как объединение или консолидация выхода нескольких искусственных нейронов. Эта стратегия является частью общей сборки CNN, которая стала синонимом передового машинного зрения и классификации изображений.
