Оглавление:
Определение - Что означает канонизация?
Канонизация - это процесс преобразования данных, который включает более одного представления, в стандартный утвержденный формат. Такое преобразование гарантирует, что данные соответствуют каноническим правилам. При этом сравниваются различные представления для обеспечения эквивалентности, для подсчета количества различных структур данных, для наложения значимого порядка сортировки и для повышения эффективности алгоритма, что исключает повторные вычисления.
Каноникализация используется во многих интернет- и компьютерных приложениях для генерации канонических данных из неканонической информации. Каноническое представление данных широко используется в
поисковая оптимизация (SEO), веб-серверы, Unicode и XML.
Этот термин также известен как C14N, стандартизация или нормализация.
Техопедия объясняет канонизацию
В SEO канонизация URL имеет дело с веб-контентом с более чем одним возможным URL. Это может создать расхождения в поиске, потому что поисковая система может не знать, какой URL должен отображаться. Canonicalization выбирает лучший URL из нескольких вариантов, обычно ссылаясь на домашние страницы. Хотя некоторые URL-адреса выглядят одинаково, веб-серверы возвращают разные результаты для URL-адресов. Поисковые системы рассматривают только один URL в канонической форме.
Компьютерная безопасность основана на канонизации имени файла. Некоторые веб-серверы могут иметь правило безопасности для выполнения файлов только в определенном каталоге. Файл тогда выполняется, только если путь имеет указанный каталог в своем имени. Особое внимание необходимо уделить проверке, является ли имя файла уникальным представлением. Такая уязвимость называется обходом каталога.
Большинство символов в стандарте Unicode имеют кодировки переменной длины. Это требует рассмотрения каждого строкового символа и делает проверку строки более сложной. Если все кодировки не учитываются в программной реализации, возникает вероятность ошибок. Эта проблема может быть устранена с помощью одной кодировки для каждого символа. Лучшая альтернатива, которую может использовать любое программное обеспечение, - проверить, не канонизирована ли строка. Строки, которые не канонизированы, могут быть отклонены.
Канонический документ XML - это документ XML в канонической форме XML. Это определяется канонической спецификацией XML. Канонизация в XML устраняет пробелы в тегах, сортирует ссылки на пространства имен, устраняет избыточные и использует определенные кодировки символов. Он также удаляет объявления XML и DOCTYPE, в дополнение к преобразованию относительных URL-адресов в абсолютные URL-адреса.
