Дом развитие Что такое токенизация? - определение из техопедии

Что такое токенизация? - определение из техопедии

Оглавление:

Anonim

Определение - Что означает токенизация?

Токенизация - это процесс разбиения последовательности строк на части, такие как слова, ключевые слова, фразы, символы и другие элементы, называемые токенами. Токенами могут быть отдельные слова, фразы или даже целые предложения. В процессе токенизации некоторые символы, такие как знаки препинания, отбрасываются. Токены становятся входными данными для другого процесса, такого как анализ и анализ текста.

Токенизация используется в информатике, где она играет большую роль в процессе лексического анализа.

Техопедия объясняет токенизацию

Токенизация опирается в основном на простую эвристику для разделения токенов, выполнив несколько шагов:

  • Токены или слова разделяются пробелами, знаками препинания или переносами строк
  • Пробел или знаки препинания могут или не могут быть включены в зависимости от необходимости
  • Все символы в последовательных строках являются частью токена. Токены могут состоять только из буквенных, буквенно-цифровых или цифровых символов.

Сами токены также могут быть разделителями. Например, в большинстве языков программирования идентификаторы можно размещать вместе с арифметическими операторами без пробелов. Хотя кажется, что это будет выглядеть как одно слово или токен, грамматика языка фактически рассматривает математический оператор (токен) как разделитель, поэтому даже когда несколько токенов сгруппированы вместе, их все равно можно разделить с помощью математического оператор.

Что такое токенизация? - определение из техопедии