Наши продукты

Алгоритм автоматической обработки китайских текстов

Алгоритм, разработанный в рамках проектной группы по улучшению разметки китайских текстов. Включает:

  1. модуль словоделения (основанный на алгоритме fastHan и доработанный правиловыми методами);
  2. модуль PoS-тэггинга (основанный на алгоритме fastHan);
  3. модуль фонетической аннотации в системе пиньинь (основанный на алгоритме G2PC);
  4. вспомогательные модули, в т.ч. модуль унификации орфографии (позволяющий для каждого токена хранить как его изначальное правописание, например, традиционную орфографию или разнопись, и параллельно приводить его к стандартизированной орфографии КНР).

Репозиторий с кодом обработки китайских текстов расположен здесь.