Наши продукты
Алгоритм автоматической обработки китайских текстов
Алгоритм, разработанный в рамках проектной группы по улучшению разметки китайских текстов. Включает:
- модуль словоделения (основанный на алгоритме fastHan и доработанный правиловыми методами);
- модуль PoS-тэггинга (основанный на алгоритме fastHan);
- модуль фонетической аннотации в системе пиньинь (основанный на алгоритме G2PC);
- вспомогательные модули, в т.ч. модуль унификации орфографии (позволяющий для каждого токена хранить как его изначальное правописание, например, традиционную орфографию или разнопись, и параллельно приводить его к стандартизированной орфографии КНР).
Репозиторий с кодом обработки китайских текстов расположен здесь.