Национальный корпус русского языка (НКРЯ) — одно из самых больших и качественных семейств корпусов для русского языка. В корпусе существует большое количество т.н. подкорпусов — небольших баз данных, посвященных конкретной области исследования языка (синтаксису, ударению и т.д.). Один из таких подкорпусов — параллельный; он, в свою очередь, сам делится на двадцать русско-иноязычных корпусов.
О том, что такое параллельные корпуса, вы можете узнать здесь.
Наш корпус появился внутри НКРЯ в 2016 году. С 2019 года он доступен на двух страницах:
В 2020 и в 2021 году мы несколько раз получали поддержку от ВШЭ на развитие нашего проекта: для улучшения его общей инфраструктуры, для улучшения разметки китайских текстов, для разработки образовательных приложений на основе корпуса.
Объем Корпуса - больше 3,5 миллионов слов. Он состоит из более чем тысячи текстов, основная часть которых - художественные произведения русских и китайских авторов XIX-XXI вв., новостные и официально-деловые тексты.
Сегодня сайт Корпуса доступен на трех языках: русском, английском и китайском.
О том, что именно можно делать в нашем корпусе, вы можете прочитать в инструкции на странице поиска: нажмите на оранжевый значок вопроса вверху страницы.
Сейчас наш проект — единственный разрабатываемый в России параллельный корпус, обладающий сразу четырьмя полезными свойствами:
Мы знаем лишь об одном аналоге нашего проекта, разрабатываемом сейчас в Пекине.
В нашем проекте задействованы студенты, преподаватели и научные сотрудники следующих институтов:
Над корпусом работают десятки человек. Но у нас еще огромное количество нерешенных задач, на которые не хватает активных и смелых участников. Поэтому если вас заинтересовал наш проект — обязательно посмотрите наши вакансии!
Вы можете связаться с нами по любым вопросам следующими способами: