О параллельных корпусах
Параллельные корпуса: что это?
Параллельный корпус — это частный случай лингвистического корпуса, одного из главных инструментов, которыми пользуются специалисты по языкознанию в XXI в. Как и основная часть лингвистических корпусов, параллельный корпус обычно снабжается т.н. метаинформацией (информацией о каждом тексте — когда он был создан, кем, какого он объема и т.д.), а также разметкой (каждому слову приписана его начальная форма, грамматическая информация и т.д.).
Параллельный корпус — это собрание текстов сразу на двух языках. Важный элемент разметки параллельных корпусов — выравнивание: каждому предложению (как минимум, абзацу) на языке Х соответствует предложение на языке Y. Благодаря выравниванию, параллельный корпус становится полезным инструментом для нескольких категорий пользователей. Это:
- изучающие иностранный язык и преподаватели иностранного языка (слова и выражения теперь можно искать не по словарю, а в контекстах, и в этих же контекстах смотреть сочетаемость слов на другом языке);
- переводчики (т.к. параллельный корпус — это большая база данных всех находок, которые были придуманы предыдущими переводчиками для тех или иных выражений и приемов);
- специалисты в статистическом или нейросетевом NLP — в последнее десятилетие почти все серьезные компании отказались от разработки правиловых переводчиков (т.е. таких, которые основаны на загруженном туда словаре и наборе конкретных правил для перевода). Сейчас необходимы большие данные на двух языках, где каждому предложению (или более мелкому сегменту) будут даны соответствия. Безусловно, параллельный корпус для программистов отличается по оформлению (там не всегда нужна разметка и метаинформация);
- лингвисты и переводоведы (на основе таких баз данных можно сделать много выводов в сфере сравнительного изучения грамматики, семантики и лексики).
Вот самые известные примеры параллельных корпусов:
- Reverso Context — наиболее user-friendly корпус на множестве пар языков; используется изучающими иностранный язык и переводчиками;
- OPUS — объединенная база данных параллельных корпусов, которые часто используют для машинного перевода;
- Переводы Библии — один из самых древних параллельных корпусов, выровненных еще в XIII-XVI вв. по стихам;
- EuroParl — корпус официальных документов Европейского Парламента — органа ЕС, у которого 27 официальных языков;
- Здесь вы можете посмотреть еще некоторое количество известных параллельных корпусов.