平行语料库简介
什么是平行语料库?
平行语料库是语言语料库的一种个例,是二十一世纪语言学家使用的最主要工具之一。平行语料库作为语言语料库的基本组成部分,通常提供元信息 (即每个文本的信息,包括创建时间、创建者、篇幅等), 以及语法 标记 (每个单词都附有其原形、语法信息等)。
平行语料库 一般同时收集两种语言文本。平行语料库语法标记主要在于对应: Х语言的每个句子(至少一段)与Y语言中的句子对应。 这种对应使平行语料库成为各领域语言研究者的有利工具:
- 外语学习者和外语教师 (单词和表达可以不用查字典,而在语料库中根据上下文找到,在上下文中可以看到外语词组);
- 翻译人员 (因为平行语料库相当于是前辈翻译家们建立的各种表达与翻译方法的大型数据库);
- 统计学或神经网络自然语言处理专家 — 最近十年,几乎所有正规公司都摒弃了规则翻译处理(即:以词典和一套具体规则为基础的翻译)。现今需要的是基于两种语言的大数据,每个句子(或者更小的语段)都有对应。当然,对于程序员来说,平行语料库在生成方面有区别(不总是需要标记的元语言);
- 语言学家和翻译家 (在该数据库基础上可以完成语法、语义和词汇对比研究).
平行语料库应用实例: