语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

xujiajin

管理员
Staff member
语料库术语汇编:欢迎增补、批评指正
【Updated on March 28, 2010】左边为英文,右边的汉语凡以分号(;)隔开的表示该术语有不同含义,以顿号(、)隔开的表示该术语有两种以上可接受的汉语译法。


我们从一开始就没打算制定什么标准,制定标准去规范别人是一件很可笑的事情。

我们只是提供了文献中的常见汉译,做了一点文献整理工作而已。没有(合适)译法的,我们尝试提供了汉译。如帖子的标题所言我们“欢迎增补、批评指正”。

术语的使用,一要合理,即切合原意;二要尊重约定俗成。

我们提供的中文译法,从左到右,第一个是相对来说用得较多的,或者是我们认为较合理的。


Aboutness 所言之事
Absolute frequency 绝对频数
Alignment (of parallel texts) (平行或对应)语料的对齐
Alphanumeric 字母数字类的
Annotate 标注(动词)
Annotation 标注(名词)
Annotation scheme 标注方案
ANSI/American National Standards Institute 美国国家标准学会
ASCII/American Standard Code for Information Exchange 美国信息交换标准码
Associate (of keywords) (主题词的)联想词
AWL/Academic word list 学术词表
Balanced corpus 平衡语料库
Base list 底表、基础词表
Bigram 二元组、二元序列、二元结构
Bi-hapax 两次词
Bilingual corpus 双语语料库
CA/Contrastive Analysis 对比分析
Case-sensitive 大小写敏感、区分大小写
Chi-square (χ2) test 卡方检验
Chunk 词块
CIA/Contrastive Interlanguage Analysis 中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统
Clean text policy 干净文本原则
Cluster 词簇、词丛
Colligation 类联接、类连接、类联结
Collocate n./v. 搭配词;搭配
Collocability 搭配强度、搭配力
Collocation 搭配、词语搭配
Collocational strength 搭配强度
Collocational framework/frame 搭配框架
Comparable corpora 类比语料库、可比语料库
ConcGram 同现词列、框合结构
Concordance (line) 索引(行)
Concordance plot (索引)词图
Concordancer 索引工具
Concordancing 索引生成、索引分析
Context 语境、上下文
Context word 语境词
Contingency table 连列表、联列表、列连表、列联表
Co-occurrence/Co-occurring 共现
Corpora 语料库(复数)
Corpus Linguistics 语料库语言学
Corpus 语料库
Corpus-based 基于语料库的
Corpus-driven 语料库驱动的
Corpus-informed 语料库指导的、参考了语料库的
Co-select/Co-selection/Co-selectiveness 共选(机制)
Co-text 共文
DDL/Data Driven Learning 数据驱动学习
Diachronic corpus 历时语料库
Discourse 话语、语篇
Discourse prosody 话语韵律
Documentation 备检文件、文检报告
EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格
Empirical Linguistics 实证语言学
Empiricism 经验主义
Encoding 字符编码
Error-tagging 错误标注、错误赋码
Extended unit of meaning 扩展意义单位
File-based search/concordancing 批量检索
Formulaic sequence 程式化序列
Frequency 频数、频率
General (purpose) corpus 通用语料库
Granularity 颗粒度
Hapax legomenon/hapax 一次词
Header/Text head 文本头、头标、头文件
HMM/Hidden Markov Model 隐马尔科夫模型
Idiom Principle 习语原则
Index/Indexing (建)索引
In-line annotation 文内标注、行内标注
Key keyword 关键主题词
Keyness 主题性、关键性
Keyword 主题词
KWIC/Key Word in Context 语境中的关键词、语境共现(方式)
Learner corpus 学习者语料库
Lemma 词目、原形词、词元
Lemma list 词形还原对应表
Lemmata 词目、原形词、词元(复数)
Lemmatization 词形还原、词元化
Lemmatizer 词形还原(词元化)工具
Lexical bundle 词束
Lexical density 词汇密度
Lexical item 词项、词语项目
Lexical priming 词汇触发理论
Lexical richness 词汇丰富度
Lexico-grammar/Lexical grammar 词汇语法
Lexis 词语、词项
LL/Log likelihood (ratio) 对数似然比、对数似然率
Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库
Machine-readable 机读的
Markup 标记、置标
MDA/Multi-dimensional approach 多维度分析法
Metadata 元信息
Meta-metadata 元元信息
MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法
Mini-text 微型文本
Misuse 误用
Monitor corpus (动态)监察语料库
Monolingual corpus 单语语料库
Multilingual corpus 多语语料库
Multimodal corpus 多模态语料库
MWU/Multiword unit 多词单位
MWE/Multiword expression 多词单位
MI/Mutual information 互信息、互现信息
N-gram N元组、N元序列、N元结构、N元词、多词序列
NLP/Natural Language Processing 自然语言处理
Node 节点(词)
Normalization 标准化
Normalized frequency 标准化频率、标称频率、归一频率
Observed corpus 观察语料库
Ontology 知识本体、本体
Open Choice Principle 开放选择原则
Overuse 超用、过多使用、使用过度、过度使用
Paradigmatic 纵聚合(关系)的
Parallel corpus 平行语料库、对应语料库
Parole linguistics 言语语言学
Parsed corpus 句法标注的语料库
Parser 句法分析器
Parsing 句法分析
Pattern/patterning 型式
Pattern grammar 型式语法
Pedagogic corpus 教学语料库
Phraseology 短语、短语学
POSgram 赋码序列、码串
POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码
POS tagger 词性赋码器、词性赋码工具
Prefab 预制语块
Probabilistic (基于)概率的、概率性的、盖然的
Probability 概率
Rationalism 理性主义
Raw text/Raw corpus 生文本(语料)
Reference corpus 参照语料库
Regex/RE/RegExp/Regular Expressions 正则表达式
Register variation 语域变异
Relative frequency 相对频率
Representative/Representativeness 代表性(的)
Rule-based 基于规则的
Sample n./v. 样本;取样、采样、抽样
Sampling 取样、采样、抽样
Search term 检索项
Search word 检索词
Segmentation 切分、分词
Semantic preference 语义倾向
Semantic prosody 语义韵
SGML/Standard Generalized Markup Language 标准通用标记语言
Skipgram 跨词序列、跨词结构
Span 跨距
Special purpose corpus 专用语料库、专门用途语料库、专题语料库
Specialized corpus 专用语料库
Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比
Stand-off annotation 分离式标注
Stop list 停用词表、过滤词表
Stop word 停用词、过滤词
Synchronic corpus 共时语料库
Syntagmatic 横组合(关系)的
Tag 标记、码、标注码
Tagger 赋码器、赋码工具、标注工具
Tagging 赋码、标注、附码
Tag sequence 赋码序列、码串
Tagset 赋码集、码集
Text 文本
TEI/Text Encoding Initiative 文本编码计划
The Lexical Approach 词汇中心教学法
The Lexical Syllabus 词汇大纲
Token 形符、词次
Token definition 形符界定、单词界定
Tokenization 分词
Tokenizer 分词工具
Transcription 转写
Translational corpus 翻译语料库
Treebank 树库
Trigram 三元组、三元序列、三元结构
T-score T值
Type 类符、词型
TTR/Type-token ratio 类符/形符比、类/形比、型次比
Underuse 少用、使用不足
Unicode 通用码
Unit of meaning 意义单位
WaC/Web as Corpus 网络语料库
Wildcard 通配符
Word definition 单词界定
Word form 词形
Word family 词族
Word list 词表
XML/EXtensible Markup Language 可扩展标记语言
Zipf's Law 齐夫定律
Z-score Z值
 

附件

  • 语料库术语表.doc
    151.5 KB · 浏览: 556
回复: 语料库术语汇编:欢迎增补、批评指正

哇,太太感谢许博士提供这么好的资料!!
 
回复: 语料库术语汇编:欢迎增补、批评指正

CIA/ contrastive interlanguage analysis 中介语对比分析
plot 词图
 
回复: 语料库术语汇编:欢迎增补、批评指正

CIA/ contrastive interlanguage analysis 中介语对比分析
plot 词图


谢谢补充,这两个上面已列。
plot算在concordance plot里,单独说plot词义不详,因此以词组形式出现。
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

Alignment (of parallel texts) (平行或对应)语料的对齐

parallel texts 平行或对应语料?
很容易产生歧义
可否直接译为

平行语料?
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

Alignment (of parallel texts) (平行或对应)语料的对齐

parallel texts 平行或对应语料?
很容易产生歧义
可否直接译为

平行语料?

谢谢建议。

我们给出汉语翻译时,尽可能考虑到国内现有翻译。有业内专门从事翻译、双语语料的专家不是特别主张用“平行语料”的概念,主张用“对应语料”的概念。我们取了一个折中的说法。
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

谢谢你的补充。

是否收录,其界限很难定。我们的大致原则是与语料库的相关性高低。UTF似乎有点远。当然这个见仁见智。
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

我也是在拷贝文件的时候,突然注意到了这个编码格式文件。很多问题还得请教许博士。
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

Glossary updated on March 28, 2010.
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

补充一个:
stemming: 词干化处理
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

术语的统一翻译有助于概念统一,这是一件功德无量的事情。如果大家都能接受这个术语翻译列表的话,我们写文章的时候就没有必要一个一个去澄清了。
不过这个翻译标准有多少人愿意采用,就看大家的态度了。我采用了一个(分离式标注,本想翻译成独立式标注),算是皈依标准了。
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

我们从一开始就没打算制定什么标准,制定标准去规范别人是一件很可笑的事情。

我们只是提供了文献中的常见汉译,做了一点文献整理工作而已。没有(合适)译法的,我们尝试提供了汉译。如帖子的标题所言我们“欢迎增补、批评指正”。

术语的使用,一要合理,即切合原意;二要尊重约定俗成。

我们提供的中文译法,从左到右,第一个是相对来说用得较多的,或者是我们认为较合理的。
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

标准不一定要大家都遵循,但有人愿意遵循,一定是标准做得好,能满足大家的需求。做个事实上的标准又有何妨?With great power comes great responsibility,这件事落在北外也不冤枉(呵呵,挑战一下)。
没有标准,也就没有Internet了,甚至买个插座也要回家量尺寸。标准不是为了规范别人,而是方便大家交流。
至于我们称之为“标准”或“约定俗成”只是a rose by another name。
或许我们可以参考RFC的命名法则,姑且称之为RFT(Recommendation for Translation),这样可以减少大家对“标准”这个词的反感。

以上意见仅供参考。
 
Last edited:
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

Useful.

Thanks!
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

Thank you so much, Dr,Xu
 
回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

提一个:
inline annotation 嵌入式标注
Xiao (Corpus-based language studies : Tony McEnery, Richard Xiao and Yukio Tono, Unit 4)曾提到类似的概念,用的是embedded annotation, ”嵌入式标注“这个翻译应当可以兼顾不同英语词组表示的意思,而且”嵌入“与”分离“也正好相对。In-line annotation 文内标注、行内标注似乎太紧扣字面意思了。
 
Back
顶部