我目前在建一个英汉平行语料库,有下面两个具体问题想求教于大家,望能给予指导:
1)已对齐的一组句子,如果与另外一组句子分属一篇文章中的不同的段落,这两组句子之间是否需要空一行?还是这篇文章中所有对齐的句子一直顺着分行排下来,其间(不管有几个段落)都不需要空行?
1)分属不同段落的对齐的句子,在标注句子标记(<seg> ... </seg>)的同时,是否需要在该段(已对齐的)第一句和最后一句标注段落标记(<p> ... </p>)?还是说从头到尾不管段落,只标注对齐的句子标记(<seg> ... </seg>)就可以了?
在此先谢过啦!谢谢!