回复: tagger、SentenceTokenizer方面的几段Python代码
频表、词元化处理:
# -*- coding: utf8 -*-
import time
import re
import string
import os
import collections
def freqlist_l(files,pattern,lemmatizing=False): #缺省无词元化处理
files=files.split(';') #一次输入多个文件
for file in files:
if not...