2024语料库建设与应用研讨会征文(7月31日截止)免会务费

xujiajin

管理员
Staff member
“2024语料库建设与应用研讨会”由中国社会科学院语言研究所语料库暨计算语言学研究中心、北京外国语大学中国外语与教育研究中心、国家社会科学基金重大项目“辞书编纂用大型多功能语料库建设与研究”(23&ZD314)联合主办,外语教学与研究出版社协办。大会定于2024年8月10日在北京大兴北京外国语大学国际会议中心举行。本届会议主题为“语料库语言学前沿:数据驱动的语言研究、创新应用与未来展望”。本次会议的主旨发言人为:中国社会科学院顾曰国教授、北京航空航天大学卫乃兴教授、北京航空航天大学梁茂成教授、中国社会科学院张永伟研究员。



本次会议不收取会务费。



现将征集会议论文提要的有关事项通知如下。



随着人工智能技术的不断进步,语料库语言学面临着前所未有的机遇和挑战。本届会议征集议题涵盖语料库语言学多个分支领域的研究,包括但不限于:



(1)汉语和其他语言的语料库建设理论与实践;

(2)语料库切分标注技术;

(3)辞书编纂与语料库建设;

(4)人工智能、大数据与语料库建设;

(5)其他语料库应用研究。



论文提要要求:

正文5号宋体字,题目3号宋体字,字数约500字,格式为Word文档。



摘要请注明作者姓名、单位、电子邮箱、通讯地址和联系电话。



论文提要征集截止日期:2024年7月31日

提要投递邮箱:yuliaoku2024@163.com

正式邀请函发出时间:2024年8月1日后



会议筹备组
 
汉语好像最应该做的是制定一个中文的难度等级算法,英文的难度等级算法到目前为止出现都差不多有半个世纪了,中文的难度等级算法连个影都没见到。这五千年的文明都去哪了,总不能说中文难度等级算法也是被美国卡了脖子吧?用人工智能写英文很容易控制难度,写中文控制难度就好像到目前为止没法实现,如果告诉大语言模型写一个特定年级难度的中文,估计这个大语言模型会一头雾水,它可能会告诉你我翻遍了大语言模型就没发现你们什么样标准的文章是什么年级难度的标准。中文难度等级算法好像有关人员走错了方向,按照英文难度等级的那种算法模式可能一千年也研究不出来,中文难度等级标准可能与汉字的笔画有些关系,笔画越多的汉字好像越不是一般人用的,笔画多到一定程度的汉字就根本不是人用的汉字了。就像那些拍马屁的家伙抠康熙词典弄出个龙行龘龘。那些经常用的汉字基本都是笔画比较少的,也就是所谓的高频字,这些字大多数是口语用词,这些词出现多的文章就是难度低的文章,当然这与句长也有关系,句子越长越难懂。我就好奇北京那么多牛逼哄哄的高校和研究机构到现在都没弄出个中文难度等级算法,也不知道他们脑子用来干啥的,每年那么多研究经费都用哪去了?
 
我把这个问题交给了ChatGPT,能不能给我制定一个中文难度等级算法,大致构思是以汉字的笔画多少为基础,汉字笔画出现越多的文章难度相应越大,句子越长的文章难度相应越大,还有一个参数就是汉字的字和词越是生活中常用的多的这种文章难度低。ChatGPT给的回复如下:
这个中文难度等级算法可以通过综合考虑汉字的笔画数量、句子的长度以及汉字和词汇的使用频率来实现。以下是一个大致的构思和步骤:

1. 数据准备​

  • 汉字笔画数据:获取每个汉字的笔画数。
  • 汉字频率数据:获取汉字在日常生活中的使用频率。
  • 词汇频率数据:获取词汇在日常生活中的使用频率。

2. 算法步骤​

  1. 文本预处理
    • 将文章分割成句子和词语。
    • 统计每个句子的长度(以字符或词语计)。
  2. 汉字笔画数计算
    • 遍历文章中的每个汉字,计算其总笔画数。
  3. 汉字和词汇频率计算
    • 对文章中的每个汉字和词汇,查找其使用频率,并计算平均频率。
  4. 难度评分计算
    • 句子长度得分(Score_sentence_length):句子越长,难度得分越高。
    • 汉字笔画得分(Score_stroke_count):汉字的总笔画数越多,难度得分越高。
    • 汉字和词汇频率得分(Score_frequency):汉字和词汇的频率越低,难度得分越高。
  5. 总难度评分
    • 总难度评分 = (句子长度得分 + 汉字笔画得分 + 汉字和词汇频率得分) / 3

3. 具体实现​

以下是一个Python代码的实现示例:
# 假设我们已经有以下数据
# 汉字笔画数据
stroke_count = {'你': 7, '好': 6, '天': 4, '气': 6, '真': 10, '好': 6} # 示例数据
# 汉字频率数据
char_frequency = {'你': 0.05, '好': 0.04, '天': 0.03, '气': 0.01, '真': 0.02, '好': 0.04} # 示例数据
# 词汇频率数据
word_frequency = {'你好': 0.04, '天气': 0.03, '真好': 0.01} # 示例数据

def calculate_difficulty(text):
sentences = text.split('。') # 分割句子
num_sentences = len(sentences)
num_chars = sum(len(sentence) for sentence in sentences)

total_strokes = 0
total_frequency = 0
total_chars = 0

for sentence in sentences:
for char in sentence:
if char in stroke_count:
total_strokes += stroke_count[char]
total_frequency += char_frequency.get(char, 0)
total_chars += 1

avg_sentence_length = num_chars / num_sentences if num_sentences != 0 else 0
avg_stroke_count = total_strokes / total_chars if total_chars != 0 else 0
avg_frequency = total_frequency / total_chars if total_chars != 0 else 0

# 计算难度评分
Score_sentence_length = avg_sentence_length
Score_stroke_count = avg_stroke_count
Score_frequency = 1 - avg_frequency # 频率越低难度越大

difficulty_score = (Score_sentence_length + Score_stroke_count + Score_frequency) / 3
return difficulty_score

# 示例文本
text = "你好。天气真好。"

# 计算难度评分
difficulty_score = calculate_difficulty(text)
print(f"文本难度评分: {difficulty_score}")

4. 注意事项​

  • 汉字笔画数据和频率数据需要准确和全面。
  • 词汇频率数据需要从大规模语料库中提取,以确保准确性。
  • 这个算法只是一个简单的示例,实际应用中可能需要根据具体需求进行调整和优化。
这个算法的基本思路是通过对汉字笔画、句子长度和使用频率的综合考虑,来计算文章的难度评分。你可以根据需要调整各个评分的权重,使其更符合实际需求。

这个ChatGPT确实比整天抠康熙词典找生僻字拍马屁的那些家伙靠谱不知道多少光年倍,也比那些拿着大量研究经费研究不出个啥的那些家伙靠谱。
 
如果制定中文难度标准算法,还应该包含歧义多义这个参数,还应该包括新造词(比如为了应对封禁词)、用同音字代替的词,半汉字半拼音还加阿拉伯数字混合,还有单独用偏旁部首组合出来的那些
 
Back
顶部