搜寻结果

电视剧台词语料库

https://www.english-corpora.org/tv/ https://www.english-corpora.org/soap/
- xujiajin
- Post #2
- 2024-12-27
- 论坛: 口语语料库
有没有计算STTR较好的测算软件

TTR以小数、百分数、整数出现都是可能的。小数和百分数是对应的。如果是整数，一般会是100以下的一个整数，在表头处标明为百分比（%）更严谨。
- xujiajin
- Post #14
- 2024-12-26
- 论坛: 语料库语言学入门
求助：AntConc将词性标注识别为单个词，如何解决？

有两种办法，一个是在AntConc设置里Hide tag，让AntConc在检索和创建词表时忽略tag；另一种办法是再做一个生语料版本：可用https://corpus.bfsu.edu.cn/Detagger2.zip将语料库中的标注去除。请备份好原来已标注的语料库。
- xujiajin
- Post #2
- 2024-12-22
- 论坛: 语料库检索
如何对汉语本文进行多维语域分析

今天又读到两篇相关文献：吴继峰,胡韧奋,彭一平. 学术汉语语体语言特征多维度测量研究——与新闻类、通用类、小说类语体对比视角 [J]. 语言文字应用, 2024, (3): 30-43. 周启红,王海峰. 汉语学术论文语篇特征变化多维分析 [J]. 语言文字应用, 2024, (3): 44-55.
- xujiajin
- Post #3
- 2024-12-21
- 论坛: 常见问题
有没有计算STTR较好的测算软件

ArthurW老师说的应该是陆小飞老师的Lexical Complexity Analyzer https://sites.psu.edu/xxl13/lca/ 另外，还可关注一下Kristopher Kyle的两个工具 The Tool for the Automatic Analysis if Lexical Diversity (TAALED) The Tool for the Automatic Analysis of Lexical Sophistication (TAALES) https://www.linguisticanalysistools.org/tools.html
- xujiajin
- Post #9
- 2024-12-20
- 论坛: 语料库语言学入门
如何对汉语本文进行多维语域分析

多维语域分析的核心统计方法是factor analysis，方法的操作说明可参考：https://corpus.bfsu.edu.cn/info/1084/1873.htm页面上的Principal component analysis (PCA) and factor analysis (CA) data and codes （https://corpus.bfsu.edu.cn/PCA_FA0608.zip）可参看相关研究：许家金、李佳蕾，2022，近百年汉语书面语的语域演变研究，《外语与外语教学》（4）：76-86。
- xujiajin
- Post #2
- 2024-12-18
- 论坛: 常见问题
一起帮我看看这个统计量怎么计算出来的

可用这个工具：https://corpus.bfsu.edu.cn/LLX2.zip 计算时应使用原始频数，而不是标准化频率。
- xujiajin
- Post #3
- 2024-12-17
- 论坛: 语料库语言学入门
北外语料库团队利用ChatGPT开发的语料库软件及开发过程视频展示

您可关注雷蕾老师开发的Chinese Readability工具：AlphaReadabilityChinese 1.0 https://github.com/leileibama/AlphaReadabilityChinese/releases/tag/AlphaReadabilityChinese
- xujiajin
- Post #4
- 2024-12-17
- 论坛: 编程与工具开发
AntConc中n-gram使用求助

未见有比较好的去处长短词块间重复计数的方法。自然语言处理领域似乎不大理会这一问题。作为语言学研究者，一般会根据提取出的词块进行手工剔除，舍弃其中语法语义不完整的词块，是否删除具有包含关系的词块，也可一并考虑。
- xujiajin
- Post #2
- 2024-12-11
- 论坛: 语料库检索
求助！《红楼梦》汉英平行语料库

目前线上的确无可用《红楼梦》汉英平行库，你可考虑其他语料。《红楼梦》翻译研究较多，选题不易出新，也难有新见。
- xujiajin
- Post #3
- 2024-12-11
- 论坛: 专门用途语料库
老师们好，请问哪里可以找到2014年至今的外交部例行记者会双语语料库吗

历年例行记者会均在外交部官方网站。你设定时间范围进行检索即可获取。见截图说明。 https://corpus.bfsu.edu.cn/briefings.png
- xujiajin
- Post #6
- 2024-12-08
- 论坛: 语料库检索
老师们好，请问哪里可以找到2014年至今的外交部例行记者会双语语料库吗

这里有2017年至2021年的数据：http://www.nlpir.org/wordpress/2021/10/11/%e4%b8%ad%e5%9b%bd%e5%a4%96%e4%ba%a4%e9%83%a8%e4%be%8b%e8%a1%8c%e8%ae%b0%e8%80%85%e4%bc%9a%e8%af%ad%e6%96%99%e5%ba%93/
- xujiajin
- Post #4
- 2024-12-08
- 论坛: 语料库检索
有没有计算STTR较好的测算软件

谢谢ArthurW的分享。有关MSTTR和MATTR，可见https://cran.r-project.org/web/packages/koRpus/koRpus.pdf 的66页和67页。 MSTTR (Mean Segmental Type-Token Ratio): (1) segments the text into fixed-length segments (e.g., 100 words per segment). (2) For each segment, the TTR is calculated as the ratio of unique words...
- xujiajin
- Post #4
- 2024-12-08
- 论坛: 语料库语言学入门
老师们好，请问哪里可以找到2014年至今的外交部例行记者会双语语料库吗

https://www.fmprc.gov.cn/fyrbt_673021/jzhsl_673025/index.shtml 外交部官网都有。页面顶端English栏目下可找英文版。
- xujiajin
- Post #2
- 2024-12-08
- 论坛: 语料库检索
Corpus linguistics 2040: Which data, which methods, which models?

The workshop is jointly organised by the English Department of the University of Freiburg and the Institut für Deutsche Sprache (IDS) in Mannheim and, as a scoping workshop, designed to explore the major empirical, methodological and conceptual challenges facing our research community. Although...
- xujiajin
- 主题
- 2024-12-07
- 回覆: 0
- 论坛: 新闻和通知
各位老师您好，可以求一份LCMC语料库完整的词表吗？

你可以用LCMC的在线版本生成一个词表：http://114.251.154.212/cqp/lcmc2/ 账号：test 密码：test 另外，你也可以下载更新的汉语语料库，生成参照词表： -ToRCH2009 Corpus (ToRCH2009现代汉语平衡语料库) https://corpus.bfsu.edu.cn/ToRCH2009.zip -ToRCH2014 Corpus (ToRCH2014现代汉语平衡语料库) https://corpus.bfsu.edu.cn/ToRCH2014.zip -ToRCH2019 Corpus...
- xujiajin
- Post #2
- 2024-12-05
- 论坛: 专门用途语料库
有没有计算STTR较好的测算软件

https://corpus.bfsu.edu.cn/BFSU_Readability_Analyzer_3.zip
- xujiajin
- Post #2
- 2024-12-03
- 论坛: 语料库语言学入门
肖老师创建的COTE corpus (COTE Corpus of Translational English)上线

这个语料库是肖老师建的，他没有授权可以公开这个语料库。
- xujiajin
- Post #3
- 2024-12-01
- 论坛: 缅怀肖忠华老师
COTE

COTE语料库可以在线检索，但不能下载。 http://114.251.154.212/cqp/cote/ 账号：test 密码：test
- xujiajin
- Post #2
- 2024-12-01
- 论坛: 语料汇集
求助：【500万微博语料】请问是因为数据太大，所以antconc打不开么？

没有。 WordSmith中有个Index（索引功能）可以实现上亿此次的检索、词表分析。2GB字节的语料，单机软件不大现实。
- xujiajin
- Post #6
- 2024-11-28
- 论坛: 常见问题

Home
搜索