请教:这样的问题需不需要做keyword

我最近在做关于科技英语的词汇方面的内容。科技英语词汇可以分为技术词、次技术词、半技术词和非技术词。为了提取其中的半技术词(semi-technical words),最近看到一篇文章是这样做的:
先把科技英语语料库做词表,然后再用BNC的词表做reference,做出科技英语语料库中的keyword,然后选择其中key值为正的关键词,进行人工的分类,再用统计软件检测分类的一致性。总感觉这样的方法有点不妥,又讲不出所以然,麻烦大家帮忙看看。这样的问题是要做keyword呢,还是直接对wordlist进行分类呢?这里做keyword的根据是什么呢?看那篇文章很多遍都没有找到作者交代的根据。把文章也发给大家,大家一起讨论讨论。
 

附件

  • 4[1].pdf
    1.9 MB · 浏览: 59
回复: 请教:这样的问题需不需要做keyword

我最近在做关于科技英语的词汇方面的内容。科技英语词汇可以分为技术词、次技术词、半技术词和非技术词。为了提取其中的半技术词(semi-technical words),最近看到一篇文章是这样做的:
先把科技英语语料库做词表,然后再用BNC的词表做reference,做出科技英语语料库中的keyword,然后选择其中key值为正的关键词,进行人工的分类,再用统计软件检测分类的一致性。总感觉这样的方法有点不妥,又讲不出所以然,麻烦大家帮忙看看。这样的问题是要做keyword呢,还是直接对wordlist进行分类呢?这里做keyword的根据是什么呢?看那篇文章很多遍都没有找到作者交代的根据。把文章也发给大家,大家一起讨论讨论。
我没有看你贴的文章。
你这种方法也可行,两个词表比较出来的就是keywords list,然后再分析。但是keywords分析起来比较费劲,因为科技英语的领域太广,各个方面的“主题性词”都在keywordlist之中。
是否可以这样?你把科技英语按领域进行分类,按各个领域的语料词表与BNC 词表再对比,这样可能比较准确,也利于人工分析。
不一定选择其中key值为正的关键词,你也可以设定你的最低关键值。
但愿有帮助。
 
回复: 请教:这样的问题需不需要做keyword

谢谢你的意见!
我所描述的方法是我所贴的这篇文章所使用的方法。他就是先做出keyword list然后提取key值为正的词。然后基于这些key值为正的关键词 进行人工分类。就是把这些key值为正的关键词分为技术词、次技术词、半技术词和非技术词。他等于是用keyword这个功能缩小了范围。
 
回复: 请教:这样的问题需不需要做keyword

还有人看完文章有新的见解吗?这个问题很困扰我, 麻烦大家帮帮忙!谢了
 
回复: 请教:这样的问题需不需要做keyword

哈囉!

最近我也讀了這篇 article,
Menon, S., & Mukundan, J. (2010). Analysing collocational patterns of semi-technical words in science textbooks. Pertanika Journal of Social Science & Humanities, 18(2), 241-258.

很有意義, 但是結果有很多問題.

最大的問題是, span width 設太短, 及到底要不要用詞類標記的角度去分析 collocation?

作者把 collocation 的 span 設成 2, 結果免不了出現一大堆 compound, 像 ‘cell body’ 或 ‘companion cell’ , 可是如果這些 compound 有其特定的專業語意, 就可能真的是純技術詞, 前面幾個分類步驟好像就失去意義了.

我讀後的想法是, 不要用 noun+noun 或 adjective+noun 的角度去研究技術詞, 這樣只會把問題搞得更複雜. 何況若真是技術詞, compound 如 ‘companion cell’ 應該視為一個單字.

至於作者結論說對學習者比較難的詞, 是因為 compound 沒有辦法由 literal meaning 猜測. 由語意學的角度寫結論, 實在有點不得已. 較難的技術 compound, 一定早就列在該學科的專業字典裡了.

整個問題全出在 span 只設成 2, 原來要研究 collocation, 結果變成全在討論 compound.
 
回复: 请教:这样的问题需不需要做keyword

好像沒有回答您的主要關注.

作者的研究方法, 主要分兩階段, 先用 keyword 篩選特別的單字. (假設相對於一般文類, 在科技文類有統計顯著性的字, 就是值得研究的字詞, 是由 frequency 的角度來決定), 再用專家意見 (兩位有專業知識的老師做 coding), coding 結果再用統計方法確認兩位專家意見是一致的.

我也有怪怪的感覺, 覺得兩種方法合用, 其中之一有點多此一舉.
可能是因為我們覺得既然已經在 keyword list 的字了, 應該就是 technical 了啊, 怎麼又會再從 positive keyword list 裡再由 coder 依約定分類方式再分成四種 category?

如果站在作者的立場, 也許他們用 keyword 的功能, 目的是在縮小研究範圍.

但也很奇怪, 如果已經在 positive keyword list 裡面的字, 專家還能分出 non-technical words, 那 significantly frequent (keyword)就辨認技術詞而言, 就失去意義了.

不好意思, 還不會打簡體字.
 
回复: 请教:这样的问题需不需要做keyword

你好jeremy!你的想法对我很有启发。我还就研究方法这个问题发邮件与作者本人进行了沟通,他给出的解释是,采用keyword是为了缩小分类的范围。可能在他们看来,关键词功能只是让文章的特点得到了突出,并不能作为检索技术词一步到位的方法。他在邮件里还列了很多的关于keyword的参考文献给我以支持他的研究方法。我也不知道了,是不是我们对keyword这个功能的本身理解有问题?
另外关于您提到的其研究搭配的方法,的确是有点偏差。但是如果真的打算研究次技术词在科技文本中的搭配或者类联接现象的话,应该用什么研究方法呢?能否指教一二,谈谈您的观点呢?
 
回复: 请教:这样的问题需不需要做keyword

你好jeremy!你的想法对我很有启发。我还就研究方法这个问题发邮件与作者本人进行了沟通,他给出的解释是,采用keyword是为了缩小分类的范围。可能在他们看来,关键词功能只是让文章的特点得到了突出,并不能作为检索技术词一步到位的方法。他在邮件里还列了很多的关于keyword的参考文献给我以支持他的研究方法。我也不知道了,是不是我们对keyword这个功能的本身理解有问题?
另外关于您提到的其研究搭配的方法,的确是有点偏差。但是如果真的打算研究次技术词在科技文本中的搭配或者类联接现象的话,应该用什么研究方法呢?能否指教一二,谈谈您的观点呢?

ninihe09 你好,

您询问作者所得回应 "关键词功能只是让文章的特点得到了突出, 并不能作为检索技术词一步到位的方法" 我很同意. Keyword 这个概念, 究其根本, 就是 "significantly frequent", 因此是以词频为研究方法的基础. Scott 用 keyword 的概念作文化研究, 很帅, 已加在附档. 附档的文章後半有 key-keyword 的介绍, 是以 distribution 的涵盖范围再筛选出分布特广的 keyword. 很有意思. 如果要应用, 我们就得在corpus design 的阶段先想想怎麽分 text/file.

我原本也是想要找一个方法, 把次技术词筛选出来, 读了你提的这篇论文, 我就搁下了. 因为技术, 次技术, 非技术的区辨, 是语意层面的问题, 不是词频多少可以决定的, 必须要有该专业文本专家的 coding, 有 coding 又一定要做 inter-rater reliability 的检定. 可我个人觉得既然市面上有各行业的专业字典, 何必要再劳烦找人 coding 呢, 我身边也没朋友能帮我做研究啊.

我现在毕业论文的做法, 是只针对 non-technical, 我使用专业字典的词条, 一律视为 technical, 在 WordSmith 里做成 stoplist, 因此剩下的字, 就全是 non-technical 了. 预计再使用 cluster 的功能, , 再找 collocation, span 打算设成 4. 还不知道做不做得出来, 希望能顺利.
 

附件

  • 1997_keykeyword_Scott.pdf
    703.9 KB · 浏览: 62
回复: 请教:这样的问题需不需要做keyword

想到一个方法.
你可以用专业字典做 technical wordlist, 再用学校(国小, 国中, 高中)的单字表作成 general wordlist, 两个合并成一个 stoplist, 剩下的就是你要的次技术词了.
 
回复: 请教:这样的问题需不需要做keyword

我现在做的是有关次技术词的词义和搭配方面的 其实是不是提取完整的次技术词汇倒也不是问题的关键,只要我能用一个方法选出其中具有代表性的应该也是可以的,比如用Menon, S., & Mukundan, J.这篇文章中的方法,先做关键词表缩小范围,然后再人工分类,选择次技术词中key值最高的前几位做代表进行研究。你认为这样可行吗?另外由于次技术词的定义就是在通用英语中和科技英语中都存在,但是在科技英语中是依赖语境成义的词,因此想从搭配中看词义变化,从词义变化再看搭配特点,即他们两者是互相制约,互相决定的过程,这样好像又涉及到了Sinclair Lexicogrammar方面的内容。现在思路有点混乱啊 哎
 
回复: 请教:这样的问题需不需要做keyword

只要我能用一个方法选出其中具有代表性的应该也是可以的,比如用Menon, S., & Mukundan, J.这篇文章中的方法,先做关键词表缩小范围,然后再人工分类,选择次技术词中key值最高的前几位做代表进行研究。你认为这样可行吗?

就次技术词的 identification 而言, 我觉得方法OK, 只要你的预算及时间许可.

另外由于次技术词的定义就是在通用英语中和科技英语中都存在,但是在科技英语中是依赖语境成义的词,因此想从搭配中看词义变化,从词义变化再看搭配特点,即他们两者是互相制约,互相决定的过程,这样好像又涉及到了Sinclair Lexicogrammar方面的内容。
我觉得用不同的 genre 或 subject 作同一个 word 的 collocaton 比较, 会相对保险. 万一你在科技英文文类, 找到很典型的 collocation, 譬如 with後接了许多不同 noun, 接下来你要怎麽解释? 如果用不同genre 或 subject 作同一组 collocation 之後接的 noun 或其他词组的比较, 差异可能会比较大, 你写 discussion 会比较好发挥.

建议你先上这个网路语料库测试你假设的 collocation 会有什麽组合.
http://www.corpora.jp/~perc04/#
里面全是学术论文, 有超过十来种学科可以选择. 帐号申请免费, 介面很好用.
 
回复: 请教:这样的问题需不需要做keyword

以上是浅见, 我也只是学生而已, 也许其他前辈愿意给我们一点指导.
 
回复: 请教:这样的问题需不需要做keyword

赞,论坛需要的正是这样深入细致,内容翔实的讨论。
 
回复: 请教:这样的问题需不需要做keyword

只要我能用一个方法选出其中具有代表性的应该也是可以的,比如用Menon, S., & Mukundan, J.这篇文章中的方法,先做关键词表缩小范围,然后再人工分类,选择次技术词中key值最高的前几位做代表进行研究。你认为这样可行吗?

就次技术词的 identification 而言, 我觉得方法OK, 只要你的预算及时间许可.

另外由于次技术词的定义就是在通用英语中和科技英语中都存在,但是在科技英语中是依赖语境成义的词,因此想从搭配中看词义变化,从词义变化再看搭配特点,即他们两者是互相制约,互相决定的过程,这样好像又涉及到了Sinclair Lexicogrammar方面的内容。
我觉得用不同的 genre 或 subject 作同一个 word 的 collocaton 比较, 会相对保险. 万一你在科技英文文类, 找到很典型的 collocation, 譬如 with後接了许多不同 noun, 接下来你要怎麽解释? 如果用不同genre 或 subject 作同一组 collocation 之後接的 noun 或其他词组的比较, 差异可能会比较大, 你写 discussion 会比较好发挥.

建议你先上这个网路语料库测试你假设的 collocation 会有什麽组合.
http://www.corpora.jp/~perc04/#
里面全是学术论文, 有超过十来种学科可以选择. 帐号申请免费, 介面很好用.


很赞同Jeremy的答复。
 
回复: 请教:这样的问题需不需要做keyword

谢谢各位老师和同学,
几年前在这里的讨论, 已经顺利长成毕业论文, 我把与keyword有关的技术全用上论文了.

http://thesis.lib.nccu.edu.tw/cgi-b...R&dbpathf=/opt/fb32/db/stdcdrf/&fuid=01&dbna=

谢谢大家!

Jeremy
抱歉,
图书馆连结有问题,可用论文名称或关键字在政治大学图书馆查询:

Chen, C. H. (2013). General lexis in specialized genre: A corpus study on formulaic language in business reports.

Keywords: Corpus、English for Specific Purposes (ESP)、English for Business Purpose (EBP)、formulaic language、keyness、phraseology、real content、syntagmatic variation、paradigmatic variation、wordlist、genre analysis
 
Back
顶部