在准备托福的时候,应该都有用过类似“核心4000词汇”吧,那么大家有没有想过这核心词汇是怎么得到的,怎么也不能是人工去筛选的吧。我觉得至少是应用自然语言处理(NLP)技术,我这里提供个思路:

  1. 单词收集与预处理
    通过收集近年的托福阅读,通过去除空格、标点等非英文单词以及去除诸如a、the等停用词得到筛选后的单词。

  2. 词频统计
    去掉重复单词,统计剩余单词词频并按词频排序。当然合理的词频应该是在20左右的,这个还要根据情况去调整。

  3. 根据wordnet语义库给出单词合理翻译
    单词统计出来后,要给出合理翻译。这个要把单词放到语境中去翻译,类似于有道翻译,采用的基本上就是利用wordnet语义库,根据词汇在上下文和wordnet中出现情况,采取一个很复杂的规则,确定具体词义。

具体大家可以查阅相关论文,这里分享“核心词汇提取”关键技术实现:http://www.cnblogs.com/baiboy/p/zryy1.html

1 收藏


直接登录