笔者跟同事对同一份语料进行分词处理,但结果不同:

笔者结果:赛尔号 彩翼 蝶 是 儿童页游 《 赛尔号 》 的 一 只 精灵 名称

同事结果:赛尔 号 彩翼蝶 是 儿童 页 游 《 赛尔 号 》 的 一只 精灵 名称

代码及参数都一致,jieba版本均为0.38,使用默认dict.txt

笔者python2.7.11、同事python2.7.12

烦请大神告知原因!

1 收藏


直接登录
最新评论
  • 雇佣兵1979 打字员 04/14

    没有神,

    先核对所有数据,如果你是软件工程你就该知道如何核对。

    筒单直接选有差异的做为数据源执行 ,在对比,

    第二种强制定义字典,

    第三种读它原理,涉及条件算法,

    这些实际算是测试,关注数据量cpu,内存变化这也是必须的。一般先硬件设施一致对比,再差异化对比。个人观点。

     

  • 冬晓 单身狗 04/16

    先把HMM关掉看下

  • yunkchen 数据挖掘 04/18

    C:\Users\Administrator\AppData\Local\Temp\jieba.cache

    该文件会对本地运行过的jieba进行记录,每次import jieba会载入该文件,影响后续分词效果。