说说中文分词

中文分词在具体算法上分为3种

  1. 字符串匹配(正序、逆序、最少切分、最大切分等)
  2. 基于理解(词法,句法等方式处理)
  3. 基于统计

字符串匹配

匹配方法

  1. 正向最大匹配 (MM)
  2. 逆向最大匹配 (RMM)
  3. 双向最大匹配 (BM)

消除歧义

  • 交叉歧义(字符串AJB,AJ和JB都是一个汉语词汇,会存在多种切分交叉在一起):“你说的确实在理”,“的确”和“确实”就是交叉型歧义片段。
  • 组合歧义(字符串AB是一个词汇,A和B同时也是词汇,会存在不同语义下切分不同):“这个人手上有颗痣”,“目前人手紧缺”。前者是“人”/“手”两个实体词,后者是“人手”一个实体词。
  • 真歧义(怎么切分都合理):“乒乓球拍卖完了”,切分为以下两种情况都是合理的,“乒乓球拍/卖/完了”,“乒乓球/拍卖/完了”

在一个常见的分词MMSeg中,有2种匹配模式:

  1. Simple

  2. Complex

    在complex分词算法中,MMSeg将切分的相邻三个词作为词块(chunk),应用如下四个消歧义规则:

    • 最大匹配 (Maximum matching),即三个词的词长之和最大;
    • 最大平均词长(Largest average word length),即要求词长分布尽可能均匀;
    • 最小词长方差(Smallest variance of word lengths),最小词长方差,也就是找出词长方差最小的语块,并选取其第一个词语作为正确的词语切分形式;
    • 最大单字词语语素自由度之和(Largest sum of degree of morphemic freedom of one-character words),对"三词语块"中的单字词语频率取对数并求和。选取其中和最大的三词语块作为最佳的词语切分形式。

待补充