jieba处理含标点词语

发表于 2021-03-31

使用默认配置下的jieba分词时，不能识别出自定义字典里包含标点符号的中文词语，例如“访问控制（列）表”。jieba会在标点处将词语切开，即使在自定义词典中提高词频也没有用。

参考jieba的issue中关于默认汉字的一些信息，可修改jieba的全局变量re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-]+)", re.U)，在-后加入相关的符号，例如re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-（）]+)", re.U)，即可解决问题。其内在原因可能是jieba没将中文括号识别为中文的一部分。