jieba处理含标点词语
使用默认配置下的jieba分词时,不能识别出自定义字典里包含标点符号的中文词语,例如“访问控制(列)表”。jieba会在标点处将词语切开,即使在自定义词典中提高词频也没有用。
参考jieba的issue中关于默认汉字的一些信息,可修改jieba的全局变量re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-]+)", re.U)
,在-
后加入相关的符号,例如re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-()]+)", re.U)
,即可解决问题。其内在原因可能是jieba没将中文括号识别为中文的一部分。