jieba如何自定义词典

参考:

#词典格式:一个词占一行;每一行分三部分,一部分为词语,一部分为词频,最后为词性(可省略),用空格隔开
#本例使用的自定义词典如下,mydict.txt:
# 创新办 20
# 云计算 5

#不使用自定义词典
tokens1=jieba.cut("周大福是创新办主任也是云计算方面的专家")
#使用自定义词典
jieba.load_userdict("mydict.txt")
tokens2=jieba.cut("周大福是创新办主任也是云计算方面的专家")
print("|".join(tokens1))
print("|".join(tokens2))
#output:
# 周大福|是|创新|办|主任|也|是|云|计算|方面|的|专家
# 周大福|是|创新办|主任|也|是|云计算|方面|的|专家


标签: 周大福、词典、主任、jieba、mydict、面试
  • 回复
隐藏