参考:
#词典格式:一个词占一行;每一行分三部分,一部分为词语,一部分为词频,最后为词性(可省略),用空格隔开 #本例使用的自定义词典如下,mydict.txt: # 创新办 20 # 云计算 5 #不使用自定义词典 tokens1=jieba.cut("周大福是创新办主任也是云计算方面的专家") #使用自定义词典 jieba.load_userdict("mydict.txt") tokens2=jieba.cut("周大福是创新办主任也是云计算方面的专家") print("|".join(tokens1)) print("|".join(tokens2)) #output: # 周大福|是|创新|办|主任|也|是|云|计算|方面|的|专家 # 周大福|是|创新办|主任|也|是|云计算|方面|的|专家