当前位置 博文首页 > Python jieba库分词模式实例用法

    Python jieba库分词模式实例用法

    作者:十一 时间:2021-02-10 18:06

    在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式全模式搜索引擎模式。也对应着三种方式,包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就为大家实例操作这些分词模式,以及方法的使用,一起来了解下吧。

    全模式:

    import jieba
    seg_list = jieba.cut("南京市长江大桥欢迎你。", cut_all=True)
    print(type(seg_list),seg_list)

    精确模式:

    seg_list1 = jieba.lcut("南京市长江大桥欢迎你。", cut_all=False)
    print(type(seg_list1),seg_list1)

    搜索模式:

    seg_list2 = jieba.cut_for_search("南京市长江大桥欢迎你。")
    print(type(seg_list2),seg_list2)
    print("全模式:" + "/ ".join(seg_list))
    print("精确模式:" + "/ ".join(seg_list1))
    print("搜索引擎模式:" + "/ ".join(seg_list2))

    输出结果:

    全模式:南京/ 南京市/ 京市/ 市长/ 长江/ 长江大桥/ 大桥/ 欢迎/ 你/ 。

    精确模式:南京市/ 长江大桥/ 欢迎/ 你/ 。

    搜索引擎模式:南京/ 京市/ 南京市/ 长江/ 大桥/ 长江大桥/ 欢迎/ 你/ 。

    内容扩展:

    获取词性

    我们还可以通过jiaba这个库把词性进行区分,比如动词,名词等

    import jieba.posseg as psg
    
    seg_list = psg.cut("我要进行关键词提取")
    print([(s.word, s.flag) for s in seg_list])
    # [('我', 'r'), ('要', 'v'), ('进行', 'v'), ('关键词', 'n'), ('提取', 'v')]

    我们还可以提取动词或者名词,我们来提取下里面的动词

    import jieba.posseg as psg
    
    seg_list = psg.cut("我要进行关键词提取")
    print([(s.word, s.flag) for s in seg_list if s.flag.startswith('v')])
    js
    下一篇:没有了