НЛП: сегментация китайских слов thulac

искусственный интеллект Python NLP
НЛП: сегментация китайских слов thulac

предисловие

THULAC:THU Lexical Analyzer for Chinese
由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
THULAC具有如下几个特点:
  能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
  准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
  速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

  THULAC在线演示平台:http://thulac.thunlp.org/demo
  

Установить пакет расширений

pip install thulac

использовать

import thulac

thu1 = thclac.thulac() # 初始化一个实例对象

# 初始化参数
thulac(user_dict=None,
       model_path=None,
       T2S=False,
       seg_only=False,
       filt=False)
       
# 参数解释
#user_dict           设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码
#model_path          设置模型文件所在文件夹,默认为models/
#T2S                 默认False, 是否将句子从繁体转化为简体
#seg_only            默认False, 时候只进行分词,不进行词性标注
#filt                默认False, 是否使用过滤器去除一些没有意义的词语,例如“可以”。

# 实例化对象之后,可以使用的一些函数有:
thu1.cut(文本,text=False)  
# 对一句话进行分词
#text参数默认为False, 是否返回文本,不返回文本则返回一个二维数组([[word, tag]..]),seg_only模式下tag为空字符。



thu1.cut_f(输入文件, 输出文件) 对文件进行分词