#Python系列#--自然语言处理之langid对文本语言检测识别

user

雨橙

中国.四川.成都

世界之上、唯有远见、惟爱不变。


Python文本处理中常用langid工具包来对文本进行语言检测与判别。
下面做了一个简单的例子来说明:

安装langid
pip install langid


完整代码如下:
#!/usr/bin/python
# _*_ coding:utf-8 _*_
# author: robinn

import langid

def inputoutput(infile,outfile):
    infilestr = ""
    f_out = open(outfile, "w")
    with open(infile, "r") as f:
        for line in f:
            linestr = line.strip()
            langidstr = langid.classify(linestr)
            if langidstr[0] == "en":
                continue
            f_out.write(linestr+"\n")
        f_out.close()

if __name__ == "__main__":
    inputoutput("inputfile.txt","outputfile.txt")

上面代码将inputfile.txt文件中的中文筛选出来。然后写入新的文件outputfile.txt。
这里主要使用方法是langid.classify(linestr)来进行识别处理。返回一个元组。
这里只是简单介绍了一下langid的使用方法。仅供大家参考。
更多请关注官方文档。
posted at