下面做了一个简单的例子来说明:
安装langid
pip install langid |
完整代码如下:
#!/usr/bin/python
# _*_ coding:utf-8 _*_
# author: robinn
import langid
def inputoutput(infile,outfile):
infilestr = ""
f_out = open(outfile, "w")
with open(infile, "r") as f:
for line in f:
linestr = line.strip()
langidstr = langid.classify(linestr)
if langidstr[0] == "en":
continue
f_out.write(linestr+"\n")
f_out.close()
if __name__ == "__main__":
inputoutput("inputfile.txt","outputfile.txt")
|
上面代码将inputfile.txt文件中的中文筛选出来。然后写入新的文件outputfile.txt。
这里主要使用方法是langid.classify(linestr)来进行识别处理。返回一个元组。
这里只是简单介绍了一下langid的使用方法。仅供大家参考。
更多请关注官方文档。
更多请关注官方文档。