使用weka的explorer进行中文文本分类

第一步: 修改RunWeka.ini文件,修改encoding为gbk, 否则会有中文乱码

第二步: 生成arff文件, 可以参考weka安装目录下的/data/ReutersCorn-train.arff文件格式. 中文和英文的一个区别是需要进行分词. 可以自己写个程序把文本转化为词序列.

比如:

text,class

‘我 是 帅哥’,1

‘胡言 乱语’,0

第三步: 预处理, 用explorer打开生成的arff文件, 然后使用选择filter->unsupervised->attribute->StringToWordVector. 点击apply

这样会将原本的instance:

‘我 是 帅哥’,1

转化为多个instance:

我,1

是,1

帅哥,1

胡言,0

乱语,0

第四步: 激活classify的tab, 选择分类器, 比如NaiveBayes, 注意选择”分类”属性选择class,否则无法进行分类, 点击start.

DONE, 下一篇通过代码来完成上述过程.