第一步: 修改RunWeka.ini文件,修改encoding为gbk, 否则会有中文乱码
第二步: 生成arff文件, 可以参考weka安装目录下的/data/ReutersCorn-train.arff文件格式. 中文和英文的一个区别是需要进行分词. 可以自己写个程序把文本转化为词序列.
比如:
text,class
‘我 是 帅哥’,1
‘胡言 乱语’,0
第三步: 预处理, 用explorer打开生成的arff文件, 然后使用选择filter->unsupervised->attribute->StringToWordVector. 点击apply
这样会将原本的instance:
‘我 是 帅哥’,1
转化为多个instance:
我,1
是,1
帅哥,1
胡言,0
乱语,0
第四步: 激活classify的tab, 选择分类器, 比如NaiveBayes, 注意选择”分类”属性选择class,否则无法进行分类, 点击start.
DONE, 下一篇通过代码来完成上述过程.