基于Redis实现一个朴素贝叶斯文本分类器

基于朴素贝叶斯进行文本分类因为实现简单被广泛应用,很多开源的机器学习框架都提供了相应的实现。使用场景如新闻类内容的分类,垃圾信息识别等等。

原理

贝叶斯的定义就不具体说了,概率统计都有讲,如果没学过也没关系,去wikipedia上看看。非常朴素,值得一看。

分类器最重要的是先要有“分类”,而且分类之间应该是相对来说重合度比较低的,或者说是正交的。然后对每个分类进行词的统计,然后就会生成一个关键词序列,或者叫模型。有点像这个分类的DNA序列一样,即可以理解为这个分类在用词维度上的特征(特征向量)。然后就是将目标内容基于这一系列的“DNA”序列进行计算likelihood,值最大的那个就是了。

实践

具体的实现我就不上代码了。主要几步:

0. 抽样

从对应的分类中获取足够多的样本,并且要避免有脏样本,否则生成的分类器会不准确。

1. 分词

这个很容易理解,因为是要用到词,中文就一定会用到分词工具。Java里有paoding, PHP里有Jieba,甚至新浪SAE的分词服务…这方面有很多开源的解决方案。

2. 统计、生成DNA(模型)

针对每个分类的样本集合,统计每个关键词的出现频率。最终得到一个“词-次数”的Map。这里就用到Redis了,其实不一定要用Redis,用Redis主要是考虑到后续的模型自动反馈改进。如果只是不怕麻烦而手动生成的话,这里保存模型到哪里其实无所谓。

3. 权重设置

针对每个词在所在分类里出现的频率来设置一个后续计算的权重。最简单是:这个词在所有词中的出现概率(该词的出现次数 / 所在分类中样本的总词数)。用Redis的SortedSet来保存。

4. 使用

对于一个目标样本,分词,然后针对每个分类计算相应的权重值和。

5. 模型自动化反馈

这个还是比较重要的思路,因为模型也是会变动的,你的分类可能也在不断进化,比如法制新闻的内容可能随着法制热点或者法治进程的变化,产生不同的特征(这个例子有点YY了)。所以模型的产生应该随着新的样本不断地变化,所以生成模型的过程应该是保持一定的频率进行,同时,每次的使用模型进行分类的目标样本如果区分度较高,也可以直接加入到模型里进行计算。

 

优化

避免overfit – 模型并不容易达到足够高的准确率,准确率过高的原因可能是因为分类区分度很高,也许根本就不需要用分类器类做这件事,而准确率过低有可能是你的抽样有问题,或者你的分类有很大的重叠,比如生活和社会这种。所以如果是目标样本非常fit某个分类,建议就不要放到新的抽样样本里,因为不会产生新的“基因”了,如果这种样本过多,最终就容易overfit。

数量取胜 – 也是很朴素的想法,一个分类器不行,那么十个、二十个呢?如果能够把整个抽样提取、模型生成、模型反馈机制都自动化了,那么用多个分类器进行交叉验证,或者是来个投票机制。准确率应该也可以有很好的提升。

我的读书习惯

考虑到目前在读的书有七八本之多,我得分析分析自己的这种读书习惯了。

我非常赞同开卷有益和不求甚解,也就养成了什么书都读的特点,当然前提是自己至少有点兴趣,或者别人强烈推荐。但是,我很难控制这种“随意的开始”,经常是买回几本书,然后都翻几十页,虽然最终都会读完,但是貌似“进度”并行的结果就是读得有点慢。

比如,现在我就在同时读:

1. 道德情操论(家里书架上,慢读)

2. 零年(办公室)

3. 美国大城市的生与死 (微信读书)

4. 文明之光(书房书架显眼位置,工作间歇休息时阅读)

5. 量子物理史话(第二遍、ipad)

6. 我们能做什么(微信读书)

这都不是我的“巅峰状态”,因为kindle都处于赋闲状态(kindle一般都是旅行模式)。先说说这么读书的好处和坏处:

1. 场景化阅读 – 每本书都是处于一个特定的场景,不会出现无书可读的情况,如果真的有记忆需求的化,场景也不失为一种记忆手段。只是大多数情况下,我读书都不会特别的去记忆。这么来看,读书似乎是一种往潜意识“放东西”的行为,也许在某个时刻会激发创造力,或者干脆是做梦用的。

2. 不强迫自己 – 比较随意,也许是我本身就是一个思维比较随意的人。我的目标是获取insight,而不是单纯的知识(考虑自己也没有过目不忘的本领)。所以也不会强迫给自己设定读书目标,比如本数、页数。

3. 缺点 – 随意的开始“一段感情”,这么类比也许不太恰当。太随意的开始就像是没有想清楚就结婚一样,也许会缺乏持续投入(commitment),最终不欢而散。还好看书没那么大的“负担”和“复杂度”,而且书很多时候也不会和我要求什么。

好吧,每个人都有适合自己的读书方式。

“歪果仁”的人比中国人认真吗?

用google和百度最大的区别是:如果你是问一个问题,即便是相对冷僻的主题,google也会帮你找到质量不错的答案。

我不想再说关于google和百度二者的比较,这个已经没意义了。我想说的是,我们经常会看到这些答案出现在IRC、newsgroup、maillist这些我们很多人听都没听过的“原始”工具里,因为这种“负责任的回答”似乎是非常正常不过并且由来已久,比如这种。而我们直到有了知乎之后,才算是有地方去找一些相对靠谱的答案。

除了得出“歪果仁”比国人更认真(普遍意义上讲,不说个别)的结论,似乎得不出别的结论。

我不是“妄自菲薄”,也并没有“崇洋媚外”的习惯,这只是我观察到的一个结果,不排除有主观上的因素。但无论怎样,人还是应该动态地看待问题,我还是对国人乐观的,即便有些人和事很不堪,但还是有很多让人感动的人和事。

成功“平台”的三个要素

前天在微信里看了一篇文章,是这篇文章的中文翻译,觉得很有启发。但今天却怎么也找不到那篇翻译。这里不得不吐槽一下微信里的内容质量实在是不敢恭维。

文章写于2013年,对于日新月异的互联网来说可能已经是“一个世纪”,但是这种简洁的模型却非常有生命力。

简单的说,作者将任何一个平台(platform)拆解为三个要素:

Connection – how easily others can plug into the platform to share and transact

Gravity: how well the platform attracts participants, both producers and consumers

Flow: how well the platform fosters the exchange and co-creation of value

这是能找到的原作者写的文章。但是译文还是没找到,晕。

译文比较深入但也容易理解。不同于上面的三个“晦涩”的词,而是:

1. network(community)

2. technology

3. data

不同的平台的区别主要是这三个因素的比例不同,比如google在初期就是technology为主,然后有了足够的data后,最终产生了network effect,进而再通过technology促进data的丰富。最终三者均衡,但仍然是technology略大。而facebook则一开始就是爆发性的networking,然后data和technology跟进。还有关于craigslist、Nike+、airbnb、linkedin等平台的例子,都可以很好的解释。

这个模型有点像我们经常说的:产品、技术、运营三要素。其实两种模型有互通的地方。

所有的互联网平台其实是两个东西的组织:信息和用户。

信息的组织,体现在将信息进行创新的展示,比如SNS、LBS、blog、twitter、messaging或者其他种种混合嫁接(hybrid)

用户的组织,最开始的互联网体现在将信息传递到用户(这种模式就是所谓web2.0时代之前的pipeline),而web2.0开始,人的组织一方面是提供价值给信息消费者,同时又把信息生产的职责交给了用户(也就是信息的获取)。

剩下一个技术就不用说了,作为工具和驱动力。

关于用户登录注册的一些实践

虽然关于用户登录注册几乎是每个系统的标配,也是大多数教程里的经典样例。但实际工作中,我们还是时不时会被“用户”搞的焦头烂额。比如防止机器注册、oauth接入以及带来的用户账号合并问题、用户身份验证或身份标识、用户相关的表应该如何设计以应对未来各种扩展和可能性等等。

这里记录一些之前的设计和开发的经验。

用户是否一定要注册并登录

我个人非常反感打开一个网站或者App以后,还没搞清楚是做什么的时候就强制要求注册的。这种做法绝对是“好奇心杀手”,至少一半的人被这个动作挡在了外面,实在是不值得。我之前参与的项目,只要是可以最终能够获得用户的联系方式的,那么一定不需要用户注册以后才能使用功能。比较常见的情况是标准的电商网站,浏览和查看是不需要用户注册的,但是结算时就需要了,在我看来虽然比一上来就注册好一点,但还是有点“伤” – 用户都已经下决心购买了啊!用户结算时一般都会做两件事:填写联系方式、支付。这些都不需要用户ID这个东西,能联系到用户就已经很成功了,一定要用户填个注册表单吗?当然不排除是万恶的KPI。

不过不注册产生的一个问题是用户“返回”和订单跟踪时会需要额外的流程来,比如需要用户提供订单号来找回订单,甚至可能需要人工介入。

身份标识

即如何标识一个用户,常见的标识有:昵称、邮箱、手机号、OAuth授权ID。更多的标识建议没有特殊必要就不要收集了,一来涉及到个人隐私,二来这种数据需要更高安全要求的存储(前提是你没打算用来干坏事)。在bot还不是那么泛滥的年代,常常是一个昵称就可以了,但现在连邮箱都不行了,几乎都是手机号码起步。很多时候,一个手机号就对应一个用户,虽然现实并不是这样,但至少是比较靠谱。会产生多账号问题 – 因为有些人换号了或者有多个手机号,如果用户有合并账号asset(也就是账号的“资产”,比如余额、积分、优惠券等等)的需求,目前看貌似真不好搞,判断两个账号同一个人并不容易也会存在风险。

比较常见的还是基于手机号标识用户后,在进行手机号的更换绑定的流程,这样就成了“一个用户一个手机号”,也算是解决了问题。至于账号相关asset合并问题,就要视具体情况来定了。

多账号问题

举个极端的例子,当系统支持手机号、邮箱注册,同时支持Oauth登录时,如果没有任何限制,一个用户可能会用手机号、邮箱、各个Oauth各注册一个用户。这种情况带来的问题是用户会搞不清楚自己的订单在哪个用户里,相信我,有这种“糊涂”的用户。之前的一个经验是“关联”,比如,除了上述的标识以外,我们通常还会生成一个唯一的标识记到cookie里,同时useragent信息也可以部分的标识,geo信息,ip归属地,甚至再“玄”一点的用户行为模式。通过这些标识也可以进行账号是否属于同一用户的判断,此时再提供给用户合并账号的流程。

OAuth

OAuth现在也是标配了,大多数的OAuth的接入都不困难,所以接入的技术细节就略过了。之前的经验是用户和用户OAuth是一对多的。用户正常注册后,然后绑定各OAuth,这样之后通过OAuth登录就可以确定用户,这是最简单的情况。如果用户是先通过微博的OAuth登录,之后又正常注册的,也就是上面说的多账号问题了,除了上面的“关联”方法,另一种解决办法是针对这种用户鼓励再进行手机号或邮箱的注册。

经常见到,用OAuth登录跳转回来以后,马上要求用户进行手机号或邮箱注册的流程,虽然可以最快的完成绑定。但却失去了Oauth登录的便捷性,有点被“坑”的感觉 – 本来觉得注册麻烦,以后授权一下就可以搞定,结果授权完还是一样要注册。

用户表结构

也没什么花头,User表记录用户的基本信息,UserProfile记录用户的个人资料,UserAddress记录用户的地址,UserOauth记录用户的登录授权信息,UserCredit用户积分信息,UserXXX,总之就是尽量让User表纯粹,通过增加实体表来扩展。比较简单,就不细说了。

验证码(captcha)

验证码用来防止机器人进行表单提交,比较经典是12306的验证码。对这件事我是有点“悲观”的,因为永远都是道高一尺,魔高一丈。现在很多时候都是用了手机或者邮箱的动态验证码,或者类似微信换设备登录时选择好友头像,还有非常原始但有效的“注册预留问题”。相对来说类似微信这种根据账号的asset(微信的好友就是微信账号的asset)来进行验证,但这个又是和你的业务相关的,比如如果是滴滴打车,可能会让你选择你曾经在哪些城市使用过滴滴。

单纯的captcha真的没有卵用,看看满大街的注册机就行了,当可以cover成本的时候,甚至都可以人肉来做,搞captcha有啥用呢?