基于Redis实现一个朴素贝叶斯文本分类器

基于朴素贝叶斯进行文本分类因为实现简单被广泛应用,很多开源的机器学习框架都提供了相应的实现。使用场景如新闻类内容的分类,垃圾信息识别等等。

原理

贝叶斯的定义就不具体说了,概率统计都有讲,如果没学过也没关系,去wikipedia上看看。非常朴素,值得一看。

分类器最重要的是先要有“分类”,而且分类之间应该是相对来说重合度比较低的,或者说是正交的。然后对每个分类进行词的统计,然后就会生成一个关键词序列,或者叫模型。有点像这个分类的DNA序列一样,即可以理解为这个分类在用词维度上的特征(特征向量)。然后就是将目标内容基于这一系列的“DNA”序列进行计算likelihood,值最大的那个就是了。

实践

具体的实现我就不上代码了。主要几步:

0. 抽样

从对应的分类中获取足够多的样本,并且要避免有脏样本,否则生成的分类器会不准确。

1. 分词

这个很容易理解,因为是要用到词,中文就一定会用到分词工具。Java里有paoding, PHP里有Jieba,甚至新浪SAE的分词服务…这方面有很多开源的解决方案。

2. 统计、生成DNA(模型)

针对每个分类的样本集合,统计每个关键词的出现频率。最终得到一个“词-次数”的Map。这里就用到Redis了,其实不一定要用Redis,用Redis主要是考虑到后续的模型自动反馈改进。如果只是不怕麻烦而手动生成的话,这里保存模型到哪里其实无所谓。

3. 权重设置

针对每个词在所在分类里出现的频率来设置一个后续计算的权重。最简单是:这个词在所有词中的出现概率(该词的出现次数 / 所在分类中样本的总词数)。用Redis的SortedSet来保存。

4. 使用

对于一个目标样本,分词,然后针对每个分类计算相应的权重值和。

5. 模型自动化反馈

这个还是比较重要的思路,因为模型也是会变动的,你的分类可能也在不断进化,比如法制新闻的内容可能随着法制热点或者法治进程的变化,产生不同的特征(这个例子有点YY了)。所以模型的产生应该随着新的样本不断地变化,所以生成模型的过程应该是保持一定的频率进行,同时,每次的使用模型进行分类的目标样本如果区分度较高,也可以直接加入到模型里进行计算。

 

优化

避免overfit – 模型并不容易达到足够高的准确率,准确率过高的原因可能是因为分类区分度很高,也许根本就不需要用分类器类做这件事,而准确率过低有可能是你的抽样有问题,或者你的分类有很大的重叠,比如生活和社会这种。所以如果是目标样本非常fit某个分类,建议就不要放到新的抽样样本里,因为不会产生新的“基因”了,如果这种样本过多,最终就容易overfit。

数量取胜 – 也是很朴素的想法,一个分类器不行,那么十个、二十个呢?如果能够把整个抽样提取、模型生成、模型反馈机制都自动化了,那么用多个分类器进行交叉验证,或者是来个投票机制。准确率应该也可以有很好的提升。

成功“平台”的三个要素

前天在微信里看了一篇文章,是这篇文章的中文翻译,觉得很有启发。但今天却怎么也找不到那篇翻译。这里不得不吐槽一下微信里的内容质量实在是不敢恭维。

文章写于2013年,对于日新月异的互联网来说可能已经是“一个世纪”,但是这种简洁的模型却非常有生命力。

简单的说,作者将任何一个平台(platform)拆解为三个要素:

Connection – how easily others can plug into the platform to share and transact

Gravity: how well the platform attracts participants, both producers and consumers

Flow: how well the platform fosters the exchange and co-creation of value

这是能找到的原作者写的文章。但是译文还是没找到,晕。

译文比较深入但也容易理解。不同于上面的三个“晦涩”的词,而是:

1. network(community)

2. technology

3. data

不同的平台的区别主要是这三个因素的比例不同,比如google在初期就是technology为主,然后有了足够的data后,最终产生了network effect,进而再通过technology促进data的丰富。最终三者均衡,但仍然是technology略大。而facebook则一开始就是爆发性的networking,然后data和technology跟进。还有关于craigslist、Nike+、airbnb、linkedin等平台的例子,都可以很好的解释。

这个模型有点像我们经常说的:产品、技术、运营三要素。其实两种模型有互通的地方。

所有的互联网平台其实是两个东西的组织:信息和用户。

信息的组织,体现在将信息进行创新的展示,比如SNS、LBS、blog、twitter、messaging或者其他种种混合嫁接(hybrid)

用户的组织,最开始的互联网体现在将信息传递到用户(这种模式就是所谓web2.0时代之前的pipeline),而web2.0开始,人的组织一方面是提供价值给信息消费者,同时又把信息生产的职责交给了用户(也就是信息的获取)。

剩下一个技术就不用说了,作为工具和驱动力。

关于用户登录注册的一些实践

虽然关于用户登录注册几乎是每个系统的标配,也是大多数教程里的经典样例。但实际工作中,我们还是时不时会被“用户”搞的焦头烂额。比如防止机器注册、oauth接入以及带来的用户账号合并问题、用户身份验证或身份标识、用户相关的表应该如何设计以应对未来各种扩展和可能性等等。

这里记录一些之前的设计和开发的经验。

用户是否一定要注册并登录

我个人非常反感打开一个网站或者App以后,还没搞清楚是做什么的时候就强制要求注册的。这种做法绝对是“好奇心杀手”,至少一半的人被这个动作挡在了外面,实在是不值得。我之前参与的项目,只要是可以最终能够获得用户的联系方式的,那么一定不需要用户注册以后才能使用功能。比较常见的情况是标准的电商网站,浏览和查看是不需要用户注册的,但是结算时就需要了,在我看来虽然比一上来就注册好一点,但还是有点“伤” – 用户都已经下决心购买了啊!用户结算时一般都会做两件事:填写联系方式、支付。这些都不需要用户ID这个东西,能联系到用户就已经很成功了,一定要用户填个注册表单吗?当然不排除是万恶的KPI。

不过不注册产生的一个问题是用户“返回”和订单跟踪时会需要额外的流程来,比如需要用户提供订单号来找回订单,甚至可能需要人工介入。

身份标识

即如何标识一个用户,常见的标识有:昵称、邮箱、手机号、OAuth授权ID。更多的标识建议没有特殊必要就不要收集了,一来涉及到个人隐私,二来这种数据需要更高安全要求的存储(前提是你没打算用来干坏事)。在bot还不是那么泛滥的年代,常常是一个昵称就可以了,但现在连邮箱都不行了,几乎都是手机号码起步。很多时候,一个手机号就对应一个用户,虽然现实并不是这样,但至少是比较靠谱。会产生多账号问题 – 因为有些人换号了或者有多个手机号,如果用户有合并账号asset(也就是账号的“资产”,比如余额、积分、优惠券等等)的需求,目前看貌似真不好搞,判断两个账号同一个人并不容易也会存在风险。

比较常见的还是基于手机号标识用户后,在进行手机号的更换绑定的流程,这样就成了“一个用户一个手机号”,也算是解决了问题。至于账号相关asset合并问题,就要视具体情况来定了。

多账号问题

举个极端的例子,当系统支持手机号、邮箱注册,同时支持Oauth登录时,如果没有任何限制,一个用户可能会用手机号、邮箱、各个Oauth各注册一个用户。这种情况带来的问题是用户会搞不清楚自己的订单在哪个用户里,相信我,有这种“糊涂”的用户。之前的一个经验是“关联”,比如,除了上述的标识以外,我们通常还会生成一个唯一的标识记到cookie里,同时useragent信息也可以部分的标识,geo信息,ip归属地,甚至再“玄”一点的用户行为模式。通过这些标识也可以进行账号是否属于同一用户的判断,此时再提供给用户合并账号的流程。

OAuth

OAuth现在也是标配了,大多数的OAuth的接入都不困难,所以接入的技术细节就略过了。之前的经验是用户和用户OAuth是一对多的。用户正常注册后,然后绑定各OAuth,这样之后通过OAuth登录就可以确定用户,这是最简单的情况。如果用户是先通过微博的OAuth登录,之后又正常注册的,也就是上面说的多账号问题了,除了上面的“关联”方法,另一种解决办法是针对这种用户鼓励再进行手机号或邮箱的注册。

经常见到,用OAuth登录跳转回来以后,马上要求用户进行手机号或邮箱注册的流程,虽然可以最快的完成绑定。但却失去了Oauth登录的便捷性,有点被“坑”的感觉 – 本来觉得注册麻烦,以后授权一下就可以搞定,结果授权完还是一样要注册。

用户表结构

也没什么花头,User表记录用户的基本信息,UserProfile记录用户的个人资料,UserAddress记录用户的地址,UserOauth记录用户的登录授权信息,UserCredit用户积分信息,UserXXX,总之就是尽量让User表纯粹,通过增加实体表来扩展。比较简单,就不细说了。

验证码(captcha)

验证码用来防止机器人进行表单提交,比较经典是12306的验证码。对这件事我是有点“悲观”的,因为永远都是道高一尺,魔高一丈。现在很多时候都是用了手机或者邮箱的动态验证码,或者类似微信换设备登录时选择好友头像,还有非常原始但有效的“注册预留问题”。相对来说类似微信这种根据账号的asset(微信的好友就是微信账号的asset)来进行验证,但这个又是和你的业务相关的,比如如果是滴滴打车,可能会让你选择你曾经在哪些城市使用过滴滴。

单纯的captcha真的没有卵用,看看满大街的注册机就行了,当可以cover成本的时候,甚至都可以人肉来做,搞captcha有啥用呢?

为什么有那么多的“半拉子”App

无论是App Store还是各大应用市场,只要搜索一个主题,总会有一大堆相似的App跳出来,然而其中90%都是没法用的。根本原因是:所有人,无论什么背景或经历都觉得应该搭上移动互联网时代的大潮,似乎做个App就万事大吉,等着收钱了。可是对于一个不了解互联网和网络技术的人来说,他完全低估了做一件互联网产品的难度,以为简简单单找个外包团队,花几万块钱就ok了。可是对外包团队来说,他们不会告诉你,产品需要运营,需要持续的优化和技术投入。做好,收钱,完事!如果都告诉你,可能会吓到你,项目不做了,怎么收钱?我并不是对外包这个行业有偏见,只是这是外包存在的根本。也有很多优秀的外包团队。

具体的来说,造成90%的App都是“失败”的不外乎这几个原因:

1. 拍脑袋

很多时候,老大的一个idea,或者是看到某个心仪的App之后,一拍脑袋,说:“我就做一个这个App,你先给我抄一个。”或者“我也要做一个,然后再把微博、微信、社交、大数据这些东西都加进去。“ 一般碰到这种人,我绝对会把他拍回去,或者关系还不错的话,我会尝试让他明白后面的事情有多少,合理的投入是多少(通常要在他原本以为的基础上乘以5或10)。

2. 谈情怀

不得不说,有很多谈情怀的互联网产品是很不错的。但通常都是解决某个具体的问题,或者是工具类的App。否则一旦开始谈情怀,就会清高到觉得运营的工作low到不应该做,殊不知,很多产品运营的工作是非常dirty的。太清高的结果就是太多的有所不为,或者想都不想。

3. 搞”神器“

产品如果没有清晰的目标,就会搞很多功能。一会儿是社交,一会儿要通讯、一会儿要LBS、反正能加的都要有。似乎做个微博+微信的东西就可以超越微博和微信了。(怎么感觉我在黑支付宝啊!),最终的结果是开发团队疲于奔命,做出来的东西没人用。

4. 没规划

只要不是工具类的App,都需要有长远的规划,我的经验是至少1年验证。1年的验证如果只是一个平台,并且持续优化的话,没有50万、100万根本没得玩(开发成本而已,都不说运营成本)。你说你自己做的,你自己做也要算成本的吧!什么?外包给你报价5万,好吧!又一个”半拉子“App要上线了。是的,如果是做一个商店或者新闻阅读这种相对标准的App,可能是可以做出来。但还是要考虑获取用户的成本吧。

上述这些都是我的一些经验,难免片面。对于想要做一件产品的人来说,最主要的是思考”我要解决一个什么问题“,别贪多。很多时候,一个App的失败不是因为缺乏方法,而是缺少方向。

比特时代的思考方式变化

人类社会的发展,从粒子的角度来看是从原子(农业时代、工业时代、商业时代),到目前的比特(信息时代),未来也许应该是光子(时间时代)。

各个阶段的价值表现形式(或者说货币、等价物)也不同,在原子阶段,是贵金属(其实货币是个非常通用、基础的概念);而信息时代则是比特。比如,过去我们说一个人的价值是说某个人可以产生多少产品(农业),或者说某个人可以组织并生产多少产品(工业时代),而商业时代作为“交界”,恰恰说明了人类进入信息时代的前提。因之,某种程度来说,商人也是拥有或者善于利用某种信息而已。商业时代其实也不尽然是指纯粹我们所说的商业行为,更多像是“交换”行为 – 用产品去进行交换产品,或者用产品去交换信息。从这个角度来说,我们看到的所谓“权钱交易”只不过是一种不合法(或者说有碍他人权益的)的商业行为而已。

以这个角度来看,我们目前的信息时代和原子时代的一个最大的区别其实是“所有权”的问题,所谓“世界是平的”,即信息的所有权被极大的放开,原有商业时代的信息壁垒在被不断打破,催生了新的经济行为和经济形式,而经济领域的变化又会影响到大众心理和大众价值观。鉴于此,我们应该如何调整自己的行为模式以符合这新的时代呢?这里粗浅思考一下。

1. 不要试图增加公共的信息壁垒,信息获取是公平的

2. 建立个人的信息壁垒

3. 尽可能获取最多的信息

这两条其实完全可以映射到原子时代的:

1. 不要损害他人的利益(不要试图强行获取其他人的金钱)

2. 保护自己的利益(建立自己的金钱壁垒)

3. 个人利益最大化(在前两者的前提下,获取更多的金钱)

这里不涉及道德问题,控制欲望这件事不是这里讨论的。所以,这里也没有鼓励人去“向钱看”。

所以很多时候,我们需要让别人对你的了解处于一个合理的区间里,同时尽量获取多的信息。

NPS悖论

NPS(Net Promoter Score),译作“净推荐值” ,是一种计量某个客户将会向其他人推荐某个企业或服务可能性的指数。不知什么时候被引入互联网产品界,被各种产品经理视为神物。wikipedia

之前也曾经做过NPS的收集工作,也曾经非常迷恋NPS。但最近一段时间的思考发现,似乎很难获得一个非常有效或者参考比较高的NPS。

为什么?主要是“收集”。我们知道NPS是一个非常泛(general)的指标,因此绝大多数的NPS获取方法都是在各种问卷调查的最后一项来一句:“请告诉我们您向他人推荐XXX的倾向是:1.2…..10”,非常常见,有时候还会在一些线下的实体店里遇到类似的问题。

首先的问题是:填表悖论。这个不知有没有专门的定义,我只是拍脑袋想起来这个词。什么意思呢?其实很容易理解,那些愿意回答你的产品的调查的人首先就已经有较高的推荐意愿了。试想,如果我都不喜欢或者厌恶你的产品,我还愿意花时间告诉你反馈吗?尤其是同类产品的获取相对容易的时候。也许这也是NPS的计算方法非常“苛刻”的一部分原因,去抵消掉填表悖论的影响。

另一个问题,其实是接着上一个问题。一个极度理性的人是不会浪费一丁点时间在一件没有后续结果的事情上的(除非被逼无奈,如果你的产品能让一个理性的人没有别的选择,相信我,你不需要NPS,你只需要数钱即可)。从这个角度来说,你的调查最终只会遇到两类人:

1. 感性的人

2. 对产品抱有强烈喜爱的人

后者不用说了,他们的回答一定会提升NPS,至少不会拉低,而前者呢?就非常难说了。感性的人的结果是非常主观的,饱含各种偏见,几乎是一种随机结果。你真的确定要用主观感觉来衡量你的产品好坏吗?除非这种感觉数据足够多,并且一定要在用户一使用完马上来做(以减少其他因素影响主观印象),也许才能获得有参考意义的数据。可获取这个数据我还是觉得很悲观的。

说成这样,难道就要抛弃NPS吗?当然不,只是我们需要特别警惕NPS的收集,同时要知道NPS的参考价值有多少。不要盲目,否则就是“迷信”了。

sox配置

需要把amr格式的音频转换为mp3。

安装:

apt-get install sox

默认安装没有包含mp3格式的转换,所以还要安装:

apt-get install libsox-fmt-mp3

一些常用方法参考:http://www.thegeekstuff.com/2009/05/sound-exchange-sox-15-examples-to-manipulate-audio-files/

关于微信登录

微信开发现在太火了,github上也可以找到很多牛人开发的代码。但是另一方面,微信自身提供的API和SDK又非常杂乱。从另一个方面来说,互联网上某个产品的成功,也许还真未必需要最好的技术。至少这件事可以通过时间来慢慢达到优秀。扯远了。

微信做为全中国使用最多的平台,自然受到各种网站、App的热捧 – 大家在上线的初期就会去考虑如何使用微信来获取尽可能多的用户。

我们如果只是做个“微店”,注册个公众账号,看起来似乎没有问题。但是,如果我们有一个Web站,想要接入微信登录时,就会掉到一个大坑。

微信会告诉你,先去注册一个“微信开放平台”,还要认证。然后在这里你可以使用网页登录接口。但是这个网页登录接口虽然仍然是oauth原理,但使用的是一套新的AppId和secret,所以通过这个网页登录接口获得的用户无法获得真正的openid,用这个openid毫无意义,你不能用来发送模板消息,然后貌似也就没有什么其他的用途了。

然后,你会看到“公众号第三方平台”,貌似可以解决这个问题,你可以还要申请、全网测试、做一些其他不知所谓的东西。但是这些东西不是给“第三方平台”做的吗?比如有赞什么的。

总之我走到这里的感觉是,我被微信那帮小朋友玩了。虽然也许他们自己不这么觉得。

网页登录这种接口真的有必要单独放到所谓“开放平台”做吗?在我的感觉来看,微信搞一堆开放平台纯粹是浪费程序员的生命啊!这个一定是程序员出身的产品经理做的,因为只有程序员才会坑程序员啊!

OK,既然到了这里,我们会发现,其实网页登录这种东东用原始的授权接口即可实现,只是要自己脏脏手而已。可是既然这样,微信搞个网页登录接口,还搞在“开放平台”里有个卵用?!

如何做呢?我这里就不上代码了,希望能看到这里的人,对一些起码的东西还是有点了解的。

第一步,生成一个我们自己的登录token(10分钟过期),然后作为一个生成一个URL,然后把这个URL做成二维码。

第二步,用户用微信扫描后,进入这个URL时,发起微信端的授权。在授权成功后,更新token的状态为登录成功,并标识用户的ID。

第三部,在二维码页面,使用JS定时去检查这个token是否登录成功,并获得相应的用户ID,登录它,页面给出提示。

好吧,就是这么简单。毫无技术含量,但是却是一坑见血!以微信现在的体量,想要变动一下还是比较慢的,也许这篇文章还能有点用。