说到“改变”,孩子是大人的老师

看了几本关于所谓教育孩子的皮毛书籍就一副什么都懂了的样子,孩子你有多懂?凭什么高高在上颐指气使,我看都不见得有什么长进,在改变这点上,孩子才是大人的老师。

有时我会不自觉地把孩子和自己小时候比较,虽然我经常建议儿子无需和别人比较。其实这也是典型的静态思维,凭什么让孩子和你的优点比较,每个人都是不同的,反过来想,孩子难道没有你小时候不具备的优点吗?必然有。

关闭微信朋友圈一周后

一周前关闭了微信朋友圈入口,一周过去了,似乎也没什么影响。因为之前朋友圈也主要是在碎片时间“刷”,而这一周以来的碎片时间去了哪了呢?好像变没了。

其实我们哪有那么多“碎片时间”,其实都是正常时间被偶尔的碎片时间“污染”掉了,本来吃过午饭可以放空思考一下,结果被这个“刷朋友圈”的动作占据了,而且还不知不觉多出了半个小时。结果思考的时间没有了,大脑里无端出现很多新的事情 – 谁谁去了新公司、谁谁去旅游了、谁谁开始做微商了、看了几篇有价值无价值的文章(但未必能够消化)…

而这些信息价值并不高,典型的信息过载问题,我们不是缺东西,恰恰是“吃”的太多了,消化不良,最终导致大脑这个“消化系统”只能消化表面化、浅显化的信息,稍微深度的问题就会毫无意识地略过。

关闭朋友圈后,可以考虑将时间更合理地“切割”。我一直以来的问题是“摄入”过多,过杂,但没有很系统化的组织和产出。将时间更合理地分配到“摄入”和“产出”这两件事上,甚至可以考虑多一些到“产出”上。

 

关于道歉

今天是国耻日,恰好昨晚看完了号称日剧第一的《半泽直树》,是个关于复仇和道歉的故事。很应景。

早上听着鸣笛声发了一条关于国耻日、半泽直树和道歉的朋友圈。顺势想起了关于道歉的一些事情。让日本人道歉真难,即使是心知肚明,但不知道是出于骄傲还是出于偏执,就是无法道歉。真是让我无法理解。

我常常会玩玩文字游戏,声称:日本是敌人,而非对手。

这句话其实还是有些意味的,对手,往往是那些和你有着同一级别的道德水平的,但价值取向不同而已,所以是值得尊敬的。而敌人,是比对手低一个层次的概念,仅仅是战斗中的对方,不需要考虑到道德水准和价值观的。对待日本,就是这样。(当然不排除在某些特定的领域,日本是值得尊敬的对手)。

道歉到底有多难?我们对道歉到底有多在意?

不同于很多人要求的抓着要日本人道歉,我对日本道歉这件事其实并不特别看重 – 不道歉并不代表没做错,事实摆在那里,态度而已,而你的态度不会影响到我,最多会让我知道你的心理素质比较差而已。但是我们会时时记得这个敌人,即便是我这个从未经历战争、从小看着日本漫画和动画片长大的昨天晚上还看了日剧的中国人。

你可以说这种“恨意”是溶在血里的,也不排除是宣传教育的结果。但非常客观(自己所谓的客观也许并不客观)地说,对待日本整体的行为,我是非常傲娇地鄙夷之的。

为什么?

引用日本人自己的评价,《半泽直树》中贯穿全剧的一句话(大意):一定要重视人与人的交往,而不要像机器人一样工作。相比日本来说,中国人“像机器人一样”工作的人要少许多。

一页上应该有多少字?

我们在读书的时候为什么有时看的很累?有时却有轻松而有收获?

除了兴趣和精神状态之外,也许还有别的原因。

反馈效应

反馈原来是物理学中的一个概念,是指把放大器的输出电路中的一部分能量送回输入电路中,以增强或减弱输入讯号的效应。心理学借用这一概念,以说明学习者对自己学习结果的了解,而这种对结果的了解又起到了强化作用,促进了学习者更加努力学习,从而提高学习效率。这一心理现象称做“反馈效应”。

我们在读书时也同样需要类似的反馈机制存在,显而易见的,就是“翻页”这个动作。“翻页”会让我们获得来自书的反馈 – 这页你读完了(也许未必完全明白,但这不重要,重要的是“读完了”)。尤其是那些比较艰深的读物,更是感觉明显。

所以,也许在考虑书籍的排版和封装的时候,需要考虑一下主要读者群对反馈的适应情况,比如,如果读者阅读时比较吃力,可以考虑每页字数不要太多,并且如果书籍内容比较多的时候,考虑分成多册(kindle就不需要考虑分册这个问题了)。

其实即便是生活中很小的点滴,也可能蕴含很多普遍而浅显的原理。

 

 

基于Redis实现一个朴素贝叶斯文本分类器

基于朴素贝叶斯进行文本分类因为实现简单被广泛应用,很多开源的机器学习框架都提供了相应的实现。使用场景如新闻类内容的分类,垃圾信息识别等等。

原理

贝叶斯的定义就不具体说了,概率统计都有讲,如果没学过也没关系,去wikipedia上看看。非常朴素,值得一看。

分类器最重要的是先要有“分类”,而且分类之间应该是相对来说重合度比较低的,或者说是正交的。然后对每个分类进行词的统计,然后就会生成一个关键词序列,或者叫模型。有点像这个分类的DNA序列一样,即可以理解为这个分类在用词维度上的特征(特征向量)。然后就是将目标内容基于这一系列的“DNA”序列进行计算likelihood,值最大的那个就是了。

实践

具体的实现我就不上代码了。主要几步:

0. 抽样

从对应的分类中获取足够多的样本,并且要避免有脏样本,否则生成的分类器会不准确。

1. 分词

这个很容易理解,因为是要用到词,中文就一定会用到分词工具。Java里有paoding, PHP里有Jieba,甚至新浪SAE的分词服务…这方面有很多开源的解决方案。

2. 统计、生成DNA(模型)

针对每个分类的样本集合,统计每个关键词的出现频率。最终得到一个“词-次数”的Map。这里就用到Redis了,其实不一定要用Redis,用Redis主要是考虑到后续的模型自动反馈改进。如果只是不怕麻烦而手动生成的话,这里保存模型到哪里其实无所谓。

3. 权重设置

针对每个词在所在分类里出现的频率来设置一个后续计算的权重。最简单是:这个词在所有词中的出现概率(该词的出现次数 / 所在分类中样本的总词数)。用Redis的SortedSet来保存。

4. 使用

对于一个目标样本,分词,然后针对每个分类计算相应的权重值和。

5. 模型自动化反馈

这个还是比较重要的思路,因为模型也是会变动的,你的分类可能也在不断进化,比如法制新闻的内容可能随着法制热点或者法治进程的变化,产生不同的特征(这个例子有点YY了)。所以模型的产生应该随着新的样本不断地变化,所以生成模型的过程应该是保持一定的频率进行,同时,每次的使用模型进行分类的目标样本如果区分度较高,也可以直接加入到模型里进行计算。

 

优化

避免overfit – 模型并不容易达到足够高的准确率,准确率过高的原因可能是因为分类区分度很高,也许根本就不需要用分类器类做这件事,而准确率过低有可能是你的抽样有问题,或者你的分类有很大的重叠,比如生活和社会这种。所以如果是目标样本非常fit某个分类,建议就不要放到新的抽样样本里,因为不会产生新的“基因”了,如果这种样本过多,最终就容易overfit。

数量取胜 – 也是很朴素的想法,一个分类器不行,那么十个、二十个呢?如果能够把整个抽样提取、模型生成、模型反馈机制都自动化了,那么用多个分类器进行交叉验证,或者是来个投票机制。准确率应该也可以有很好的提升。

我的读书习惯

考虑到目前在读的书有七八本之多,我得分析分析自己的这种读书习惯了。

我非常赞同开卷有益和不求甚解,也就养成了什么书都读的特点,当然前提是自己至少有点兴趣,或者别人强烈推荐。但是,我很难控制这种“随意的开始”,经常是买回几本书,然后都翻几十页,虽然最终都会读完,但是貌似“进度”并行的结果就是读得有点慢。

比如,现在我就在同时读:

1. 道德情操论(家里书架上,慢读)

2. 零年(办公室)

3. 美国大城市的生与死 (微信读书)

4. 文明之光(书房书架显眼位置,工作间歇休息时阅读)

5. 量子物理史话(第二遍、ipad)

6. 我们能做什么(微信读书)

这都不是我的“巅峰状态”,因为kindle都处于赋闲状态(kindle一般都是旅行模式)。先说说这么读书的好处和坏处:

1. 场景化阅读 – 每本书都是处于一个特定的场景,不会出现无书可读的情况,如果真的有记忆需求的化,场景也不失为一种记忆手段。只是大多数情况下,我读书都不会特别的去记忆。这么来看,读书似乎是一种往潜意识“放东西”的行为,也许在某个时刻会激发创造力,或者干脆是做梦用的。

2. 不强迫自己 – 比较随意,也许是我本身就是一个思维比较随意的人。我的目标是获取insight,而不是单纯的知识(考虑自己也没有过目不忘的本领)。所以也不会强迫给自己设定读书目标,比如本数、页数。

3. 缺点 – 随意的开始“一段感情”,这么类比也许不太恰当。太随意的开始就像是没有想清楚就结婚一样,也许会缺乏持续投入(commitment),最终不欢而散。还好看书没那么大的“负担”和“复杂度”,而且书很多时候也不会和我要求什么。

好吧,每个人都有适合自己的读书方式。

“歪果仁”的人比中国人认真吗?

用google和百度最大的区别是:如果你是问一个问题,即便是相对冷僻的主题,google也会帮你找到质量不错的答案。

我不想再说关于google和百度二者的比较,这个已经没意义了。我想说的是,我们经常会看到这些答案出现在IRC、newsgroup、maillist这些我们很多人听都没听过的“原始”工具里,因为这种“负责任的回答”似乎是非常正常不过并且由来已久,比如这种。而我们直到有了知乎之后,才算是有地方去找一些相对靠谱的答案。

除了得出“歪果仁”比国人更认真(普遍意义上讲,不说个别)的结论,似乎得不出别的结论。

我不是“妄自菲薄”,也并没有“崇洋媚外”的习惯,这只是我观察到的一个结果,不排除有主观上的因素。但无论怎样,人还是应该动态地看待问题,我还是对国人乐观的,即便有些人和事很不堪,但还是有很多让人感动的人和事。

成功“平台”的三个要素

前天在微信里看了一篇文章,是这篇文章的中文翻译,觉得很有启发。但今天却怎么也找不到那篇翻译。这里不得不吐槽一下微信里的内容质量实在是不敢恭维。

文章写于2013年,对于日新月异的互联网来说可能已经是“一个世纪”,但是这种简洁的模型却非常有生命力。

简单的说,作者将任何一个平台(platform)拆解为三个要素:

Connection – how easily others can plug into the platform to share and transact

Gravity: how well the platform attracts participants, both producers and consumers

Flow: how well the platform fosters the exchange and co-creation of value

这是能找到的原作者写的文章。但是译文还是没找到,晕。

译文比较深入但也容易理解。不同于上面的三个“晦涩”的词,而是:

1. network(community)

2. technology

3. data

不同的平台的区别主要是这三个因素的比例不同,比如google在初期就是technology为主,然后有了足够的data后,最终产生了network effect,进而再通过technology促进data的丰富。最终三者均衡,但仍然是technology略大。而facebook则一开始就是爆发性的networking,然后data和technology跟进。还有关于craigslist、Nike+、airbnb、linkedin等平台的例子,都可以很好的解释。

这个模型有点像我们经常说的:产品、技术、运营三要素。其实两种模型有互通的地方。

所有的互联网平台其实是两个东西的组织:信息和用户。

信息的组织,体现在将信息进行创新的展示,比如SNS、LBS、blog、twitter、messaging或者其他种种混合嫁接(hybrid)

用户的组织,最开始的互联网体现在将信息传递到用户(这种模式就是所谓web2.0时代之前的pipeline),而web2.0开始,人的组织一方面是提供价值给信息消费者,同时又把信息生产的职责交给了用户(也就是信息的获取)。

剩下一个技术就不用说了,作为工具和驱动力。