Google大数据案例解析
将系统产生的大数据传输,存储,分类等很多是技术型工作,随着大数据技术的发展,通用的解决方案,越来越成熟,也越来越廉价(几乎每两年存储价格降低一倍)。但是对于大数据应用来讲,思维其实是更重要的,只有巧妙的建立模型,也就是建立起相关关系,才能有效发掘大数据的价值。
谷歌一直走在大数据应用的前列,下面就举两个案例,来进行赏析:
第一个就是ReCAPTCHA案例,这个虽然是被谷歌收购的,但是,具有典型的谷歌思维。
为了解决垃圾邮件和网络机器人的问题,冯.安发明了验证码的解决方案。如果只限于此,也就没有特别可以称道的,但是他意识到每天有这么多人要浪费10秒钟的时间输入这堆恼人的字母,而随后大量的信息被随意地丢弃时,他开始寻找能使人的计算能力得到更有效利用的方法。
他想到了一个继任者,恰如其分地将其命名为ReCaptcha。和原有随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词其他用户也识别过,从而可以从该用户的输入中判断注册者是人;另一个单词则是有待辨识和解疑的新词。
为了保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确后才确定这个单词是对的。在这里,数据的主要用途是证明用户是人,但它也有第二个目的:破译数字化文本中不清楚的单词。ReCaptcha的作用得到了认可,2009年谷歌收购了冯·安的公司,并将这一技术用于图书扫描项目,再后来,谷歌街景也开始使用这项技术。
把验证码和OCR需求巧妙结合起来,这展示了思维的威力,实现了ReCaptcha技术提供者和使用者的双赢,技术提供者利用OCR识别获得了自己的受益,使用者不需要任何付费(互联网免费思维),也愿意使用,对于用户其实也没有影响,没有增加额外的工作。上研究生的时候,就研究OCR汉字识别问题,识别率始终是个问题,对于手写就更低了,要花费大量人力来解决,并且,人工识别工作是非常无聊,没有办法来保障质量。再想起12306的验证码,更令人无语了。我们浪费了多少资源?我们有多少资源可用充分来利用?
第二个是拼写检查纠错的案例。
我们都经常使用微软的Word,其中就有拼写检查纠错功能,微软实现这个功能,采用的是传统的软件思维,也就是利用规则和词库来解决,这个需要不断耗费人力进行规则和词库的升级,对于不同的语言,耗费更是巨大。
谷歌解决这个方法,用的相对巧妙,在搜索的时候,当你输入一个错误的词时,会给一个提示,要找的是不是建议的词,如果用户确认后,谷歌就进行记录处理,后面,再经过一些算法处理,经过大量的数据学习,各个拼写检查纠错就越来越好,并且,这个后续维护成本很低,效果越来越好。
其实,谷歌翻译也使用了类似的思路,虽然前期算法,包括大数据处理花费了比较多,后续,基本实现了自动化,系统会越来越强,维护升级成本很低,项目就变成可持续发展。
《大数据思维》中提到大数据三个重要思维:
全量(也就是海量数据),不需要精确(但是最好可以持续),要相关性。
从上面的案例,可以充分得到体现,首先大量数据,无论是验证码,还是拼写检查的需求,都是一个大的应用场景,可以产生大量数据;最重要的是,如何找到相关物(如OCR识别),或者利用已有资源设计出相关物(要找的是不是建议),是关键;最后,数据都是源源不断,不需要100%的精确性,系统可以通过算法进行不断迭代优化。
我们还看到的是,如何利用众包也好,资源互换也好,能够非常低成本的来解决需要耗费大量人力的事,也是系统成功的关键,共享经济具有巨大的威力,一定是未来,独占式的模式不能持久,必定是狭小垂直市场。
充分理解了上述案例,掌握了大数据思维,对于解决我们自身的大数据问题是非常有帮助的,这也是我们建立优秀的大数据应用的核心。
谷歌这么多聪明的人,为什么不能解决让全球的人随时随地访问的需求呢?如果这个解决了,我愿意来购买1000股谷歌股票作为支持。