说明:本文主要是为各位想要了解“大数据”的朋友推荐参考书目(及部分下载),希望对大家有帮助。笔者也仅仅是刚开始了解大数据领域,菜得很,所以如果有阐述不对的地方也请各位专家指正。另外,推荐方向主要针对“大数据”的思维方向和方式,如有想了解大数据分析软件、算法和方案的朋友可能要失望了。推荐顺序和内容只是参考网络资源和笔者自身感受,一家之言而已,并非一定如此,诸位朋友可以自己安排,呵呵。
自去年开始,国内对“大数据”的兴趣呈现爆发的趋势。事实上对相关问题的研究比较核心的成果还是在国外,其范围也不仅仅局限于对数据的工具性或功能性运用分析,涉及包括数学、哲学、逻辑学等等一系列的内容。不夸张的说,学习大数据的过程在一定程度上是在“重塑三观”(对笔者这种原来研究经济模型的尤甚)。
以下选取几本知名的或不知名的,由外国大师写得关于“大数据”的研究结果,供大家参考。(原书单来源于“Lay.Terry”的推荐,在此基础上进行了添加)
1、第一步:
毫无疑问的《大数据时代》(Big Data A Revolution),作者[英]维克托·迈尔-舍恩伯格,[英]肯尼思·库克耶
读这本书的目的在于形成“大数据”的初级概念。并不是说“多”而“大”,大数据的理念是“全”(即:没有了多和少的区分)。传统方式追求的是以“适量而精准”的数据探求“因果性”,而“大数据”的理念是接受“全部数据”而关注“相关性”。
另外:实际上中文译文的效果其实不是最好,真有心的朋友可以去看看原版。
这个阶段的基本选读数目包括《Uncharted: Big Data as a Lens on Human Culture》,这个就比较倾向于实际应用了,另外还有《爆发:大数据时代预见未来的新思维》 ,可以和《大数据时代》配合着看。
2、第二步 《失控》,作者凯文·凯利(KEVIN KELLY)
传说中微信老总张小龙说的能读完(甚至还不是“读懂”)这本书的可以直接去他公司上班的“神作”,书成于20年前,却是公认的“史上唯一一本历经20年越来越好卖的书”,原因就是人们发现20年前书中说的事,这些年来正在一件件地被实现,人们都在奇怪,KK他是怎么知道的。目前是对大数据最具有指导意义的资料之一,其重要性可见一斑。
读这本书开始初探大数据与统计学之间的关系,原谅笔者无法详细介绍,因为笔者也还没读完(这本书比砖头薄不了多少,想到中学的参考书没有)还记得前文说的“因果性”和“相关性”么?这里就开始体现了。简单比较的话,原来我接住篮球是通过“f=ma”的公式,一层层推导计算,确定篮球在哪个时间处于以什么速度和方向处于什么位置,从而确定我该以怎么样的姿势接住篮球。现在么,“我”“接住”“篮球”,over,管他怎么做到的。
同阶段参考书目包括《复杂性,一种哲学概况》、《量子物理史话》、《哥德尔、艾舍尔、巴赫》、《删除:大数据取舍之道》(这是维克托的又一大作)。
第一本看起来是纯粹的哲学讨论,和大数据有关么?直接引用一段话给各位看看“不再试图根据事物如何必须按照理论的一般原理发展去解决问题,而是根据事物如何在通常的情况下按照我们能够确定的最好情况去解决问题。与其寻求抽象必然性的一般原理,不如以某种经验主义的精神,在经验——带有它的全部特征偶然性和潜在不完备性——中寻求指引。” 如同书名一样,这本书研究的是”复杂性“。用书中的话说,就是“可以考虑它们的关系,再考虑这些关系中的关系,如此下去”。另外这本书笔者没有找到电子版,更悲哀的是,正版也只在很少的图书馆有收藏,笔者也是从网上买的影印版,如果哪位朋友有电子版,希望能分享给我,先谢过。 《删除:大数据取舍之道》讲的是对于“全”的引申,即取舍。
曹天元先生的《量子物理史话》,可能是笔者整个书单中(在中国)名声最大的一本(也确实名副其实),笔者就不再多做赘述了。
最后《哥德尔、艾舍尔、巴赫》,这本比《失控》还要厚。享誉英语世界的科普巨著,对逻辑学、可计算理论、人工智能等都有重要阐述,为后续学习提供基础,推荐各位看看。
3、第三步 《统计自然语言处理基础》。前面做了这么多准备,估计各位都等急了。这本书是正式把我们带入实现“大数据”的钥匙,但也仅仅是钥匙而已。笔者推荐这本书是因为统计语言在数据处理和人工智能方面,都是类似于“英语”一样的“通用语”,所以说,这本书是大家跨入“大数据”领域的“启蒙教材”。