大数据时代——读书笔记
一、引论
1. 大数据时代的三个转变:
1. 可以分析更多的数据,处理和某个现象相关的所有数据,而不是随机采样
2. 不热衷于精确度
3. 不热衷与寻找因果关系
2. 习惯:用来决策的信息必须是少量而精确的。实际:数据量变大,数据处理速度变快,
数据不在精确
3. 危险:不是隐私的泄露而是未来行动的预判
二、大数据时代的思维变革
1. 原因:没有意识到处理大规模数据的能力,假设信息匮乏,发展一些使用少量信息的技
术(随机采样)
1. 1086年 末日审判书 英国对人的记载
2. 约翰·格朗特:统计学,采样分析精确性随着采样随机性上升而大幅上升,与样本数
量关系不大
3. 1890年,穿孔卡片制表机,人口普查
4. 随机采样有固有的缺陷
1. 采样过程中存在偏差
2. 采样不适合考察子类别
3. 只能得出实现设计好的问题的结果
4. 忽视了细节考察
2. 全数据模式:样本=总体
1. 通过异常量判断信用卡诈骗
2. 大数据分析:不用随机抽样,而是采用所有数据。不是绝对意义而是相对意义。
(Xroom信用卡诈骗,日本相扑比赛)
3. 多样性的价值(社区外联系很多》社区内联系很多)
3. 混杂性而非精确性
1. 葡萄树温度测量:数据变多,虽然可能有错误数据,但总体而言会更加精确。
2. 包容错误有更大好处
3. word语法检查:语料库》算法发展
4. google翻译:让计算机自己估算对应关系,寻找成千上万对译
结论:大数据的简单算法好过小数据的复杂算法
5. 大数据让我们不执著于也无法执着于精确
6. MIT的通货紧缩软件:即时的大数据
7. 标签:不精确
8. 想要获得大规模数据的好处,混乱是一种标准途经
9. 新的数据库:大部分数据是非结构化的,无法被利用
10. Hadoop:与mapreduce系统相对的开源式分布系统,输出结果不精确,但是非常快 结论:相比于依赖小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事情的真相。“部分”和”确切“的吸引力是可以理解的。但是当我们的视野局限在我们可以分析和确定的数据上时,我们对世界的整体影响就会产生偏差和错误。不仅失去了尽力收集一切数据和活力,也失去了从不同角度观察时间的权利。
…… …… 余下全文