大数据
大数据的大小在不同领域有不同的定义,一般认为TB及或者PB集就属于大数据,但是要是全国人体的健康指标可能几万条数据就够了。
开源分布式计算平台,核心组件包括HDFS,MapReduce等
CPU:强控制弱计算
GPU:强计算弱控制
Spark:内存型计算
Hadoop:稳定,将中间结果存在硬盘上
Mapreduce:谷歌提出的并行计算模型,当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们可以做进一步的处理以便得到结果。
流计算Storm:快速的批处理,Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、\数据不丢失**。提供简单容易理解的接口,便于开发。