发布时间:2018-03-13
分类:数据蒋堂
tag:大数据平台,大数据计算,大数据集群,数据蒋堂,蒋步星,透明化
这好像是个多余的问题,大部分大数据平台都把集群透明化作为一个基本目标在努力实现。 所谓集群透明化,是指把一个多台机器的集群模拟得像一个巨大的单机,只是系统管理层面知道体系是由很多单机集群而成,应用程序…
发布时间:2018-03-06
分类:数据蒋堂
tag:sql,大数据,数据蒋堂,计算语法
回归sql是当前大数据计算语法的一个发展倾向。在hadoop体系中,现在已经很少有人会自己从头来写mapreduce代码了,pig latin也处于被淘汰的边缘,而hive却始终坚挺;即使是spark…
发布时间:2018-02-27
分类:数据蒋堂
tag:java,python,sql,临时性计算,数据蒋堂,蒋步星
临时性计算,顾名思义,是指临时发生的一些计算需求。这种计算在日常数据处理中很常见,我们举一些例子: 应对业务部门的取数需求:比如销售部门想获得进行了某项促销活动前后的销售情况变化信息; 数据挖掘算法前…
发布时间:2018-02-22
分类:数据蒋堂
tag:制作报表,报表工具,报表开发,数据蒋堂,蒋步星
报表开发,看起来只是数据呈现环节的事务,并不起眼,但仔细想想,它涉及的工作范围却非常广。如果把查询和交互分析也认为是报表事务的话(呈现形式本来也是报表),那么可以说,绝大多数etl都是在为报表准备数据…
发布时间:2018-02-12
分类:数据蒋堂
tag:nosql,rdb,数据蒋堂,蒋步星,访问性能
我们继续从软件角度上看外存数据源的性能,来考察数据库的性能特点,在这篇文章中,我们只关心数据的访问性能,而不涉及计算性能。 关系数据库 关系数据库也是很常见的数据存储方式。本质上讲,数据库其实也是一种…
发布时间:2018-02-06
分类:数据蒋堂
tag:二进制文件,性能分析,数据蒋堂,文本文件,蒋步星
我们以前讲过硬盘的性能特征,主要是针对硬件层面进行分析的,现在我们来考虑软件层面的差异。 理论上讲,软件可以穿过操作系统直接进行磁盘扇区的访问,但实在太过于麻烦而几乎不会实践机会,这里就不考虑了,我们…
发布时间:2018-01-23
分类:数据蒋堂
tag:数据蒋堂,蒋步星
区块分段方案能够满足我们设定的4个目标。不过,除了处理区块标记的麻烦外,这个办法对于列存也不是非常适合。 数据按列分别存储后,分段时必须保证各列同步,即各列的分段点对应的是同一条记录的列,否则就会出错…
发布时间:2018-01-16
分类:数据蒋堂
tag:数据分段,数据蒋堂,蒋步星
现代计算机一般都有多cpu核,而日益广泛应用的固态硬盘也有较强的并发能力,这些硬件资源都为并行计算提供了有力的保证。不过,要实现并行计算还需要有较好的数据分段技术,也就是能方便地把待计算的数据拆分成若…
发布时间:2018-01-09
分类:数据蒋堂
tag:join,数据蒋堂,维度,蒋步星
明确维度定义后,还可以换一种更清晰的方式来审视数据库的结构。 这是我们常见的e-r图: e-r图是个网状结构,实体(表)之间的外键关系直接画在图上,当实体较多时这个图就会显得非常零乱,关联线很随意,任…
发布时间:2018-01-03
分类:数据蒋堂
tag:join,数据蒋堂,蒋步星
有了维度定义后,我们就可以来梳理前面讲过的简化join语法了。 先定义字段维度: 维度字段的维度为其本身; 外键字段的维度为相应外键表中关联字段的维度; 测度字段没有维度; 这是个递归定义。 &nbs…