发布时间:2018-07-24
分类:数据蒋堂
tag:e-r图,join,数据蒋堂,测试数据,蒋步星
在向用户推荐新的数据处理技术,特别是涉及性能优化的场景时,经常会碰到生成测试数据的需求。毕竟,新方案要经过验证才能提交,而优化过程也不是一次就做完的,需要多次不断的迭代改进,这就需要有一套好的测试数据…
发布时间:2018-07-17
分类:数据蒋堂
tag:遍历
减少外存(硬盘)访问量一直是提高大数据计算性能的永恒话题,我们也讨论过列存、压缩等直接减少访问量甚至存储量的手段。除了这些存储层面的方法外,在算法和计算实现环节,也可以想办法减少外存的访问量。 遍历是…
发布时间:2018-07-10
分类:数据蒋堂
tag:cpu计算,数据压缩,数据蒋堂
我们知道,外存(硬盘)的性能远远低于内存,即使是同样复杂度的运算(cpu计算量相同),如果能减少外存的访问量,也会大大提高整体性能。甚至有时我们需要用cpu换硬盘,即宁可多消耗些cpu时也要减少硬盘访…
发布时间:2018-07-03
分类:数据蒋堂
tag:hbase,数据蒋堂
最近碰到几家用户在使用hbase或者试图使用hbase来做高性能查询,场景也比较类似,就是从几十亿甚至上百亿记录中按键值找出相关记录来。按说,这种key-value式的数据库很适合用键值查询,hbas…
发布时间:2018-06-19
分类:数据蒋堂
tag:bi系统,大清单报表,存储过程,数据蒋堂,更换数据库,蒋步星
用户在选购bi九游会登陆的解决方案的时候,常常会更关注界面环节的功能指标,比如美观性、操作的流畅性、移动端支持等等。毕竟,bi是要给业务人员使用的,这些看得见的内容一般不容易被遗漏。 然而,有些与数据源有关的后台…
发布时间:2018-06-05
分类:数据蒋堂
tag:数据蒋堂,数据量,蒋步星,集群规模
经常有用户会问这个问题,你家的产品能处理多大数据量?似乎是这个值越大产品就越牛。 这个问题,其实没多大意义。 能处理多大的数据量,还有个很关键的因素是期望的响应时间,在脱离这个因素单纯谈大数据产品的数…
发布时间:2018-06-05
分类:数据蒋堂
tag:大数据性能,性能估算,数据蒋堂,蒋步星
大数据的性能是个永恒的话题。不过,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被大数据厂商忽悠:)。 这个办法我在以往的文章中也提到过,不过没有以这个题目明确地点出来。 其实…
发布时间:2018-05-29
分类:数据蒋堂
tag:大清单报表,报表打印,数据蒋堂,蒋步星
我们谈了大清单报表的呈现方法,其实有时候这些报表还需要打印,比如银行打印流水对账单。 那么,打印是不是也要像呈现那样做一个缓存机制呢? 没有这个必要。打印和浏览不同,一般是从头到尾过一遍就行了,过程中…
发布时间:2018-05-29
分类:数据蒋堂
tag:大清单报表,数据蒋堂,蒋步星
在数据查询时,有时会碰到数据量很大的清单报表。用户输入的查询条件很宽泛,可能会从数据库中查出几百上千万行甚至过亿的记录。如果等着把这些记录全部检索出来再生成报表呈现,那需要很长时间,用户体验恶劣;而且…
发布时间:2018-05-15
分类:数据蒋堂
tag:大数据技术
大数据的4个v说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似4个v,我们把这些特性总结成4个e,用户在选择大数据技术九游会登陆的解决方案时…