专注数据的知识平台
友乾营是专注数据技术的知识分享平台,这里,会不定期地发布独家技术专题视频、文档,便于独立思考学习;这里,鼓励对技术问题畅所欲言,在思维碰撞中相互学习、进行优势互补;另外,还会组织系列技术活动为技术人员创造更多的深层交流机会。
【乾包转发海报获奖励】
新人访问友乾营页面并加入【友乾营大本营】,转发者获50个乾币
获取海报:登陆好多乾(润乾公众号右下角)-活动推广,长按保存图片,转发即可
大表自己关联自己的情况是比较常见的需求,关系数据库实现起来性能不尽如人意。有没有更好的计算方法,可以快速计算大数据量明细表的自关联性能问题?
报表工具早期基本都是基于关系型数据库作为数据来源,但现在文件类、newsql、nosql,服务类来源应用越来越广泛。
报表工具也应与时俱进!目前都搞不搞的定?靠api还是有更好的方式?
本期将介绍报表工具支持的那些数据源,怎么连,有啥更好的方案解决取数及数据处理问题。
为了达到秒级响应,指标系统一般采用预计算方式。随着指标维度、标签的不断增加,组合出来的各种指标数量增长的非常快,出现了指标泛滥的问题。
海量的指标全部预先算好并存储下来已经越来越不现实,但是实时计算又无法达到秒级响应的速度。
如何破解指标实时计算的难题?
数据挖掘基础让您了解了一些基本概念和挖掘过程,那么拿到数据怎么实践呢?
本次友乾营将以数据挖掘经典的titanic幸存者数据作为案例,和您一起边探索边预处理,找到数据之间的奇妙联系,然后建立模型并进行评价,最后用一个不错的模型实现预测,看哪些乘客可以幸存,让我们一起在学习的同时体验数据挖掘的乐趣吧!
什么是填报表?填报表一般要用什么工具去做、又要具有什么样的功能?
不懂技术的业务人员是否也能定制填报表?通过本期介绍,将为您介绍如何选择合适的填报表工具,以及如何将填报嵌入到实际的业务流程中去。
海量用户会带来高并发有关联查询,例如:网上银行、手机银行、手机营业厅、手游网游等等。数据量巨大,还要关联机构表等维表,如何保证秒级的查询速度?包括hadoop在内的,以sql为基础的数据库索引机制存在问题,无法支撑大并发随机查询。搜索引擎速度快,但是又无法实现关联。
本次分享将以“大量客户查询活期明细”为例,从原理入手,讲述如何利用新的存储和计算方法解决这个问题。
人工智能、数据挖掘这些词目前炙手可热,但到底什么是数据挖掘、建模预测?却又不是每个人都能说得清楚了。
本期友乾营将用高中生能听得懂的语言来解释数据挖掘、用图表加文字形象说明数据挖掘的基本概念和进行过程,还将教会你如何评估模型的好坏以及如何实现预测应用。
让我们在趣味中开始数据挖掘的学习之路。
定期将大数据导出到历史库以减轻生产库的压力,再基于分库计算技术,不难实现高性能的t 0查询报表。但如何导出却是个问题。
冷导出相对容易,但导出过程中必须停止服务。若要保证提供不间断服务,就需要合理的热导出机制:如何保证导出过程中的正确查询,避免还没来得及追加的数据被漏查?
如果使用文件作为历史库,虽然可以提高查询性能,但由于缺乏事务一致性,历史数据导出时正在改写的文件还不可用,又如何确保多并发下不间断地提供正常的查询服务?
且请听我娓娓道来。
要基于excel、json、web、nosql、hadoop、redis、实时数据库...做报表怎么办?涉及混合数据源怎么办?
把数据入到rdb?或者在应用端硬编码?no no no,这些方法太低效了...
这期将介绍一种直接使用多样性数据源的新方法,记住:是直接用哦,所谓:
报表做不完,主要数据源,多样能搞定,效率飞上天
报表不仅可以在pc端、大屏中显示,也可在移动端中显示。报表在移动端中都能实现哪些功能?怎样将pc显示的报表更好的在手机端显示?报表移动端显示是否能适应?报表如何能在手机app或微信中显示呢?
本次分享将针对以上问题逐一介绍。助您在方寸之间,让数据自有天地!
有类常见的资产负债表,每个单元格都是独立计算的指标,指标之间没有关联计算关系,报表也就是各个指标的汇总清单,往往会有上百个之多。
指标计算规则类似,都是按科目汇总后的金额,但会涉及不同层次的多个科目并可随意组合。这种报表本身用报表工具实现并不困难,但数据量较大时,如果用报表工具的办法简单地把科目组合当作过滤条件去计算,则性能将非常差。
本次分享将针对此类报表介绍数据准备阶段的预处理手段和查询技巧,进行多轮优化后,即能有效解决此类大数据集报表运算慢的难题!
报表经常会有多个数据来源,在报表中以多个数据集的形式存在,多个数据集的关联运算通过报表单元格表达式完成。这种方式在数据量稍大或数据集较多时性能很低,影响报表使用。
一个解决方法是将多个数据集在sql里关联好再给报表使用,但由于可能涉及多库、sql复杂、存储过程、文件数据等情况时,又无法用sql实现。
有没有一种通用方法从根本上解决这个问题,而且还能保证开发简单、运行高效呢?
这一期友乾营听我慢慢道来~~
用户画像应用中,需要给不同的用户划分不同的客群或者标签。用户客群(标签)多的可以达到几千个,每个客群可能包括几十万甚至上千万的用户。
客群统计是指统计几个客群共同用户的情况,同时还要考虑客户的维度属性条件,以sql为基础的数据库技术(包括hadoop)一直很难高速实现这个运算。
本次分享将针对此类运算,分析其特征,给出合理的存储结构和低复杂度算法,彻底解决客群交集统计的性能问题。
bi工具逐渐盛行的时代,自助报表可以搞定一切报表需求吗?
复杂报表和自助报表区别在哪里?
到底什么才是复杂报表?
复杂报表能有多复杂呢?
这期我们就来聊一聊复杂报表那些事,共同探讨下答案。
键值查询是很常见的查询场景,在数据表上建有索引后,即使表中数据记录数巨大(几亿甚至几十亿行),用键值查询出单条记录也会很快,因为建立索引后的复杂度只有 logn 次, 10 亿行数据也只要比较 30 次(10 亿约等于 2^30),在现代计算机上也只需要数十毫秒而已。
不过,如果需要查询的键值很多,比如多达几千甚至几万的时候,如果每次都独立查找,那读取和比较也会累积到几万甚至几十万次,时间延迟由此也会涨到几十分钟甚至小时级别,这时候简单地使用数据库索引对于用户体验必然是难以容忍的了。
这个问题不仅考验数据库软件本身,更在于程序员对数据的理解!如何在硬件资源有限的情况下将性能发挥到极致?这期我们来一起讨论批量查询。
数据库io效率低导致取数慢,通过并行取数可以提升取数效率,但java硬编码写并行程序太麻烦。如何简单、低成本实现并行取数?如何合理划分并行任务?多表取数又如何并行?
来来来,一起聊聊并行取数那些事~
随着数据量增大,数据库性能明显降低,这时会考虑分库方案(把原来一个库中的数据按一定规则分摊到多个库中)。从而分摊单库压力,来缓解当下的性能问题。可谓分库一时爽,一直分库一直爽。
但是当需要运算的内容来自这些分库时,又会带来新的难题:计算不能直接使用sql;异构库sql函数不尽相同;java硬编码实施难度大。想要整体上一劳永逸的解决分库后的查询统计,就不像分库时候这么爽了。
这期友乾营我们讨论如何高效便捷地解决分库后的查询统计问题。
开源软件!
开源报表工具!
开源报表怎么样?为什么选开源?
开源报表好不好用?够不够用?真的节省成本?
商业报表搞不起?
带着这些问题,让我们结合功能点,一起了解那些开源的报表工具!
你有没有对存储过程又爱又恨?
爱之爱:
能写sql,还能加逻辑控制,爽
分工明确,业务开发人员直接调用数据开发人员写好的存储过程,无需关心数据计算,爽
性能高效,库内计算加预编译获得高性能,爽
恨之恨:
难调试难维护,缺少有效调试机制,代码过长时可读性极差,难以维护,苦
难扩展难移植,分库就歇菜,无法水平扩展;换库难移植,苦
与业务耦合高,业务变化存储过程就要修改,太频繁,苦
数据库性能低,计算都压给数据库,影响数据库性能,苦
本期友乾营来聊聊存储过程的得与失,以及如何改善存储过程的缺点,欢迎一起探讨
我们到底是要做一个bi项目还是只是一个报表项目?在做产品选型时,经常会将报表和bi弄混淆,导致无法选择合适的产品。报表和bi到底有什么区别?是否有相关的联系?
这期友乾营我们就来聊一聊报表和bi的区别。
数据分库后只能做t 1或t n查询,业务难道不需要t 0查询吗?
基于历史库(dw)和业务库(db)怎么做到全量数据t 0实时查询?
出现异构库的情况怎么办?
如何保证业务数据同步(etl)到历史库时查询服务24小时不停机?
这期友乾营我们聊一聊数据分库后的全量数据实时查询问题!学会这些方法,你就搞定别人搞不定的事情了。
软件市场中报表工具比比皆是,作为一个数据处理展现组件,在与已有项目集成整合时是否有一种更好的通用集成方式?客户关心的单点登录、权限、前后端分离等问题是否有一个科学合理的九游会登陆的解决方案?
7月3日(周三)晚19:30,我们一起来聊一聊报表组件那些事
olap业务中经常为了获取查询便利,在数据库中建立中间(汇总)表,日积月累,数据库存在成千上万个中间表,并发症频现:
1、上万中间表管理混乱,搞不清都是干啥用的
2、占用过多存储空间,数据库扩容压力大
3、为中间表etl数据消耗过多资源,数据库性能低
如何让中间表不再影响数据库管理和性能?如何降低数据库扩容压力?我们将在友乾营探讨如何借助开放的计算能力有效利用中间表这一把双刃剑!
安全问题防不胜防,大到国防安全!
亦或吃个饭都可能是地沟油、打个疫苗都可能是白开水。
个人信息貌似没什么安全和隐私可言。
互联网时代带来了方便,但同时也带来了安全隐患,因此安全就显得更加重要!
报表作为信息载体的一份子,也可能有安全隐患,如sql植入。
那么,报表为啥有sql植入?报表工具提供什么方案可以避免sql植入?
6月5日(周三)晚19:30,我们一起探讨!
请停下你手中的工作思考5秒钟:你通过什么方式为报表准备数据?
有没有用中间(汇总)表?存储过程?java程序?
我猜,你可能都用到了...
这些方式将会带来了严重的报表应用耦合性问题:中间表和存储过程严重依赖数据库的能力,造成了报表与数据源的高耦合;java程序则需要和业务代码一起编译打包,造成了报表和业务系统的高耦合;强编码需要高级程序员完成,造成了报表与专业程序员的高耦合。
5月22日(周三)晚19:30,我们将从数据源耦合性、应用耦合性、人员耦合性三方面来探讨如何通过改善报表应用结构做到报表应用的彻底解耦!扒一扒“解耦”这个让无数人前赴后继的话题
echarts以其炫酷图表强势占据了报表应用数据展现的c位,其前端绘制的特性,在打印文件,导出结果的时候却不见踪影,echarts能否将酷炫进行到底,将美腻的图形导出、打印?
搬好小板凳,扛好洛阳铲,一起刨刨echarts导出打印的实现!
5月15日(周三)晚19:30 友乾营 不见不散
报表业务天生稳定性差,经常需要新增、修改,甚至删除!技术部门应对没完没了的报表需求真心疲惫不堪。
报表没完没了的情况能消除吗?
有什么好的方法应对没完没了的情况吗?
专业程序员能从这类工作中解脱出来吗?
5月8日(周三)晚19:30一起来探讨,通过“凌波五步”应对报表没完没了的难题!我在友乾营等你呦
领导又安排任务了,这次是政府项目,把最麻烦的一份任务给了我。
让做一份word报告,20多页,不光文字,还有图表
格式要求严格,缩进、边距、行距、20页一点都不能差
图表要求实时,数据来自数据库,指标多,计算难
每月交一次,数据变了,图表都会变
怎么做啊????发际线越挠越靠后了
4月24日(周三)友乾营第三期技术分享,我们来一起看看这些复杂的word报告式文档该怎么做
用word做?用报表设计器硬排版?用程序来处理?
让曾经被同样问题折磨的老程序员来给我们分享
报表用户无一例外地希望所有报表都能立等可取,但对于要展现几百万、甚至上千万数据的报表来说似乎并不容易。
通常我们会采用数据库分页方式,每次只取一页的内容进行呈现。但这种方式的翻页效率较低,还容易出现数据错误!--怎么办?
使用数据库分页只能做出清单报表,无法实现更复杂的分组报表(因为无法保证每次能取整组的数据)!--怎么办?
当数据源不是rdb时,这样的报表根本无法实现!--怎么办?
友乾营针对这些问题逐一探讨,并提出一种“异步双线程”解决思路,一个线程负责取数,另一个线程负责呈现,可以很好解决上述问题。掰开揉碎,讲给你听!
报表跑的慢业务抱怨!性能的锅总要自己背!想分析原因不知从何处入手!
来润乾-友乾营学习《如何分析报表性能问题》了解报表运行有几个阶段?每个阶段有哪些影响性能的常见问题?哪些问题可以通过报表工具解决?哪些问题是报表工具解决不了的?学会这些,关于报表性能从小白到精通,不再做背锅侠!