嗨滁网社区_滁州论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 682|回复: 0
收起左侧

[原创] 国产开源数据仓库的崛起

[复制链接]

参加活动:0

组织活动:0

该用户从未签到

发表于 2022-12-19 19:55 | 显示全部楼层 |阅读模式 IP:河南
开源数据仓库早在十几年前就开始在企业中出现,其承诺相当诱人:将关键数据集中在一个易于查找的统一站点,让所有业务人员基于具体的事实分析做出决策,而不是在信息不足的情况下凭直觉做出决策。现在,数据仓库仍然是有实力的公司的奢侈品,他们有足够的资金、员工和耐心来购买、安装和维护数据仓库。
而开源这种破坏性的力量,完全颠覆了数据仓库和其他很多市场。交付的开源授权软件成本很低或根本没有成本,其性能甚至对最小的公司开放;而且代码和功能都是对网络社区开放的。只要社区能够保证解决方案实际上能够满足主要标准,解决方案在部署时就会变得更加直接、灵活,不再花哨。
数据仓库的开源方案
现在,开源革命已经渗透到数据仓库领域。实现数据仓库不仅有构建模块的工具和技术,而且数据仓库本身也已经开源。下面是一个支持数据仓库的开源解决方案。
第一,数据库系统。当数据仓库成功部署后,开源构建块的数量大大增加,这表明采用开源数据仓库的时机已经成熟。例如,Gartner报告称,近年来,开源DBMS引擎有了显著增长。Gartner还发现,47%的受访公司已经采用开源数据仓库,19%的公司正在考虑在12个月内采用开源数据仓库。
在很多情况下,正在广泛采用开源数据仓库的市场是大型数据库供应商长期忽视的市场。但是,如果公司以活跃的商业数据库实现项目为主,开源数据仓库也会存在于公司内部。对独立Oracle用户组(IOUG)226名成员的研究表明,超过三分之一(35%)的网站也有开源数据库,如运行MySQL
第二,ETL工具。伴随着开源数据库,ETL和开源分析/商业智能工具出现,这些工具逐渐在企业中应用。Gartner估计,大约11%的受访公司正在使用开源ETL工具,16%的公司正在考虑在未来几个月内采用此类工具。开源ETL工具包括KETLTalendCloverPentahoETL和章鱼。
第三,商业智能。在商业智能和分析工具领域,Gartner指出,9%的受访公司采用了开源BI解决方案,18%的公司正在考虑在未来12个月内采用开源解决方案。目前市场上有很多开源的BI或分析程序,以PentahoJasperSoft为主要供应商。与此同时,Ventana Research500家公司的调查证实,BI受到了广泛的关注,并且这种趋势还在继续增长;21%对开源商业智能感兴趣的公司已经部署了开源程序。显然,仍然有许多公司声称他们未来没有这样的项目,因为他们不会考虑开源商业智能。
开源数据仓库应用如此广泛,客户如此满意,拥有开源数据库和开源分析工具,这并不奇怪。之前供应商根据开源数据库(MySQLPostgreSQLIngres)生产数据仓库的专有产品;现在,供应商开始推出全面的开源数据仓库解决方案及其配套社区。
论坛显示,社区用户的数量在增加,其中一些用户对数据库非常熟悉,但对数据仓库相对陌生。MySQL扩大了数据库市场,ICE等开源产品也是如此,因为数据量在快速增长,对分析的需求也在增加。
开源数据仓库的优势
开源数据仓库可以解决当前很多问题,占用空间少,管理资源少。将开源模型应用于数据仓库的优势在于:
第一,开源数据仓库前期花费较少,维护和支持费用也较少。目前市场上的开源软件产品通常比相应的授权产品便宜。此外,开发人员和IT管理人员可以下载开源产品的源代码,定制或修改产品,从而进一步简化操作。
其次,开源数据仓库采用的技术在市场上很容易买到。因此,如果公司拥有现有数据库或数据仓库的专业知识,则在实施新的开源数据库项目时不需要进一步研究。
第三,开源数据仓库极大的促进了标准化。开源代码是透明的,并且支持社区。因此,一些重要的标准可以得到各种版本和实现的一致支持。在这些设置中,不能也不会支持专有表单。
第四,开源数据仓库相当灵活。与按用户或处理器收费的专有软件包不同,开源许可使企业能够将其解决方案扩展到无数用户。公司可以增加用户或扩大项目,只需要很少的成本或不需要成本。此外,最终用户公司不必担心被供应商的强制升级路径锁定,而是可以选择新版本的系统。
第五,开源数据仓库可以受益于网络社区效应。开源解决方案利用开发者和创新者社区来促进开发。向社区贡献新代码和新特性,并不断为最终用户提供各种可用的新解决方案。社区的方法也可以应用到数据仓库中——开辟一个新的领域,它将能够很好地适应环境,因为有许多系统和数据类型需要集成到数据仓库中。单一供应商提供的解决方案很难解决所有集成问题。此外,公司可以依靠社区快速修复bug或安全缺陷,这通常只需要几天时间,而不是等待几周甚至几个月,直到供应商再次提供安全补丁或服务补丁。
第六,开源数据仓库可以分步实现。对于一个大型项目,不要大喜过望。即使数据经理需要实现新的功能,他们也不必向预算委员会要求资金来支付公司昨天要求的性能。项目可以从小规模起步,在成功实施的基础上逐步完成。这也可以缓解“过度承诺”的问题,这是为数据仓库项目确定最佳资金时的最后一招。开源数据仓库不需要启动大量资本,而是先瞄准最紧迫的商业问题,随着成果的增长加大出资人的投入。
实现开源数据仓库的提议
如果中小企业需要管理和观察大数据量,但缺乏实现和支持大型专有数据库所需的资金或资源,那么开源数据仓库非常合适。另外,开源数据仓库专门针对大型企业的一些部门或业务部门提供解决方案。一旦出现业务问题,可部署的解决方案可以很快得到解决。以下建议可以最大程度的帮助你实现开源数据仓库。
首先,开源和专有数据仓库需要共存。开源数据仓库会增加,但不会取代专有数据仓库。如前所述,在调查中,超过三分之一的Oracle公司采用MySQL等开源数据库。通常,这些数据仓库可以很好地满足战略需求,并补充了许多专有数据库无法快速或有效满足的新需求。
第二,找到产品背后的大型活跃社区。无论是开源数据仓库还是专有数据仓库,都是一个非常复杂的项目,因为涉及到企业内的所有数据。一个完全互动的社区是信息的重要来源。
第三,最终用户应该看不到开源数据仓库。运营数据仓库的数据与生产数据密切相关,是市场上增长最快的数据仓库。数据仓库的数据需要与前端用户实时协作,但几乎不需要终端用户的输入。很多时候这些“万能BI”用户没有技术背景,操作要尽量简单。相比之下,数据仓库的主要用户——分析师或“超级用户”——过去擅长构建大量的查询方法。开源数据仓库 It应该只需要少量调整就可以支持一般的BI用户。
第四,开源数据仓库应该一如既往的支持开源标准。之前市场上的“开源”数据仓库都是基于开源数据库开发专有接口,与开源的初衷背道而驰。开源数据仓库应该与相关开源环境兼容。
第五,找到快速的部署方法和简单的使用方法。寻找这样的开源数据仓库工具和平台:具有数据压缩功能,软硬件占用空间少,可以用较少的服务器和存储空间支持TB级数据。否则,维护成本可能会上升到专有数据仓库的水平。
第六,权衡转型成本。如果逐项比较,开源数据仓库可能比专有数据仓库便宜很多,但是过渡成本和培训成本还是需要衡量的,因为开源数据库是第一供应。
随着开放源代码的兴起,数据仓库解决方案可以应用于从未享受过其便利的绿色环境。

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|小黑屋|手机版|Archiver|嗨滁网 ( 皖B2-20180001 )

GMT+8, 2024-11-21 19:49 , Processed in 0.037565 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表