开源搜索引擎国产化替代势在必行
科技自立自强是时代发展的迫切需要和必然选择。二十大报告强调,“集聚力量进行原创性引领科技攻关,坚决打赢关键核心技术攻坚战”。从中兴等一系列高新技企业被制裁,到今年俄乌冲突发生后,多家科技公司宣布暂停在俄罗斯的所有业务,包括芯片、软件、云服务等断供事件,都在警示我们要摆脱被科技制裁风险的唯一出路就是要自主研发,实现真正的自主可控。
1、开源协议变更带来商业风险
Elasticsearch是一款开源搜索引擎,凭借着先发优势和早期的积累,被用于多种检索类业务场景,并占据了一定的市场。2021年初, Elastic公司决定将这款开源软件的 Apache License 2.0 变更为双授权许可,即Server Side Public License (SSPL) 和 Elastic License。其核心条款是“如果将程序的功能或修改后的版本作为服务提供给第三方,那么必须免费公开提供服务源代码”。这意味着不法分子可以获得其源代码并研究其漏洞,给企业用户带来巨大的安全风险。
2、开源软件存在“被制裁”风险
Apache 软件基金会和GitHub官网都有公开说明,产品和技术受到美国的出口法律和法规限制。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受制裁的国家使用原本对公众免费开放的代码。受美国出口管制的俄罗斯在近期俄乌事件中将这方面风险彻底暴露。
3、安全工具出口和漏洞分享禁令政策陆续出台
2021年美国商务部和安全局发布最新控制措施,禁止美国公司向中国和俄罗斯等“有问题”的国家出口和转售网络安全产品。
今年6月份,美国商务部和安全局又发布了一项针对网络安全领域的出口管制规定,未经审批禁止向中国分享安全漏洞。简单的说,就是美国实体与中国政府相关的组织和个人合作时,如果发现潜在安全漏洞和信息,不能直接公布,要先经过美国商务部审核。这意味着如果继续使用国外软件,那安全问题将掌握在别人手里。
Elasticsearch数据泄露事件频发,安全能力不足
1、Elasticsearch数据泄露事件频发
在过去几年内,Elasticsearch 数据泄露事件频发,甚至一个月被曝6次数据泄露。
去年,受美国出口管制的巴林,暴露的Elasticsearch集群中近200万条信息被泄露,包含有关人员的敏感信息。
而作为美国出口管制重点对象的俄罗斯,近几年发生多起Elasticsearch数据泄露事件。
* 2019年,2000万条个人信息和税务记录在网上曝光,任何拥有网络浏览器的人都可以访问;
* 2021年底,Elasticsearch服务器再次发生数据泄露,超过8.7亿条记录或147GB个人信息数据在网上曝光;
* 2022年6月,俄罗斯金融领域也发生了一起骇人的数据泄露事件,130GB的数据集包含俄罗斯人的付款,发票和其他财务敏感信息,甚至包括政府方面的日志数据;
在国内,今年某漫画阅读平台也遭遇数据泄露,黑客从不安全的Elasticsearch数据库中窃取了2300万用户帐户敏感信息。
此外,根据Group-IB报告显示,2021年网络上暴露的 Elasticsearch 实例超过10万个,约占2021年暴露数据库总数的30%。
2、数据保护能力不足
Elasticsearch 开源版本是不具备数据保护功能的,看似免费,但不安全。用户必须付费获得Gold+许可才能获得相关的安全保护功能,且不同的安全功能对应不同的收费标准。
3、数据有丢失风险
为了满足数据入库性能要求,Elasticsearch在数据层采用了简单的主从最终一致性模型。当主副本出现故障时,从副本和主副本不能保证数据的强一致性,从副本的数据有可能不是最新的。以此为基础恢复数据,很有可能导致部分数据丢失。
星环科技自主研发的国产搜索引擎Transwarp Scope
Transwarp Scope是星环科技自主研发的企业级分布式搜索引擎,提供PB级海量数据的交互式多维检索分析服务,支持百万级高并发和毫秒级低延时检索业务,覆盖模糊匹配,精确查询,多维检索等各类检索类场景,满足数据检索多样化需求。
* 海量日志存储与检索 Scope在数据存储做了多层优化,轻松满足海量检索数据的存储,支持大规模数据的入库,而且架构稳定,数据提供一致性和多副本容灾。此外,底层的搜索模块通过分区,索引排序等各类优化手段,满足大体量数据的快速精确检索,实现毫秒级检索和读写互不影响,非常适合电信、安全、能源等领域的检索需求。
* 一站式检索平台Scope支持结构化/半结构化/非结构化小对象数据的分级存储与毫秒级检索响应,提供完备的分区优化机制和高并发检索能力。一站化服务使得业务无需通过不同数据库产品的组合来实现复杂检索场景,一套产品满足多类需求。高并发非结构化数据灵活检索等业务均可通过Scope满足。
1、国产自研搜索引擎,自主可控
Transwarp Scope通过了工信部源代码扫描测试,并于2019年上榜由信息技术应用创新工作委员会编制的国产软硬件技术图谱。
2、国产软硬件适配
Scope已完成与主流信创生态厂商的适配互认工作,支持适配长城飞腾、华为泰山、龙芯等服务器架构,同时满足麒麟,UOS等操作系统,满足信创要求和国产化替换需求。
3、兼容Elasticsearch接口,多生态兼容,实现低成本平滑迁移
Transwarp Scope兼容常用Elasticsearch的接口,可实现Elasticsearch业务的平滑迁移。星环科技提供多种数据迁移方案,用户可根据实际情况灵活选择。经过大量项目的实践和经验,星环科技建立了成熟标准的Elasticsearch平滑迁移方法论,通过调研评估、方案测试和上线保障“三步”策略,全程保障数据与业务的平滑迁移。
除了兼容以上Elasticsearch接口,Scope还兼容PostgreSQL协议以及Spark等大数据产品的接入。同时,Scope还提供完备的SQL语法支持,满足传统数据库迁移到Scope的需求,通过星环科技SQL编译器QUARK实现大数据基础平台TDH内部的完整数据流转方案。
ROI、扩展性、稳定性、安全性、数据读写/恢复/一致性等全面超越开源搜索引擎
1、硬件和运维成本
Elasticsearch单节点支持的数据量最多到20TB左右,在项目实践中客户通常在每台服务器上部署多个Elasticsearch实例,而如此多的实例将会带来不稳定问题,触发节点失联,运维成本高。反之,如果每台服务器配置较少容量的磁盘,那么用户将付出非常高的硬件成本。而当节点数超过100时,同样会有稳定性问题。
这两类方案,运维成本和硬件成本变成了鱼和熊掌不可兼得,让用户陷入两难的境地。
星环科技Transwarp Scope对内存进行创新优化,提高单集群单节点容量上限,单实例可突破至百TB的数据存储,是Elasticsearch的5倍以上,大大降低用户硬件成本。
在提高单实例存储容量,降低集群规模的同时,Scope通过多进程架构,充分利用集群cpu/内存资源,读写压力分流,满足更高的并发需求,提高集群稳定性的同时降低运维成本。
2、集群扩展性
Elasticsearch在集群扩展上存在瓶颈,其采用的P2P架构和排队模型处理一些状态同步和元数据改变等操作时,效率比较低。在项目实践中,当节点(或实例)规模超过100个时,会遇到稳定性问题,特别是多种任务并发的情景下,集群压力大,容易触发节点接连失联的问题。
星环科技Transwarp Scope采用多进程架构,充分利用集群cpu/内存资源,读写压力分流,满足更高的并发需求以及提升稳定性,单集群在200以上节点规模下稳定运行,同时保障性能无衰减。
3、全方位数据安全保障
Transwarp Scope内置配套的安全授权、用户权限控制等相关安全功能,可以有效保障系统数据和访问上的安全。
在用户权限认证上,基于SASL提供plain与gssapi两种认证方式,对应传统的用户名密码认证方式和基于Kerberos的登录验证方式。其中kerberos可依赖于TDH平台的安全服务Guardian,同时提供用户组概念,便于通过平台实现统一管理与操作。
在数据权限上,基于角色的访问控制(RBAC) 机制,使用户能够通过将权限分配给角色并将角色分配给用户或组来授权用户,支持Index level Security &Database level Security。
在数据加密上,Scope支持基于SSL/TLS两类协议进行数据加密,确保数据传输过程的安全。
4、数据读写性能
Elasticsearch在数据读写性能方面存在不足,如压缩率不足,数据膨胀率高,读写策略优化不足等都大大降低了数据读写的效率。数据读写性能受限,直接影响查询操作的并发度和数据入仓的效率。
星环科技Transwarp Scope对读写线程资源的管理更严格、更精细,使读写性能更优,数据批量写入速度相对Elasticsearch提升40%,读写分离的特性大幅提升查询的稳定性。
5、数据恢复性能
Elasticsearch缺乏“增量数据”的概念,当单点发生故障进行数据恢复时,采用全量数据拷贝方式恢复数据,工作量大,往往需要小时级的时间才能恢复服务,严重影响服务的正常进行。星环科技Transwarp Scope具有很强的容灾和数据恢复能力。Scope基于Raft协议保证数据的一致性,同时提供多副本支持,重启恢复时间在TB级数据量下控制在分钟级,不到Elasticsearch的1/10,大幅降低了服务不可用时间。
此外,Scope支持跨数据中心的多活部署,使得重要业务在多数据中心交互和流转,还支持主备集群的实时数据同步,满足主备集群的failover和switchover。
6、数据一致性
Elasticsearch主本和副本之间同步采用P2P架构和排队模型实现主从最终一致性。当主副本出现故障时,从副本和主副本不能保证数据的强一致性,很有可能导致部分数据丢失。
Transwarp Scope基于自主研发的分布式数据库管理系统TDDMS,采用shared-nothing架构,通过多副本机制实现数据服务高可用,使用raft协议保证副本之间的数据一致性,保障数据不丢失。此外,TDDMS支持弹性扩缩容、自动故障恢复、权限控制、多租户与冷热数据分层存储等功能。
7、售后服务
Elasticsearch是开源产品,用户需自己探索和解决问题,无法获取有效的服务保障。用户需要购买企业版才能获得相应的服务,且在国内没有原厂技术研发人员,很难保障SLA。Transwarp Scope的产品提供方星环科技是国内厂商,具有非常强大的研发、技术支持与服务能力,提供强大的原厂服务保障能力,保障用户售后无忧。
星环科技Transwarp Scope助力某政府单位平滑替换Elasticsearch
1、客户挑战
某政府单位原先使用开源Elasticsearch,随着内部系统数据量的高速增长,总数据量超几十PB,单张表达百亿条级别,在不断扩容下节点数达Elasticsearch上限,稳定性经常出现问题,同时当集群出现问题时,Elasticsearch重启需要小时级别,集群恢复速度慢。在性能问题方面,读写资源无法隔离,拖累查询性能,系统设计为读写两套集群。
2、解决方案
基于星环科技大数据基础平台TDH构建大规模数据综合搜索平台,Slipstream做实时数据引擎,清洗分析并入库到Hyperbase与Scope的综合搜索库中,提供基于几十PB数据量的快速查询和搜索能力,集群规模达200个节点。
3、项目成果
融合人、地、物、事、组织与视频/图片等因素,通过星环TDH构建一站式搜索平台,实现了PB级数据统一存储、检索满足海量数据毫秒级响应,高并发、快速统计、字段精确与模糊查询等复杂组合场景,指定条件查询1s内返回并支持上千并发,并通过单节点存储容量比开源高5倍的优势,降低了客户硬件投资成本。