![](https://s5-media.51cto.com/ost/pc/static/noavatar.gif)
替代ELK:ClickHouse+Kafka+FlieBeat才是最绝的
大家好,我是不才陈某~
saas 服务未来会面临数据安全、合规等问题。公司的业务需要沉淀一套私有化部署能力,帮助业务提升行业竞争力。
为了完善平台系统能力、我们需要沉淀一套数据体系帮助运营分析活动效果、提升运营能力。
然而在实际的开发过程中,如果直接部署一套大数据体系,对于使用者来说将是一笔比较大的服务器开销。为此我们选用折中方案完善数据分析能力。
Elasticsearch vs ClickHouse
ClickHouse 是一款高性能列式分布式数据库管理系统,我们对 ClickHouse 进行了测试,发现有下列优势:
ClickHouse 写入吞吐量大
单服务器日志写入量在 50MB 到 200MB/s,每秒写入超过 60w 记录数,是 ES 的 5 倍以上。
在 ES 中比较常见的写 Rejected 导致数据丢失、写入延迟等问题,在 ClickHouse 中不容易发生。
查询速度快
官方宣称数据在 pagecache 中,单服务器查询速率大约在 2-30GB/s;没在 pagecache 的情况下,查询速度取决于磁盘的读取速率和数据的压缩率。经测试 ClickHouse 的查询速度比 ES 快 5-30 倍以上。
ClickHouse 比 ES 服务器成本更低
一方面 ClickHouse 的数据压缩比比 ES 高,相同数据占用的磁盘空间只有 ES 的 1/3 到 1/30,节省了磁盘空间的同时,也能有效的减少磁盘 IO,这也是ClickHouse查询效率更高的原因之一。
另一方面 ClickHouse 比 ES 占用更少的内存,消耗更少的 CPU 资源。我们预估用 ClickHouse 处理日志可以将服务器成本降低一半。
成本分析
在没有任何折扣的情况下,基于 aliyun 分析。
环境部署
1、zookeeper 集群部署
2、Kafka 集群部署
3、FileBeat 部署
FileBeat 配置文件说明,坑点 1(需设置 keys_under_root: true)。如果不设置kafka 的消息字段如下:
4、clickhouse 部署
clickhouse 部署过程中遇到的一些问题如下:
1)clickhouse 创建 kafka 引擎表
问题 1:clikhouse 客户端无法查询 kafka 引擎表
解决方案:
2)clickhouse 创建本地节点表
问题 2:无法开启本地表 macro
解决方案:在不同的 clickhouse 节点上配置不同的 shard,每一个节点的 shard 名称不能一致。关注公众号:码猿技术专栏,回复关键词:1111 获取阿里内部的Java性能调优手册
问题 3:clickhouse 中节点数据已经存在
解决方案:进入 zookeeper 客户端删除相关节点,然后再重新创建 ReplicatedReplacingMergeTree 表。这样可以保障每一个 clickhouse 节点都会去消费 kafka partition 的数据。
3)clickhouse 创建集群表
创建分布式表(根据 log_uuid 对数据进行分发,相同的 log_uuid 会发送到同一个 shard 分片上,用于后续合并时的数据去重):
问题 4:分布式集群表无法查询
解决方案:
4)clickhouse 创建物化视图
创建物化视图,把 Kafka 消费表消费的数据同步到 ClickHouse 分布式表。
功夫不负有心人,解决完以上所有的问题。数据流转通了!本文所有组件都是比较新的版本,所以过程中问题的解决基本都是官方文档或操作手册一步一步的解决。关注公众号:码猿技术专栏,回复关键词:1111 获取阿里内部的Java性能调优手册
总结一句话:遇到问题去官方文档或--help 去尝试解决,慢慢的你就会升华。
文章转载自公众号: 码猿技术专栏
![](https://s5-media.51cto.com/ost/pc/static/noavatar.gif)