硬吃一个P0故障,「在线业务」应该如何调优HBase参数?
1、背景由于种种原因,最近将核心业务生产使用的HBase迁移到了云上的弹性MapReduce(EMR)集群上,并使用了EMR的HBase组件默认参数配置。结果在流量高峰期出现了宿主机故障,挂掉了两个core节点(部署了regionserver和datanode),大量regionrit,花了15分钟才自动恢复,硬生生吃了一个P0故障。复盘的时候发现,由于云上EMR对hdfs的socket超时参数默认设置了900000(15min),导致了region重新上线读取故障节点WAL日志的时候足足等...