生产环境搭建高可用Harbor(包括恢复演练实操)(三)

icegoblin
发布于 2022-7-4 17:01
浏览
0收藏

 

配置Horbor为PG主节点
1.登录主节点创建harbor用户与harbor需要的DB,并且将数据恢复到当前数据.

# 新建Harbor用户
CREATE USER harbor LOGIN PASSWORD 'Deniss1112s';
CREATE SCHEMA harbor;
GRANT harbor TO postgres;GRANT USAGE ON SCHEMA harbor TO postgres;
ALTER SCHEMA harbor OWNER TO postgres;
# 创建数据库
CREATE DATABASE registry OWNER harbor;
CREATE DATABASE notarysigner OWNER harbor;
CREATE DATABASE notaryserver OWNER harbor;
# 授权
GRANT ALL PRIVILEGES ON DATABASE registry TO harbor;
GRANT ALL PRIVILEGES ON DATABASE notarysigner TO harbor;
GRANT ALL PRIVILEGES ON DATABASE notaryserver TO harbor;
# 恢复数据库
psql -h localhost -U harbor registry < /data/harbor/backup_sql/registry.sql
psql -h localhost -U harbor notarysigner  < /data/harbor/backup_sql/notarysigner.sql
psql -h localhost -U harbor notaryserver < /data/harbor/backup_sql/notaryserver.sql

2.对2个ECS的harbor.yml进行调整,开启外部PG、Redis配置,注释掉默认PG数据库配置,注意:2个ECS中Harbor链接的配置的必须为同样的Redis与PG数据库。

hostname: harbor.unixsre.com

http:
  port: 80

https:
  port: 443
  certificate: /data/harbor/ssl/unixsre.com.cer
  private_key: /data/harbor/ssl/unixsre.com.key

harbor_admin_password: 1234567

data_volume: /data/harbor_nas/harbor_data

trivy:
  ignore_unfixed: false
  skip_update: false
  insecure: false

jobservice:
  max_job_workers: 10

notification:
  webhook_job_max_retry: 10

chart:
  absolute_url: disabled

log:
  level: info
  local:
    rotate_count: 50
    rotate_size: 200M
    location: /var/log/harbor

_version: 2.3.0

external_database:
  harbor:
    host: 172.19.48.253
    port: 5432
    db_name: registry
    username: harbor
    password: Deniss1112s
    ssl_mode: disable
    max_idle_conns: 2
    max_open_conns: 0
  notary_signer:
    host: 172.19.48.253
    port: 5432
    db_name: notarysigner
    username: harbor
    password: Deniss1112s
    ssl_mode: disable
  notary_server:
    host: 172.19.48.253
    port: 5432
    db_name: notaryserver
    username: harbor
    password: Deniss1112s
    ssl_mode: disable

external_redis:
  host: 172.19.48.253:6379
  password: Deniss1589s
  registry_db_index: 1
  jobservice_db_index: 2
  chartmuseum_db_index: 3
  trivy_db_index: 5
  idle_timeout_seconds: 30

proxy:
  http_proxy:
  https_proxy:
  no_proxy:
  components:
    - core
    - jobservice
    - trivy

3.harbor重新生成配置,并且重启容器.

cd /data/harbor/
./prepare
docker-compose down && docker-compose up -d

4.在阿里云创建传统SLB,使用TCP四层添加443端口监听。

生产环境搭建高可用Harbor(包括恢复演练实操)(三)-鸿蒙开发者社区

 SLB01

生产环境搭建高可用Harbor(包括恢复演练实操)(三)-鸿蒙开发者社区
 SLB02

5.将域名绑定在新建的SLB上,这个SLB不一定非要是阿里云的,任何云的SLB都可以,比如AWS、微软云、GCP都可以。

 

PG主从故障切换
假设主库宕机或者主节点宕机,因为我们的Redis在阿里云,而Harbor的镜像数据在阿里云的NFS,要保证服务的可用性,这个时候,只需要快速的将从节点切换为主库,并且修改Harbor的配置文件,重启Harbor的服务下即可。

 

下面为手动操作,建议调整为脚本执行快速切换。

 

1.模拟当前主节点库挂掉,

# 停止主数据库的PG服务.
service postgresql@13-main stop

 

2.激活备库为主库.

psql -h 172.19.48.254 -p 5432 -U postgres
postgres=# select pg_promote(true,60);
# 验证是否升级为主库
/usr/lib/postgresql/13/bin/pg_controldata -D /data/harbor_nas/pgsql_replica/data/ |grep cluster
Database cluster state:               in production

 

3.修改Harbor配置,重启所有Harbor服务

# 
sed -i 's/172.19.48.253/172.19.48.254/' 
./prepare
docker-compose down && docker-compose up -d

 

4.访问域名,验证harbor服务的可用性。


5.快速恢复主节点,将主节点的PG库设置为从库。

# 修改253从库免密配置,可以提前设置好,不需要此处配置了
/etc/postgresql/13/main/pg_hba.conf
host    replication    replica 172.19.48.253/20                 trust
# 切换用户
su - postgres
# 清理数据
rm -rf /data/harbor_nas/pgsql/data/*
# 同步254数据到253
pg_basebackup -h 172.19.48.254 -p 5432 -U replica -Fp -Xs -Pv -R -D /data/harbor_nas/pgsql/data/
echo "standby_mode = 'on'" > /data/harbor_nas/pgsql/data/standby.signal
# 修改253配置
vim /etc/postgresql/13/main/postgresql.conf
primary_conninfo = 'host=172.19.48.254 port=5432 user=replica password=Deniss_12PRO@@@'
recovery_target_timeline = latest
max_connections = 100
hot_standby = on
max_standby_streaming_delay = 30s
wal_receiver_status_interval = 10s
hot_standby_feedback = on
# 启动253PG服务
systemctl start postgresql@13-main.service

 

6.在当前主节点254登录验证集群复制是否正常.

# 登录节点验证当前同步是否正常
psql -h localhost -p 5432 -U postgres
postgres=# select client_addr,sync_state from pg_stat_replication;
  client_addr  | sync_state
---------------+------------
 172.19.48.253 | async

 

7.如果想将原来的库基本恢复成主库,只需要清理掉standby.signal文件,在原来的从库上的数据目录中新建standby.signal文件,并且将standby_mode = 'on'配置好,重启PG服务即可。


灾难性故障恢复
对于不可抗拒因素是比较极端的情况,任何人都无法预料,包括当前的各种云厂商,我们只把能想到的,能做到的全部做好,我这边已经做了PG数据库的全备上传到了OSS上,Harbor的镜像数据阿里云NFS一份,OSS一份,想要灾难性恢复必须保证如下俩个前提:

  • PG数据库全备可用(注意:必须可以承受丢失全备时间起止到故障时间的数据)。
  • 阿里云NFS或者OSS中的Harbor镜像数据文件可用。

恢复步骤:搭建一个单节点PG,全备导入,Harbor中的配置使用单节点PG,Redis本地或者harbor启动的都可以,然后使用docker-compose启动即可,具体操作步骤不在叙述。

 

但是这样并不是最快的方法,还有没有更好的方案呢?当然有了,使用云服务,一切都交给云,但是就算是云也不可能保证100%的可用性,此处的灾难性故障恢复,仅做抛砖引玉,并不是最终的解决方案,只是给大家提供一个可以展开思考的思路,如果大家有更完美完善的方案,欢迎一起交流。

 

欢迎大家关注我的公众号ID:k8stech


文章转自公众号:Kubernetes技术栈

标签
已于2022-7-4 17:01:25修改
收藏
回复
举报
回复
    相关推荐