
【好文推荐】openGauss psycopg2 批量操作性能测试
测试版本
本测试基于 openGauss 版本的 psycopg2 驱动。
测试环境
组件 | 说明 |
客户端 | Rocky Linux 8 虚拟机 |
数据库 | openGauss 3.0.3 in docker |
网络 | 本地回路网卡 |
Python | 3.6.8 |
测试接口
接口名 | 说明 | 备注 |
cursor.executemany(query, vars_list) | 执行一个数据库操作,vars_list 列表中的所有参数会逐个被应用到query 中,每组参数都会单独封包发送给服务端。 | 该函数主要用于更新数据库的命令,查询返回的任何结果集都将被丢弃。在其当前实现中,此方法并不比在循环中执行execute()快。 |
psycopg2.extras.execute_batch(cur, sql, argslist, page_size=100) | 批量执行一个数据库操作,执行的SQL和 executemany 相同,只是单个数据包发送时会发送一批SQL,数量由page_size决定。这样可以减少和服务端的通信次数 | execute_batch()也可以和预处理语句(PREPARE, EXECUTE, DEALLOCATE)一起使用。 |
extras.execute_batch + 预处理语句 | 使用PREPARE提交创建一个statement,然后通过 execute_batch 提交 | |
psycopg2.extras.execute_values(cur, sql, argslist, template=None, page_size=100, fetch=False) | 将参数和SQL封装为一条SQL执行,单条SQL中参数的个数由 page_size 决定。 |
性能对比
INSERT
测试数据
rows | executemany | execute_batch | prepare+execute_batch | execute_values |
10,000 | 9.782 | 0.707 | 0.501 | 0.266 |
50,000 | 52.979 | 3.123 | 2.637 | 1.226 |
100,000 | 111.504 | 6.831 | 4.557 | 2.125 |
INSERT耗时对比图
INSERT 去除 executemany 对比
UPDATE
测试数据
rows | executemany | execute_batch | prepare+execute_batch | execute_values |
10,000 | 5.015 | 0.617 | 0.425 | 0.356 |
50,000 | 24.639 | 3.467 | 1.905 | 5.237 |
100,000 | 52.095 | 6.927 | 3.473 | 21.102 |
UPDATE 耗时对比图
DELETE
测试数据
(100000 条数据组耗时太久不做展示)
rows | executemany | execute_batch | prepare+execute_batch | execute_values |
10,000 | 15.020 | 8.699 | 0.277 | 6.204 |
50,000 | 248.154 | 227.958 | 1.455 | 142.732 |
DELETE 耗时对比图
性能分析
从耗时对比来看,插入、更新、删除在不同的数据量情况下性能是不同的,用户应该根据自己的业务场景来选择使用哪一种操作接口。
插入性能从低到高依次为:
executemany < execute_batch < prepare+execute_batch < execute_values
更新性能从低到高依次为:
executemany < execute_values < execute_batch < prepare+execute_batch
删除性能从低到高依次为:
executemany < execute_batch < execute_values < prepare+execute_batch
性能的高低主要是由于在向服务端发送数据包时的方式不同导致,下面以插入的SQL为例,通过 wireshark 进行抓包可以看出 psycopg2 在通信过程中不同批处理接口的封包情况。
executemany
executemany
提交SQL的时候是逐个应用给的参数,每个SQL都单独发送给服务端
execute_batch
execute_batch
接口区别于 executemany
的是,在发送给后端的单个请求包里的数据会一次性提交一批的SQL,这样可以减少和服务器之间通信的往返次数
prepare+execute_batch
prepare
可以提前在数据库里面创建一个预备语句对象,在执行 prepare 语句的时候,指定的SQL已经经了解析、分析、重写,这样在后续执行 EXECUTE 时就避免了重复解析分析的工作,从而起到优化性能的作用。
execute_values
前面的三个接口,不管是单个提交还是批量提交,最终都是一行数据一个SQL发送到服务端的,所以服务端需要逐个执行,而 execute_values
接口是会按照 page_size 分组参数后,每组参数一次性组成一个SQL进行提交。
测试代码
执行方式:python test.py <api> <row> <operation>
-
<api>
支持: executemany
, execute_batch
, prepare
, execute_values
-
<operation>
支持 insert
, update
, delete
文章转载自公众号:openGauss
