关于全量数据同步时的优化建议

Question

关于全量数据同步时的优化建议

wulimax opened this issue 2 years ago · comments

调研使用go-mysql-transfer时，发现千万级别的大表数据同步时，对于mysql的压力很大,
优化建议：
将 select b.* from (select %s from %s order by %s limit %d,%d) a left join %s b on a.%s=b.%s
通过EXPLAIN 虚拟表并未用到索引
期望优化成： SELECT * FROM table where id > 0 order by id limit 100
通过迭代主键id 的方式替换掉使用虚拟表的方式

chengxinyao · Answer 1 · Fri Oct 21 2022 07:47:52 GMT+0800 (China Standard Time)

赞同可以试下先取 min(id) max(id) 然后设定batch =1000(3000/5000等）
where id>0 and id<= 1000
where id>1000 and id<= 2000
where id>2000 and id<=3000

开启20个worker 并发执行上面的子任务效率更快

调研使用go-mysql-transfer时，发现千万级别的大表数据同步时，对于mysql的压力很大, 优化建议：将 select b.* from (select %s from %s order by %s limit %d,%d) a left join %s b on a.%s=b.%s 通过EXPLAIN 虚拟表并未用到索引期望优化成： SELECT * FROM table where id > 0 order by id limit 100 通过迭代主键id 的方式替换掉使用虚拟表的方式

wulimax · Answer 2 · Fri Dec 16 2022 15:55:30 GMT+0800 (China Standard Time)

可以加一下您的联系方式吗学习一下go-mysql-transfer ------------------ 原始邮件 ------------------ 发件人: "wj596/go-mysql-transfer" ***@***.***>; 发送时间: 2022年10月21日(星期五) 上午7:48 ***@***.***>; 抄送: "a『♀※♂@***@***.******@***.***>; 主题: Re: [wj596/go-mysql-transfer] 关于全量数据同步时的优化建议 (Issue #116) 赞同可以试下先取 min(id) max(id) 然后设定batch =1000(3000/5000等） where id>0 and id<= 1000 where id>1000 and id<= 2000 where id>2000 and id<=3000 开启20个worker 并发执行上面的子任务效率更快调研使用go-mysql-transfer时，发现千万级别的大表数据同步时，对于mysql的压力很大, 优化建议：将 select b.* from (select %s from %s order by %s limit %d,%d) a left join %s b on a.%s=b.%s 通过EXPLAIN 虚拟表并未用到索引期望优化成： SELECT * FROM table where id > 0 order by id limit 100 通过迭代主键id 的方式替换掉使用虚拟表的方式 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

chengxinyao · Answer 3 · Sat Dec 24 2022 12:14:25 GMT+0800 (China Standard Time)

可以加一下您的联系方式吗学习一下go-mysql-transfer ------------------ 原始邮件 ------------------ 发件人: "wj596/go-mysql-transfer" @.>; 发送时间: 2022年10月21日(星期五) 上午7:48 @.>; 抄送: "a『♀※♂@@.@.>; 主题: Re: [wj596/go-mysql-transfer] 关于全量数据同步时的优化建议 (Issue #116) 赞同可以试下先取 min(id) max(id) 然后设定batch =1000(3000/5000等） where id>0 and id<= 1000 where id>1000 and id<= 2000 where id>2000 and id<=3000 开启20个worker 并发执行上面的子任务效率更快调研使用go-mysql-transfer时，发现千万级别的大表数据同步时，对于mysql的压力很大, 优化建议：将 select b.* from (select %s from %s order by %s limit %d,%d) a left join %s b on a.%s=b.%s 通过EXPLAIN 虚拟表并未用到索引期望优化成： SELECT * FROM table where id > 0 order by id limit 100 通过迭代主键id 的方式替换掉使用虚拟表的方式 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

v信:chengcxy86

chengxinyao · Answer 4 · Sat Dec 24 2022 19:36:58 GMT+0800 (China Standard Time)

调研使用go-mysql-transfer时，发现千万级别的大表数据同步时，对于mysql的压力很大, 优化建议：将 select b.* from (select %s from %s order by %s limit %d,%d) a left join %s b on a.%s=b.%s 通过EXPLAIN 虚拟表并未用到索引期望优化成： SELECT * FROM table where id > 0 order by id limit 100 通过迭代主键id 的方式替换掉使用虚拟表的方式

下午先改了一版 https://github.com/chengcxy/go-mysql-transfer
提交了合并请求等作者merge

Sharkzeng · Answer 5 · Wed Mar 29 2023 14:24:41 GMT+0800 (China Standard Time)

兄弟你的版本是否支持MYSQL 同步到MYSQL呢? 另外是否支持配置方式同步到过个目标,多个表呢?

wulimax · Answer 6 · Wed Mar 29 2023 17:04:48 GMT+0800 (China Standard Time)

如果是mysql同步到mysql 可以使用其他工具，比如 mysql自带的数据同步功能,otter,yugong, canal ,DataX，dbsyncer,

…

------------------ 原始邮件 ------------------ 发件人: "wj596/go-mysql-transfer" ***@***.***>; 发送时间: 2023年3月29日(星期三) 下午2:24 ***@***.***>; 抄送: "a『♀※♂@***@***.******@***.***>; 主题: Re: [wj596/go-mysql-transfer] 关于全量数据同步时的优化建议 (Issue #116) 兄弟你的版本是否支持MYSQL 同步到MYSQL呢? 另外是否支持配置方式同步到过个目标,多个表呢? — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

chengxinyao · Answer 7 · Wed Mar 29 2023 22:55:39 GMT+0800 (China Standard Time)

自己写一个脚本批量生成datax的json配置文件或者自己造轮子没什么复杂的读取到schema，切分读取，拼接insert intosql语句能自动读取到配置即可

Sharkzeng · Answer 8 · Thu Mar 30 2023 14:34:05 GMT+0800 (China Standard Time)

如果是mysql同步到mysql 可以使用其他工具，比如 mysql自带的数据同步功能,otter,yugong, canal ,DataX，dbsyncer,
…
------------------ 原始邮件 ------------------ 发件人: "wj596/go-mysql-transfer" @.>; 发送时间: 2023年3月29日(星期三) 下午2:24 @.>; 抄送: "a『♀※♂@@.@.>; 主题: Re: [wj596/go-mysql-transfer] 关于全量数据同步时的优化建议 (Issue #116) 兄弟你的版本是否支持MYSQL 同步到MYSQL呢? 另外是否支持配置方式同步到过个目标,多个表呢? — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

canal 是要自己开发客户端啊

wulimax · Answer 9 · Thu Mar 30 2023 16:12:15 GMT+0800 (China Standard Time)

其他几个工具你也可以调用一下

…

------------------ 原始邮件 ------------------ 发件人: "wj596/go-mysql-transfer" ***@***.***>; 发送时间: 2023年3月30日(星期四) 下午2:34 ***@***.***>; 抄送: "a『♀※♂@***@***.******@***.***>; 主题: Re: [wj596/go-mysql-transfer] 关于全量数据同步时的优化建议 (Issue #116) 如果是mysql同步到mysql 可以使用其他工具，比如 mysql自带的数据同步功能,otter,yugong, canal ,DataX，dbsyncer, … ------------------ 原始邮件 ------------------ 发件人: "wj596/go-mysql-transfer" @.>; 发送时间: 2023年3月29日(星期三) 下午2:24 @.>; 抄送: "a『♀※♂@@.@.>; 主题: Re: [wj596/go-mysql-transfer] 关于全量数据同步时的优化建议 (Issue #116) 兄弟你的版本是否支持MYSQL 同步到MYSQL呢? 另外是否支持配置方式同步到过个目标,多个表呢? — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***> canal 是要自己开发客户端啊 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

wulimax · Answer 10 · Thu Mar 30 2023 16:13:08 GMT+0800 (China Standard Time)

是的，我之前做了一版改动，但是我的场景是异构数据同步最后使用的其他方案

…

------------------ 原始邮件 ------------------ 发件人: "wj596/go-mysql-transfer" ***@***.***>; 发送时间: 2023年3月29日(星期三) 晚上10:55 ***@***.***>; 抄送: "a『♀※♂@***@***.******@***.***>; 主题: Re: [wj596/go-mysql-transfer] 关于全量数据同步时的优化建议 (Issue #116) 自己写一个脚本批量生成datax的json配置文件或者自己造轮子没什么复杂的读取到schema，切分读取，拼接insert intosql语句能自动读取到配置即可 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

Sharkzeng · Answer 11 · Thu Mar 30 2023 16:20:21 GMT+0800 (China Standard Time)

其他工具只有dbsyncer 稍微符合下要, 不过它不支持REDIS
其实想要个免费易配置,出错友好定位的 MYSQL TO MYSQL ; MYSQL TO REDIS; MYSQL TO CLICKHOUSE; MYSQL TO ES

Sharkzeng · Answer 12 · Thu Mar 30 2023 16:21:39 GMT+0800 (China Standard Time)

go-mysql-transfer 这工具配置挺易的就单表,单目标不太实用, 要自己写LUA脚本

wulimax · Answer 13 · Thu Mar 30 2023 16:27:27 GMT+0800 (China Standard Time)

是的，要看场景，如果简单的或者要求不高的话可以使用这个工具

…

------------------ 原始邮件 ------------------ 发件人: "wj596/go-mysql-transfer" ***@***.***>; 发送时间: 2023年3月30日(星期四) 下午4:21 ***@***.***>; 抄送: "a『♀※♂@***@***.******@***.***>; 主题: Re: [wj596/go-mysql-transfer] 关于全量数据同步时的优化建议 (Issue #116) go-mysql-transfer 这工具配置挺易的就单表,单目标不太实用, 要自己写LUA脚本 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

tianyuso · Answer 14 · Fri Sep 08 2023 09:08:59 GMT+0800 (China Standard Time)

赞同可以试下先取 min(id) max(id) 然后设定batch =1000(3000/5000等） where id>0 and id<= 1000 where id>1000 and id<= 2000 where id>2000 and id<=3000

开启20个worker 并发执行上面的子任务效率更快

调研使用go-mysql-transfer时，发现千万级别的大表数据同步时，对于mysql的压力很大, 优化建议：将 select b.* from (select %s from %s order by %s limit %d,%d) a left join %s b on a.%s=b.%s 通过EXPLAIN 虚拟表并未用到索引期望优化成： SELECT * FROM table where id > 0 order by id limit 100 通过迭代主键id 的方式替换掉使用虚拟表的方式

int类型的主键可以，uuid的主键这种方式不行

chengxinyao · Answer 15 · Sun Sep 10 2023 03:48:22 GMT+0800 (China Standard Time)

是的，我们主键自增id 创建时间更新时间是建表时候的必带字段，如果业务上有uuid作为唯一键的要求，我们做法是主键自增id，uuid列添加唯一索引