编程千万级数据的全表更新的正确方式

2024-11-19 01:43:51 +0800 CST views 1138

千万级数据的全表更新的正确方式

在处理业务迭代时，有时候需要对MySQL表中的数据进行全表更新。当数据量较小时（万级别），可以直接执行SQL语句，但当数据量达到亿级别时，问题随之而来。尤其是主从架构的MySQL数据库，在进行主从同步时会依赖binlog，其格式如下：

Statement: 记录主库上执行的每一条SQL，日志量较小，但一些函数（如random）可能会出现问题。
Row: 记录每条数据被修改或删除的详细信息，日志量较大。
Mixed: 混合使用statement和row两种方式，常规SQL使用statement，其他复杂SQL使用row。

如果在亿级数据表上执行全表update，将产生大量binlog，会导致主库负载剧增，并影响主从同步的性能。因此，直接执行全表update并不可行。

直接`update`带来的问题

例如，某次需要将用户的基本信息中的HTTP链接转换为HTTPS，涉及到上千万条记录，初步尝试了直接执行以下SQL：

update tb_user_info set user_img = replace(user_img, 'http://', 'https://');

这种方式生成的binlog对主库和从库都会带来巨大的压力。

深度分页问题

为避免这种压力，可以通过分批处理来更新数据。常见的方式是使用limit分页：

update tb_user_info set user_img = replace(user_img, 'http://', 'https://') limit 1, 1000;

然而，MySQL的limit操作在分页较深时效率会急剧下降，原因是MySQL需要从B+树的叶子节点开始进行遍历，导致性能问题。

`in`操作的低效

另一种常见方法是将待更新的id查询出来，再通过in批量更新：

select * from tb_user_info where id > {index} limit 100;
update tb_user_info set user_img = replace(user_img, 'http', 'https') where id in ({id1, id2, id3});

虽然MySQL对in操作有一定的优化，但在面对大量数据时，效率依然不理想。

解决方案：分批更新与索引优化

经过与DBA的多次沟通，最终确定了以下的优化策略：

使用/*!40001 SQL_NO_CACHE */语法来避免缓存，防止本次查询影响buffer pool。
强制使用主键索引FORCE INDEX(PRIMARY)，并按主键顺序进行排序。
分批更新数据，使用已排序的主键范围进行批量更新。

优化后的SQL示例如下：

select /*!40001 SQL_NO_CACHE */ id from tb_user_info FORCE INDEX(`PRIMARY`) where id > "1" ORDER BY id limit 1000,1;
update tb_user_info set user_img = replace(user_img, 'http', 'https') where id > "{1}" and id < "{2}";

通过这种方式，可以避免影响缓存数据，同时对数据库主从同步的性能产生较小影响。在执行批量更新时，可以通过接口来控制更新速率，动态调整刷库的速度，以保障数据库的正常运行。

其他注意事项

如果业务使用UUID作为主键而非自增ID，数据的顺序性将无法保证。对此，建议在数据入库时提前处理，代码上线后再进行全量数据更新。

通过这些优化措施，可以有效地解决千万级数据表的全表更新问题。

复制全文生成海报数据库性能优化 MySQL 数据处理

推荐文章

robots.txt 的写法及用法

2024-11-19 01:44:21 +0800 CST

告别Electron臃肿！用Pake将任何网页秒变轻量桌面应用

2025-08-26 07:05:06 +0800 CST

如何通过封装自定义Hook来实现对localStorage的响应式监听，解决了在更改时区时相关组件无法实时更新的问题

2024-11-19 03:08:13 +0800 CST

如何在Vue3中使用provide/inject实现跨组件状态共享？

2024-11-17 14:16:16 +0800 CST

使用 Gomail 在 Go 语言中轻松实现邮件发送功能及 Mailtrap 测试指南

2024-11-18 21:14:22 +0800 CST

Python协程（asyncio）：最强的异步编程神器

2024-11-17 18:46:56 +0800 CST

jQuery动画API兼容的高性能JavaScript动画库Velocity.js

2024-11-19 07:59:22 +0800 CST

PyMySQL - Python中非常有用的库

2024-11-18 14:43:28 +0800 CST

前端代码规范 - Commit 提交规范

2024-11-18 10:18:08 +0800 CST

Chevereto是一个开源的高性能个人图床系统

2024-11-17 04:35:01 +0800 CST

在 Rust 中使用 OpenCV 进行绘图

2024-11-19 06:58:07 +0800 CST

Vue 3 中实现文件上传功能，结合后端 API

2024-11-17 04:38:33 +0800 CST

面试官：说一下你对Redis事务的理解？

2024-11-19 00:32:53 +0800 CST

#免密码登录服务器

2024-11-19 04:29:52 +0800 CST

Vue 中的 v-for 指令可以使用在哪些类型的数据结构上？

2024-11-18 19:15:09 +0800 CST

Dragula.js——一款神奇的 JavaScript 开源拖放库

2024-11-19 01:16:55 +0800 CST

jQuery选择器：解锁HTML元素操作的强大工具

2024-11-17 23:06:18 +0800 CST

12 个精选 MCP 网站推荐

2025-06-10 13:26:28 +0800 CST

如何在Vue3中处理全局状态管理？

2024-11-18 19:25:59 +0800 CST

Vue 3 生成一个图片画廊，支持查看大图和切换图片

2024-11-19 08:32:43 +0800 CST

Vue.js 的响应式数据是如何实现的？

2024-11-18 09:32:05 +0800 CST

php strpos查找字符串性能对比

2024-11-19 08:15:16 +0800 CST

ColorUIGA是一个基于ColorUI2.0的高颜值、轻量级、开源的CSSUI组件库，专为小程序开发设计

2024-11-19 09:42:01 +0800 CST

免费常用API接口分享

2024-11-19 09:25:07 +0800 CST

Python实现Zip文件的暴力破解

2024-11-19 03:48:35 +0800 CST

文字秒变流程图！Napkin AI：程序员必备的智能绘图神器

2025-08-19 15:49:07 +0800 CST

Golang在整洁架构中优雅使用事务

2024-11-18 19:26:04 +0800 CST

H5保险购买与投诉意见

2024-11-19 03:48:35 +0800 CST

在Vue3中实现代码分割和懒加载

2024-11-17 06:18:00 +0800 CST

探讨了JavaScript中Promise的设计哲学，解释了为何Promise不内置取消功能

2024-11-19 10:14:26 +0800 CST

如何在生产环境中部署FastAPI应用程序

2024-11-19 10:13:11 +0800 CST

Vue 3 中的 Fragments 是什么？

2024-11-17 17:05:46 +0800 CST

使用 PHP 和 Web 技术（而不是 Electron）构建跨平台桌面应用程序：探索 Boson

2025-07-11 09:31:00 +0800 CST

ServiceWorker是一种在浏览器后台运行的独立线程，能够实现缓存、消息推送和后台更新等功能

2024-11-18 14:06:55 +0800 CST

简易运维脚本，方便非专业运维人员批量操作多台Linux设备

2024-11-17 19:33:52 +0800 CST

四舍五入五成双

2024-11-17 05:01:29 +0800 CST

html夫妻约定

2024-11-19 01:24:21 +0800 CST

实现微信回调多域名的方法

2024-11-18 09:45:18 +0800 CST

Go语言中，`ioutil`包基于`io`包提供了文件和目录操作的功能

2024-11-18 20:35:56 +0800 CST

原生JS判断手机与PC端：实现一个炫酷设备检测页面

2025-09-18 08:37:04 +0800 CST

Vue 中如何处理父子组件通信？

2024-11-17 04:35:13 +0800 CST

Node.js中接入微信支付

2024-11-19 06:28:31 +0800 CST

在MySQL中全局回滚一张表数据的多种方法，包括使用事务、备份与恢复、触发器和二进制日志

2024-11-18 13:59:43 +0800 CST

Nginx 实操指南：从入门到精通

2024-11-19 04:16:19 +0800 CST

34.4K Star 最牛 OCR !!! 不要服务器, 浏览器识别 100+ 语言文本

2024-11-19 07:16:38 +0800 CST

Rust开发笔记 | Rust的交互式Shell

2024-11-18 19:55:44 +0800 CST

JSDoc是一个用于JavaScript的开源API文档生成器，允许开发者在源代码中添加注释并生成HTML文档

2024-11-19 10:05:45 +0800 CST

如何把 CSS 的动态效果转换成 GIF 动图的

2024-11-19 05:01:51 +0800 CST

如何通过Frp和Nginx配置，实现通过阿里云服务器的子域名访问公司内网服务器上的服务

2024-11-19 06:45:49 +0800 CST

Nginx 性能优化有这篇就够了！

2024-11-19 01:57:41 +0800 CST