烽云社区

 找回密码
 立即注册
搜索
热搜: 烽火
查看: 2134|回复: 5

Mysql两亿条数据清洗,有什么好的方案么。

[复制链接]

3

主题

8

帖子

29

积分

新手上路

Rank: 1

积分
29
发表于 2018-6-4 04:19:53 | 显示全部楼层 |阅读模式
已经做了分表,大概有两亿六千多万数据,现在要洗数据,有什么好的方案么?多线程?多任务分发?单线程过滤?数据分片?希望有大神解答。由于资源限制,用Hive或者大数据方案暂时没有考虑
回复

使用道具 举报

2

主题

7

帖子

26

积分

新手上路

Rank: 1

积分
26
发表于 2018-6-4 04:20:09 | 显示全部楼层
厉害了,不懂帮顶
回复

使用道具 举报

0

主题

4

帖子

16

积分

新手上路

Rank: 1

积分
16
发表于 2018-6-4 04:20:33 | 显示全部楼层
没洗过这么多
回复

使用道具 举报

0

主题

3

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2018-6-4 04:20:49 | 显示全部楼层
多进程多线程跑?不懂   帮顶
回复

使用道具 举报

0

主题

2

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2018-6-4 04:21:05 | 显示全部楼层
看你具体需要怎么洗。
逻辑是写在sql里还是sql外。
如果写在sql外的程序里,数据库IO是个瓶颈,如果写在sql里的话,我觉得可以最大化的发挥数据库的性能。
回复

使用道具 举报

0

主题

3

帖子

10

积分

新手上路

Rank: 1

积分
10
发表于 2018-6-4 04:21:20 | 显示全部楼层
已经分表的话,按表数量起多线程去洗就好,一个线程一个表, 确保核数大于线程数
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|烽云社区

GMT+8, 2020-8-14 12:05 , Processed in 0.100691 second(s), 5 queries , File On.

快速回复 返回顶部 返回列表