烽云社区

 找回密码
 立即注册
搜索
热搜: 烽火
查看: 2021|回复: 5

:Mysql两亿条数据清洗,有什么好的方案么。

[复制链接]

4

主题

9

帖子

28

积分

新手上路

Rank: 1

积分
28
发表于 2018-5-7 12:45:16 | 显示全部楼层 |阅读模式
已经做了分表,大概有两亿六千多万数据,现在要洗数据,有什么好的方案么?多线程?多任务分发?单线程过滤?数据分片?希望有大神解答。由于资源限制,用Hive或者大数据方案暂时没有考虑。
回复

使用道具 举报

0

主题

3

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2018-5-7 12:45:32 | 显示全部楼层
厉害了,不懂帮顶
回复

使用道具 举报

1

主题

7

帖子

21

积分

新手上路

Rank: 1

积分
21
发表于 2018-5-7 12:45:59 | 显示全部楼层

没洗过这么多
回复

使用道具 举报

8

主题

12

帖子

38

积分

新手上路

Rank: 1

积分
38
发表于 2018-5-7 12:46:23 | 显示全部楼层
多进程多线程跑?不懂   帮顶
回复

使用道具 举报

7

主题

11

帖子

35

积分

新手上路

Rank: 1

积分
35
发表于 2018-5-7 12:46:36 | 显示全部楼层

看看你具体需要怎么洗。
逻辑是写在sql里还是sql外。
如果写在sql外的程序里,数据库IO是个瓶颈,如果写在sql里的话,我觉得可以最大化的发挥数据库的性能。
回复

使用道具 举报

8

主题

10

帖子

34

积分

新手上路

Rank: 1

积分
34
发表于 2018-5-7 12:46:53 | 显示全部楼层
已经分表的话,按表数量起多线程去洗就好,一个线程一个表, 确保核数大于线程数
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|烽云社区

GMT+8, 2020-8-14 12:32 , Processed in 0.117156 second(s), 5 queries , File On.

快速回复 返回顶部 返回列表