-
Hive如何比较两张表所有字段的一致性
- 网站名称:Hive如何比较两张表所有字段的一致性
- 网站分类:技术文章
- 收录时间:2025-06-13 03:30
- 网站地址:
“Hive如何比较两张表所有字段的一致性” 网站介绍
前言
随着MySQL技术发展,通过垂直或水平拆分能够支持相当大的数据量,目前很多公司把SQLServer、Oracledb或其他数据库迁移到MySQL上,迁移数据量很大(数据库已经水平拆分成很多Shard),如何比较所有数据的一致性呢?
问题剖析
- 数据库迁移步骤:双写DB -> 数据一致性保证 -> 旧DB读流量逐步迁移到新DB -> 单写新DB -> 下线旧DB。迁移过程中问题很多,本章只给出数据已经同步到Hive,怎么校验Hive数据的一致性,线上一致性会在其他章节中给出。
- 问题是:迁移地表有成百上千张,如何比较每张表的每个字段的一致性呢?
实现思路
- 思路:通过Job生成比较脚本,分发到调度系统,每天调度比较脚本,将比较不一致的结果存放到统计表中,通过报表平台将不一致日报发出,跟踪日报排查不一致问题,将问题反馈给大数据平台,让大数据平台解决不一致。
- 统计表按天分区再按表分区d='2021-01-01',h=表名。
- 大数据平台一致性校验可以校验出生产表的不一致和Hive同步的一致,前者需要开发排查解决,后者需要大数据平台解决。
- 表主键是orderid。
- 表主键不是orderid而是联合主键。
- UDF函数将所有业务字段拼接成string用于比较。
常见问题
- 时间日期类型Date、DateTime、Timestamp字段,SQL Server毫秒精度只到0,3,7结尾和MySQL不一致,需要对该类型截取处理,特别是业务字段是这样的类型是按需截取。
- Float,Double字段存在精度问题,如果两边不一致需要通过CAST函数转换后再比较。
- 对于带小数的字段,因SQL Server和MySQL报错的小数位不同,需要截取掉小数末尾的0后再比较。
- SQL Server的xml类型和MySQL的text类型存储了xml数据时前会将xml头(<?xml version="1.0"?>)去掉,要单独处理。
- 因两边数据同步时差,应排除掉当天的增量数据。
- 特殊Case处理:忽略非业务字段,非严格字段导致截取的字段。
附UDF函数
import org.apache.hadoop.hive.ql.exec.UDF;
/**
* @Description:全量字段拼接
*/
public class JointFieldsUdf extends UDF {
public String evaluate(String... fields) {
StringBuffer sb = new StringBuffer();
for (String item : fields) {
if (item != null) {
//去掉含小数点数字末尾的零
if (item.indexOf(".") > -1) {
sb.append(item.trim().replaceAll("(0)+#34;, "").replaceAll("\\.", "")).append("_");
} else {
sb.append(item.trim()).append("_");
}
} else {
sb.append(item).append("_");
}
}
return sb.toString().substring(0, sb.length() - 1);
}
}
pom
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>2.2.0</version>
</dependency>
好经验分享给你,关注我学知识!
- 上一篇:分布式数据库里的时间戳
- 下一篇:OceanBase隔离级别
- 最近发表
-
- 联想推出 IdeaPad 14s / 15s:均为 3399 元,运行 Win11 系统
- 顶配版ThinkPad X1 Carbon评测
- 联想ThinkPad X1 Carbon评测
- lenovo联想 拯救者-14 加装ssd、内存及win10转移到ssd经验谈
- 联想发布新款耳机鼠标等配件:专为ThinkPad X1设计
- 杜比全景音体验,联想K4 Note在印度正式发布
- 3099 元起,联想推出 IdeaPad 15:约10小时续航,预装 Win11系统
- 联想拯救者Y70、小新Pad Pro 2022发布丨拯救者Y70测评体验
- 千元可定制!联想K4 Note印度发布:杜比全景音体验
- 声临其境 联想TAB2 A10平板联手杜比
- 标签列表
-
- serv-u 破解版 (6)
- 极域电子教室2009 (6)
- 6300主题下载 (1)
- oracle11204下载 (1)
- c++论坛 (14)
- huaweiupdateextractor (4)
- thinkphp6下载 (7)
- 前端论坛 (11)
- mysql 时间索引 (13)
- mydisktest_v298 (35)
- unlocker208 (1)
- sql 日期比较 (33)
- document.appendchild (35)
- 头像打包下载 (35)
- 二调符号库 (23)
- oppoa5专用解锁工具包 (8)
- acmecadconverter_8.52绿色版 (25)
- oracle timestamp比较大小 (7)
- chm editor破解版 (7)
- throttlestop防止降频 (9)
- f12019破解 (16)
- 流星蝴蝶剑修改器 (18)
- pygame中文手册 (2)
- 联想杜比音效驱动下载 (10)