原文链接:www.gbase.cn/community/p…
更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。
背景
有现场业务人员A反映使用数据库用户按指定条件查询表的记录数是正确的,但查询数据时结果却是空的,人员B却反映:与A查询的表相同,结果正常。业务人员C讲他们的业务表无论记录数还是按条件查询结果却是一切正常。
初步将问题定位表和用户上。到达现场后经过了解到所有人用的是同一个用户名,看来此问题与用户权限无关。再对比他们连接的协调节点发现:A、B、C连接集群的协调节点都不同。于是让业务人员各自调整了连接的调度节点,发现情况就变成别人所经历的现象了。
因此,可以确定一个问题点:调度节点之间有差异,那么问题进一步可以指向nodedatamap了。那么为什么有些表无论怎样查询都是正常的呢?将他们各自所用表结构进行对比,终于明白A和B用的均为hash分布表而C用到的表均为随机分布表。基于以上,分析结果如下:
1)A、B连接不同的调度节点因而使用的nodedatamap表也不同,调度节点的nodedatamap表存在数据不一致的现象。
2)随机分布表因不受nodedatamap表影响故而不受其影响。
案例
下面根据客户现场反馈,复现案例:
集群:
192.168.10.230 gcware gcluster gnode
192.168.10.231 gcware gcluster gnode
192.168.10.232 gcware gnode
[gbase@vm230 gbase]$ gcadmin
CLUSTER STATE: ACTIVE
======================================
| GBASE GCWARE CLUSTER INFORMATION |
======================================
| NodeName | IpAddress | gcware |
--------------------------------------
| gcware1 | 192.168.10.230 | OPEN |
--------------------------------------
| gcware2 | 192.168.10.231 | OPEN |
--------------------------------------
| gcware3 | 192.168.10.232 | OPEN |
--------------------------------------
========================================================
| GBASE COORDINATOR CLUSTER INFORMATION |
========================================================
| NodeName | IpAddress | gcluster | DataState |
--------------------------------------------------------
| coordinator1 | 192.168.10.230 | OPEN | 0 |
--------------------------------------------------------
| coordinator2 | 192.168.10.231 | OPEN | 0 |
--------------------------------------------------------
==================================================
| GBASE VIRTUAL CLUSTER INFORMATION |
==================================================
| VcName | DistributionId | comment |
--------------------------------------------------
| vc01 | 5 | vc01 comments. |
--------------------------------------------------
1 virtual cluster: vc01
2 coordinator node
0 free data node
[gbase@vm230 gbase]$ gcadmin showcluster vc vc01
CLUSTER STATE: ACTIVE
VIRTUAL CLUSTER MODE: NORMAL
==================================================
| GBASE VIRTUAL CLUSTER INFORMATION |
==================================================
| VcName | DistributionId | comment |
--------------------------------------------------
| vc01 | 5 | vc01 comments. |
--------------------------------------------------
=========================================================================================================
| VIRTUAL CLUSTER DATA NODE INFORMATION |
=========================================================================================================
| NodeName | IpAddress | DistributionId | gnode | syncserver | DataState |
---------------------------------------------------------------------------------------------------------
| node1 | 192.168.10.230 | 5 | OPEN | OPEN | 0 |
---------------------------------------------------------------------------------------------------------
| node2 | 192.168.10.231 | 5 | OPEN | OPEN | 0 |
---------------------------------------------------------------------------------------------------------
| node3 | 192.168.10.232 | 5 | OPEN | OPEN | 0 |
---------------------------------------------------------------------------------------------------------
3 data node
# m01为hash分布表:分另连接192.168.10.230和192.168.10.231,查询id=338结果显示均有一条记录。
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select count(1) from m01 where id=338"
+----------+
| count(1) |
+----------+
| 1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select count(1) from m01 where id=338"
+----------+
| count(1) |
+----------+
| 1 |
+----------+
# 但查询具体的数据时,连接到192.168.10.230可以正常查看结果,192.168.10.231查询不到记录。
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select * from m01 where id=338"
+------+
| id |
+------+
| 338 |
+------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m01 where id=338"
[gbase@vm230 gbase]$
# m02为hash分布表:所有查询结果都是正常的
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select count(1) from m02 where id=338"
+----------+
| count(1) |
+----------+
| 1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select count(1) from m02 where id=338"
+----------+
| count(1) |
+----------+
| 1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select * from m02 where id=338"
+------+
| id |
+------+
| 338 |
+------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m02 where id=338"
+------+
| id |
+------+
| 338 |
+------+
知道了问题所在,那么解决也比较简单,只需将错误节点的nodedatamap表与正确节点的保持一致即可。
解决方案
以gbase用户登录到正常的节点,执行以下命令:
cd $GCLUSTER_BASE/userdata/gluster/gbase
scp nodedatamap.* 异常节点IP:安装路径/gcluster/userdata/gluster/gbase
或者登录数据库:
gccli -uroot -pxxx -h<正常节点>
# 将gbase.nodedatamap导出来,所有记录拼接成INSERT VALUES语句
gccli -uroot -pxxx -h<异常节点>
truncate self table gbase.nodedatamap;
# 再调用刚才的INSERT VALUES语句将数据导入到当前的gbase.nodedatamap。(目前不支持load方式)
最后重启gcluster服务即可。
gcluster_services gcluster restart
修改后再连接192.168.10.231,查看结果正常:
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m01 where id=338"
+------+
| id |
+------+
| 338 |
+------+
原文链接:www.gbase.cn/community/p…
更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。