DP备份任务失败原因解析

简介:

以JDC为例,DP的备份任务失败troubleshooting流程为:


1)/etc/opt/omni/server/datalist下都是备份的job code。


如果要查看一个job code,可以more 此文件夹下的某个datalist,输入如下:

wKiom1aoaGeTJUc_AAA6IVag6aA262.png

最上面的两个脚本pre和post,内容是一样的,都是check split,开始查一遍,最后再查一遍。

下面的ESL_1DRV13到12是执行此job的drive优先顺序,默认的是dr13优先,如果执行job时这个dr busy,就会按顺序再往下找,直到找到合适的,如下图所示,这种情况虽然job仍然可以ok执行,但是会报错,会被打电话通知.

2016/1/29更新:

如果drive busy,查看drive状态的命令:

#/UMA 1/2/3 [带库ID]

#stat d

能看到full 还是 empty


2)monidb -session [session ID] -report

wKiom1aoahGAV_kIAACM8QgVtlk968.png

上图有一个输出是:loading media frm slot 85 to device /dev/rtape/tape711_bestn,这个是说从85槽调磁带到drive.


3)/home/work/cs 30/grep [session ID],或者进到/home/work下,./cs 30 |grep [session ID/datalist]

wKioL1aobVyDSqIEAAAG8V-upXM669.png

上面这种情况会出现报错.如上图,complete/failure,但是按第二步的命令monidb -session [session ID] -report会有下面的输出:

wKioL1aobjqTSG98AAAzh7XN-3w377.png

会看到其实是complete ok的,所以force ok 就可以了。

总结其实就是more /etc/opt/omni/server/datalist/[ID] 和/home/work/cs|grep session/datalist ID 这俩命令配合来看。


4)按照第二步的命令,omnidb -session [session id] -report,有时会出现下面的报错:

wKioL1aocjfw0KsYAAAxfwj4-qQ833.png

这种mount request cancel的报错一般就是磁带不够的意思。


5)针对未分离而报错的copy的处理方法:

还是根据命令omnidb -session 【session ID】-report,会有下面的报错:

wKiom1aodJbjdqRAAABu5MJuJHE378.png

在最前面说的pre和post这两个脚本是检查是否split的,这个就是在最初执行pre时发现还未分离,即还在copy状态,所以报错,这时需要手动执行分离操作,命令为:

/opt/Navisphere/bin/naviseccli -user sysadmin -password sysadmin -address 【IP】 -scope 0 snapview -fractureclone -name CLONE_ID -cloneid 0100000000000000


然后通知chops rerun这个任务。



    本文转自UVN2015  51CTO博客,原文链接:http://blog.51cto.com/10851095/1739249,如需转载请自行联系原作者









相关文章
|
22天前
|
监控 Linux 编译器
Linux C++ 定时器任务接口深度解析: 从理论到实践
Linux C++ 定时器任务接口深度解析: 从理论到实践
66 2
|
容灾 安全 大数据
为数据安全而生,阿里云容灾备份方案场景实践解析
数字经济时代,数据正以超出想象的速度快速增长。短短几年,数据量已经从TB级别跃升到PB乃至ZB级别。
4910 0
|
8月前
|
人工智能 自然语言处理 物联网
解锁ChatGLM-6B的潜力:优化大语言模型训练,突破任务困难与答案解析难题
解锁ChatGLM-6B的潜力:优化大语言模型训练,突破任务困难与答案解析难题
解锁ChatGLM-6B的潜力:优化大语言模型训练,突破任务困难与答案解析难题
|
8月前
|
机器学习/深度学习 自然语言处理 测试技术
【论文速递】CASE 2022 - EventGraph: 将事件抽取当作语义图解析任务
事件抽取涉及到事件触发词和相应事件论元的检测和抽取。现有系统经常将事件抽取分解为多个子任务,而不考虑它们之间可能的交互。
84 0
|
11月前
|
存储 弹性计算 Cloud Native
《阿里云认证的解析与实战-关系型数据库ACP认证》——RDS关系型数据库的解析与实践(中)—— 一、RDS的备份与恢复
《阿里云认证的解析与实战-关系型数据库ACP认证》——RDS关系型数据库的解析与实践(中)—— 一、RDS的备份与恢复
|
11月前
|
存储 Cloud Native 安全
《阿里云认证的解析与实战-关系型数据库ACP认证》——PolarDB云原生关系型数据库的解析与实践(中)—— 一、PolarDB的备份与恢复
《阿里云认证的解析与实战-关系型数据库ACP认证》——PolarDB云原生关系型数据库的解析与实践(中)—— 一、PolarDB的备份与恢复
|
存储 NoSQL 调度
Ray 源码解析(一):任务的状态转移和组织形式
Ray 源码解析(一):任务的状态转移和组织形式
272 0
Ray 源码解析(一):任务的状态转移和组织形式
|
前端开发
前端宏任务与微任务解析
前端宏任务与微任务解析
|
消息中间件 JSON 监控
Flink 任务 Jackson 解析 JSON 使用不当引发的反压问题
背景 最近业务方反馈线上一个 topic 的数据延迟比较大,然后我查看了这个 topic 的数据是由一个 Flink 任务产生的,于是就找到了这个任务开始排查问题,发现这个任务是一个非常简单的任务,大致的逻辑是 kafka source -> flatmap -> filter -> map -> sink kafka.中间没有复杂的操作,我在本地写了一个简单的程序模拟线上的任务.方便大家理解, 任务的 DAG 如下图所示
Flink 任务 Jackson 解析 JSON 使用不当引发的反压问题
|
安全 IDE Java
高并发之——通过ThreadPoolExecutor类的源码深度解析线程池执行任务的核心流程
打开你的IDE,踏下心来,跟着文章看代码,相信你定能收货满满!!!
142 0
高并发之——通过ThreadPoolExecutor类的源码深度解析线程池执行任务的核心流程

推荐镜像

更多