开发者社区> 问答> 正文

datax的hdfsreader读取大的orc表行数不够

数据源是一张orc格式的hive表,是用datax从mysql导入hive的,每天分区大约有3800万行;现在通过hdfsreader和mysqlwriter从hive导回mysql,只能读出8065000行,少了3000万行,是有什么限制吗?

展开
收起
winner.lzw 2018-05-07 17:50:18 5088 0
3 条回答
写回答
取消 提交回答
  • 是orc格式的限制,把orc文件拆分多个就行

    2021-02-20 19:43:00
    赞同 1 展开评论 打赏
  • 看下datax运行日志,是否有报错信息,是否同步中断了,是否有脏数据导致被跳过了等等,分析下缺的3000万行有说明特点

    2019-07-17 22:08:01
    赞同 展开评论 打赏
  • 看看运行日志,是否有脏数据报错

    2019-07-17 22:08:01
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Flink CDC:新一代数据集成框架 立即下载
DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
《DataWorks 数据集成实时同步》 立即下载