08 DataX 安装
2023-12-17 18:36:25
DataX 简介
DataX 概述
DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
DataX 与 Sqoop 对比
功能 | DataX | Sqoop |
---|---|---|
运行模式 | 单进程多线程 | MR |
分布式 | 不支持,可以通过调度系统规避 | 支持 |
流控 | 有流控功能 | 需要定制 |
统计信息 | 已有一些统计,上报需定制 | 没有,分布式的数据收集不方便 |
数据校验 | 在core部分有校验功能 | 没有,分布式的数据收集不方便 |
监控 | 需要定制 | 需要定制 |
DataX 支持的数据源
请参考官网: https://github.com/alibaba/DataX
DataX 架构
设计理念和架构
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
DataX 运行流程
DataX 部署
- 下载安装包到 software 目录
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
- 解压datax.tar.gz到/opt/module
[logan@hadoop101 software]$ tar -zxvf datax.tar.gz -C /opt/module/
- 自检,执行如下命令,如果没有报错则成功
[logan@hadoop101 ~]$ python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json
解决问题
出现问题
[main] ERROR Engine -
经DataX智能分析,该任务最可能的错误原因是:
com.alibaba.datax.common.exception.DataXException: Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/opt/module/datax/plugin/reader/._hdfsreader/plugin.json]不存在. 请检查您的配置文件.
解决办法
由于配置文件缓存导致,删除即可,执行如下 2 条命令。
find /opt/module/datax/plugin/reader/ -type f -name "._*er" | xargs rm -rf
find /opt/module/datax/plugin/writer/ -type f -name "._*er" | xargs rm -rf
文章来源:https://blog.csdn.net/qq_41758289/article/details/135047115
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!