DATAX部署
DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。
1.环境要求:
Linux
JDK(1.8以上,推荐1.8)
Python(2或3都可以,一般linux系统自带这里不赘述)
Apache Maven 3.x (Compile DataX)
2.部署JDK1.8
根据系统从oracle官网下载jdk1.8。本人系统为x86-64,所以选择了x64。


下载并上传tar包至linux服务器上。
解压jdk tar包至/usr/local目录下
tar xvf jdk-8u202-linux-x64.tar.gz -C /usr/local

配置环境变量
vi /etc/profile
根据JAVA解压目录在/etc/profile文件中添加JAVA_HOME,CLASSPATH,PATH等参数

source /etc/profile
java -version
看见java版本信息,至此安装成功。

3.部署Apache Maven 3.x
下载apache maven
wget http://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz
解压至/usr/local下
tar xvf apache-maven-3.3.9-bin.tar.gz -C /usr/local

配置环境变量
vim /etc/profile

export MAVEN_HOME=/usr/local/apache-maven-3.3.9
export PATH=$MAVEN_HOME/bin:$PATH
source /etc/profile
检查是否安装成功
mvn -v

4.部署datax
下载datax
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

解压至/opt
cd /opt/datax/bin
5.编写json文件
以读mysql数据库,写mysql数据库为例
{
"job": {
"setting": {
"speed": {
"channel": 3,
"byte": 1048576
},
"errorLimit": {
"record": 0,
"percentage": 0.02
}
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "yRjwDFuoPKlqya9h9H2Amg==",
"password": "2aicp4yU6ALi25FYjEoW6w==",
"column": [
"`DZFPUUID`",
"`SFWZZFP`",
"`FPHM`"
],
"splitPk": "",
"connection": [
{
"table": [
"dzfp_kpyw_fpjcxxb"
],
"jdbcUrl": [
"jdbc:mysql://101.34.179.142:3306/TEST"
]
}
]
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"username": "yRjwDFuoPKlqya9h9H2Amg==",
"password": "2aicp4yU6ALi25FYjEoW6w==",
"column": [
"`DZFPUUID`",
"`SFWZZFP`",
"`FPHM`"
],
"connection": [
{
"table": [
"dzfp_kpyw_fpjcxxb_copy1"
],
"jdbcUrl": "jdbc:mysql://101.34.179.142:3306/TEST"
}
]
}
}
}
]
}
}
将json文件保存在/opt/datax/job/ceshi.json下
运行datax,抽取数据
python /opt/datax/job/datax.py /opt/datax/job/ceshi.json
