menu
Is this helpful?

# Ta-Datax-Writerプラグイン使用ガイド

# 紹介

Ta-Datax-WriterはDataXの書き込みデータプラグインで、DataXエコロジーでTEクラスタにデータを転送する機能を提供します。DataXでサポートされているデータソース読み取りプラグインとこのプラグインを使用して、データ転送サーバーにDataXをデプロイして、マルチデータソースとTEクラスタのデータ同期を実現できます。

DataXについては、DataXのGithubホームページをご覧ください (opens new window)

TE受信側にデータを送信する方式

# 機能と制限

TaDataWriterは、DataXプロトコルからTEクラスタの内部データ機能への移行を実装しました。

  1. サポートされており、 TEクラスタへの書き込みのみがサポートされています。
  2. データ圧縮をサポートし、既存の圧縮形式はgzip、lzo、lz4、snappyです。
  3. マルチスレッド転送をサポートします。

# 使用説明

# 3.1 dataxのダウンロード

wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

# 3.2 dataxの解凍

tar -zxvf datax.tar.gz

# 3.3 ta-datax-writerプラグインのインストール

wget https://download.thinkingdata.cn/tools/release/ta-datax-writer.tar.gz
  • data/plugin/writerディレクトリにta-datax-writer.tar.gzをコピーします
cp ta-datax-writer.tar.gz data/plugin/writer

  • 解凍プラグインパッケージ
tar -zxvf ta-datax-writer.tar.gz
  • パッケージを削除
rm -rf  ta-datax-writer.tar.gz

# 機能説明

# 4.1構成サンプル

{
  "job": {
    "setting": {
      "speed": {
        "channel": 1
      }
    },
    "content": [
      {
        "reader": {
          "name": "streamreader",
          "parameter": {
            "column": [
              {
                "value": "123123",
                "type": "string"
              },
              {
                "value": "testbuy",
                "type": "string"
              },
              {
                "value": "2019-08-16 08:08:08",
                "type": "date"
              },
              {
                "value": "2222",
                "type": "string"
              },
              {
                "value": "2019-08-16 08:08:08",
                "type": "date"
              },
              {
                "value": "test",
                "type": "bytes"
              },
              {
                "value": true,
                "type": "bool"
              }
            ],
            "sliceRecordCount": 10
          }
        },
        "writer": {
          "name": "ta-datax-writer",
          "parameter": {
            "thread": 3,
            "type": "track",
            "pushUrl": "http://{Data Receiving Address}",
            "appid": "6f9e64da5bc74792b9e9c1db4e3e3822",
            "column": [
              {
                "index": "0",
                "colTargetName": "#distinct_id"
              },
              {
                "index": "1",
                "colTargetName": "#event_name"
              },
              {
                "index": "2",
                "colTargetName": "#time",
                "type": "date",
                "dateFormat": "yyyy-MM-dd HH:mm:ss.SSS"
              },
              {
                "index": "3",
                "colTargetName": "#account_id",
                "type": "string"
              },
              {
                "index": "4",
                "colTargetName": "testDate",
                "type": "date",
                "dateFormat": "yyyy-MM-dd HH:mm:ss.SSS"
              },
              {
                "index": "5",
                "colTargetName": "os_1",
                "type": "string"
              },
              {
                "index": "6",
                "colTargetName": "testBoolean",
                "type": "boolean"
              },
              {
                "colTargetName": "add_clo",
                "value": "123123",
                "type": "string"
              }
            ]
          }
        }
      }
    ]
  }
}

# 4.2パラメータの説明

  • thread
    • 説明: DataXのチャネル数に関係なく、各チャネル内で同時に使用されるスレッド数となる
    • 必須:否
    • デフォルト: 3
  • pushUrl
    • 説明:アクセスポイントアドレス。
    • 必須:是
    • デフォルト:なし
  • uuid
    • 説明:送信データに「#uuid」:「uuid値」を追加し、データユニークID機能と併用する
    • 必須:否
    • デフォルト: false
  • type
    • 説明:書き込まれたデータ型user_set, track
    • 必須:是
    • デフォルト:なし
  • compress
    • 説明:テキスト圧縮タイプ、デフォルトで記入しないと圧縮がないことを意味します。サポート圧縮タイプはzip、lzo、lzop、tgz、bzip2
    • 必須:否
    • デフォルト:圧縮なし
  • appid
    • 説明:対応項目のappid
    • 必須:是
    • デフォルト:なし
  • column
    • 説明:読み取りフィールドリスト、typeはデータのタイプを指定し、indexは現在の列がreaderの何番目の列に対応するか(0で始まる)を指定し、valueは現在のタイプを定数として指定し、readerからデータを読み取るのではなく、value値に基づいて対応する列を自動的に生成する

ユーザーはColumnフィールド情報を指定できます。

[
  {
    "type": "Number",
    "colTargetName": "test_col", //Generate column names corresponding to data
    "index": 0 //Transfer the first column from reader to dataX to get the Number field
  },
  {
    "type": "string",
    "value": "testvalue",
    "colTargetName": "test_col"
    //Generate the string field of testvalue from within TaDataWriter as the current field
  },
  {
    "index": 0,
    "type": "date",
    "colTargetName": "testdate",
    "dateFormat": "yyyy-MM-dd HH:mm:ss.SSS"
  }
]
  • ユーザーがColumn情報を指定する場合、index/valueは1つを選択する必要があります。typeは必須ではありません。dateタイプを設定する場合は、dataFormatは必須ではありません。
    • 必須:是
    • デフォルト:すべてreaderタイプで読み込む

# 4.3タイプ変換

TaDataWriterのタイプ定義:

DataX internal type TaDataWriter data type
Int Number
Long Number
Double Number
String String
Boolean Boolean
Date Date