# データアーカイブとアーカイブ

# 一、データアーカイブ機能（ta_data_archive）

データアーカイブ機能は、履歴データや一時的に使用する必要のないデータ移行を安価なストレージにアーカイブする。したがって、TEクラスタのディスクリソースを解放し、使用コストを節約します。

# 1.1アーカイブコマンド

#启动
ta-tool data_archive start

#停止
ta-tool data_archive stop

#失败重跑
ta-tool data_archive retry -jobid *******

# 1.2アーカイブ方式

# 1.2.1 S3方式

# 1.2.1.1環境準備

Amazon S3サービス
アーカイブに使用するバケット(Bucket)を作成し、バケットの地域提案はTEクラスタサーバと一致
バケットにアクセスできる秘密鍵を作成します

# 1.2.1.2コマンドサンプル

[ta@ta1 ~]$ ta-tool data_archive start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487f6b**********f9c379aa9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > s3
------------------------------------------------------------
请输入S3 AccesskeyID> AK************YO6G3
------------------------------------------------------------
请输入S3 secretAccessKey> J23************rZb
------------------------------------------------------------
请输入S3 区域代码> cn-****-1
------------------------------------------------------------
请输入S3 存储桶名称> ta************ive
------------------------------------------------------------
请输入S3 文件存储类（默认：STANDARD）> S*****D
------------------------------------------------------------
请输入项目归档的目标目录> data*****_test
------------------------------------------------------------

# 1.2.1.3手順説明

jobidを入力して、カスタマイズしたり、バックグラウンドで生成したりすることができ、タスクが失敗したときに再実行するためにはjobidを指定する必要がある。
プロジェクトを入力appid
開始日を入力(直近1か月の範囲外)
終了日を入力(直近1か月の範囲外)
指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
アーカイブストレージのタイプ選択S3
s3のaccesskeyidを入力
入力secretAccessKey(S3IAMサービスで管理)
を指定バケット (opens new window)地域コード
バケット名を入力
選択ストレージタイプ (opens new window)します(デフォルトは標準モード)。ストレージタイプのGLACIERおよびDEEP_ARCHIVEストレージクラスは、低コストのデータアーカイブ用に設計されていますが、データ復旧時に解凍が必要です。比較的面倒です。
アーカイブのターゲットディレクトリ(ターゲットバケットの下にディレクトリが作成され、アーカイブデータがディレクトリに配置されます)

# 1.2.2 HDFS方式

# 1.2.2.1環境準備

TEクラスタネットワークと相互運用するHDFS環境を用意

# 1.2.2.2コマンドサンプル

[ta@ta1 ~]$ ta-tool data_archive start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487************a9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > hdfs
------------------------------------------------------------
请输入项目归档的HFDS URL地址> hdfs-nm-url
------------------------------------------------------------
请输入项目归档的HFDS 的用户名> hdfsUserName
------------------------------------------------------------
请输入项目归档的目标目录> hdfs******test
------------------------------------------------------------

# 1.2.2.3手順説明

jobidを入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時にjobid用を指定する。
プロジェクトを入力appid
開始日を入力(直近の月の範囲外)
終了日を入力(直近1か月の範囲外)
指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
アーカイブストレージのタイプ選択hdfs
書き込み側のhdfsアドレスを入力します。ポートがデフォルトでhostnameを記入すれば
書き込み側のhdfsのユーザ名を入力
アーカイブのターゲットディレクトリを入力し絶対パスを使用することをお勧めします。そうしないと/user/hdfsユーザーディレクトリ/ターゲットディレクトリ/

# 1.2.3 rsync方式

# 1.2.3.1環境準備

rsyncのデーモンモードを使用してサービス側を構築し、秘密鍵テキストをTEクラスタのコマンド実行ノード

# コマンドサンプル1.2.3.2

[ta@ta1 ~]$ ta-tool data_archive start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 548*****************9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > rsync
------------------------------------------------------------
请输入目标RSYNC服务器IP地址> rsyncIp
------------------------------------------------------------
请输入目标RSYNC服务器端口> rsyncPort
------------------------------------------------------------
请输入目标RSYNC服务器用户名> rsyncUser
------------------------------------------------------------
请输入目标RSYNC服务器秘钥文件位置> passwordFilePath
------------------------------------------------------------
请输入目标RSYNC服务器模块名称> modelName
------------------------------------------------------------
sending incremental file list
/tmp/
/tmp/d41d8c*****ecf8427e.data

sent 99 bytes  received 15 bytes  228.00 bytes/sec
total size is 11  speedup is 0.10 (DRY RUN)
请输入项目归档的目标目录> rsync******test_dir

# 1.2.3.3手順説明

jobidを入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時にjobid用を指定する。
プロジェクトを入力appid
開始日を入力(直近の月の範囲外)
終了日を入力(直近1か月の範囲外)
指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
アーカイブストレージのタイプ選択rsync
rsyncサービスIPを入力
rsyncサービスエンドポート
tsyncユーザ名を入力
rsync秘密鍵のテキストの場所を入力して、あるディレクトリの下に置きます。テキスト権限はchmod 600権限
rsyncのモジュール名を入力します(この手順では、以前に入力した情報を使用してrsyncが使用可能かどうかを確認します)
アーカイブのターゲットディレクトリを入力します

# II。データコールバック機能（ta_data_reload）

データバック機能は、以前アーカイブしたデータをTEクラスタにインポートして再利用するもので、一般的には暦年の傾向を見るときに使用する。

インポートする前にディスク容量が十分か確認してください。

# 2.1コールバックコマンド

#启动
ta-tool data_reload start

#停止
ta-tool data_reload stop

#失败重跑
ta-tool data_reload retry -jobid *******

# 2.2コールバック方式

# 2.2.1 S3方式

# 2.2.1.1環境準備

Amazon S3サービス
アーカイブに使用するバケット(Bucket)を作成し、バケットの地域提案はTEクラスタサーバと一致
バケットにアクセスできる秘密鍵を作成します

# 2.2.1.2コマンドサンプル

[ta@ta1 log]$ ta-tool data_reload start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487f6************a9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > s3
------------------------------------------------------------
请输入S3 AccesskeyID> AK***********3
------------------------------------------------------------
请输入S3 secretAccessKey> J23w************b
------------------------------------------------------------
请输入S3 区域代码> cn*****-1
------------------------------------------------------------
请输入S3 存储桶名称> ta*****ve
------------------------------------------------------------
请输入项目归档的目标目录> data*******t_1
------------------------------------------------------------

# 2.2.1.3手順説明

jobidを入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時にjobid用を指定するため。
プロジェクトを入力appid
開始日を入力(直近1か月の範囲外)
終了日を入力(直近1か月の範囲外)
指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
プロジェクトアーカイブのイベントタイプ選択S3
s3のaccesskeyidを入力
入力secretAccessKey(S3IAMサービスで管理)
を指定バケット (opens new window)地域コード
バケット名を入力
選択ストレージタイプ (opens new window)します(デフォルトは標準モード)。ストレージタイプがGLACIERとDEEP_ARCHIVEの場合は、S3で事前にデータの解凍を行ってください
アーカイブのターゲットディレクトリ(ターゲットバケットの下にディレクトリが作成され、アーカイブデータがディレクトリに配置されます)

注意:パラメータを入力すると、アーカイブ時のバケット名とディレクトリパスが一致することが保証されます。

# 2.2.2 HDFS方式

# 2.2.2.1環境準備

TEクラスタネットワークと相互運用するHDFS環境を用意

# 2.2.2.2コマンドサンプル

[ta@ta1 log]$ ta-tool data_reload start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487*******************9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > hdfs
------------------------------------------------------------
请输入项目归档的HFDS URL地址> hdfs-nm-url
------------------------------------------------------------
请输入项目归档的目标目录> hdfs******test
------------------------------------------------------------

# 2.2.2.3手順説明

jobidを入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時にjobid用を指定する。
プロジェクトを入力appid
開始日を入力(直近1か月の範囲外)
終了日を入力(直近1か月の範囲外)
指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
プロジェクトアーカイブのイベントタイプ選択hdfs
書き込み側のhdfsアドレスを入力します。ポートがデフォルトでhostnameを記入すれば
書き込み側のhdfsのユーザ名を入力
アーカイブのターゲットディレクトリを入力します

注意:パラメータを入力すると、アーカイブ時のディレクトリパスと一致することが保証されます。

# 2.2.3 rsync方式

# 2.2.3.1環境準備

rsyncのデーモンモードを使用してサービス側を構築し、秘密鍵テキストをTEクラスタのコマンド実行ノード

# 2.2.3.2コマンドサンプル

[ta@ta1 log]$ ta-tool data_reload start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 54****************9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > rsync
------------------------------------------------------------
请输入目标RSYNC服务器IP地址> rsyncIp
------------------------------------------------------------
请输入目标RSYNC服务器端口> rsyncPort
------------------------------------------------------------
请输入目标RSYNC服务器用户名> rsyncUser
------------------------------------------------------------
请输入目标RSYNC服务器秘钥文件位置> passwordFilePath
------------------------------------------------------------
请输入目标RSYNC服务器模块名称> modelName
------------------------------------------------------------
sending incremental file list
/tmp/
/tmp/d41d8cd98f00b204e9800998ecf8427e.data
sent 99 bytes  received 15 bytes  20.73 bytes/sec
total size is 11  speedup is 0.10 (DRY RUN)
请输入项目归档的目标目录> rsync******test_dir

# 2.2.3.3手順説明

jobidを入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時にjobid用を指定するため。
プロジェクトを入力appid
開始日を入力(直近の月の範囲外)
終了日を入力(直近1か月の範囲外)
指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
アーカイブストレージのタイプ選択rsync
rsyncサービスIPを入力
rsyncサービスエンドポート
tsyncユーザ名を入力
rsync秘密鍵のテキストの場所を入力して、あるディレクトリの下に置きます。テキスト権限はchmod 600権限
rsyncのモジュール名を入力します(この手順では、以前に入力した情報を使用してrsyncが使用可能かどうかを確認します)
アーカイブのターゲットディレクトリを入力します

注意:パラメータを入力すると、アーカイブ時のディレクトリパスと一致することが保証されます。

← 外部ユーザ属性アソシエーションインポート機能 TaDataWriterプラグイン →