menu
Is this helpful?

# 데이터 중복 제거 툴

# 데이터 중복 제거 툴

# 소개

데이터 중복 제거 도구는 주로 TA 시스템 내의 중복된 이벤트 데이터를 중복 제거하는 데 사용되며, 시간 기간과 이벤트 유형에 따른 이벤트 데이터의 중복 제거를 지원합니다.

중복 제거는 클러스터 컴퓨팅 자원을 사용하므로, 비정상 데이터만 중복 제거하는 것이 권장되며, 데이터를 자주 중복 제거하지 않는 것이 좋습니다. 이 도구를 신중히 사용해 주세요.

# 사용 설명서

데이터 복제 툴은 프라이빗 셋팅 서비스의 사용자만 이용할 수 있습니다. Root가 프라이빗 클러스터의 어떤 서버에 로그인하여 su - 슈퍼 관리자을 실행합니다.

그런 다음 이벤트 삭제을 실행하여 데이터 중복 제거 툴 인터페이스에 액세스하십시오.


# 질문: 2.1 처리할 항목의 appid를 입력하세요.

프로젝트의 appid는 TA 배경의 프로젝트 관리 페이지에서 조회할 수 있습니다.

# 2.2 프로젝트 명 확인

입력 후 중복 제거할 프로젝트의 프로젝트 이름이 표시됩니다. 'y'를 입력하여 확인하고, 'n'을 입력하여 작업을 취소합니다.


# 질문: 2.3 중복 제거가 필요한 이벤트 명을 입력하십시오

답변:

다음으로 삭제할 이벤트의 이벤트 명을 입력해야 합니다. 여기에 입력된 이벤트 명은 데이터 전송 시의 키 값입니다, 표시 명이 아니다. 메타데이터 관리 페이지에서 이벤트 명을 조회할 수 있으며, 중복 제거할 여러 이벤트를 ","로 분할하여 입력하세요. 입력 후, 중복 제거될 이벤트 명이 표시됩니다.

문자를 입력하지 않고 바로 Enter를 누르면 모든 이벤트 데이터가 중복 제거됩니다.


# 2.4 중복 제외 수 로직에서 무시된 열 이름을 채우세요.

다음으로, 중복 제거 로직에서 무시된 열 이름을 입력해야 합니다. ta 자체 정의 필드는 기본적으로 반복 로직 판단에 참여하지 않도록 제거되었습니다. 예를 들어, "#server_time" 및 "#kafka_offset" 필드는 반복 판단 로직에 참여하지 않습니다. 무시된 경우, 여러 필드는 ","로 구분됩니다. 입력 후에는 무시될 필드의 이름이 표시됩니다.


# 2.5 이벤트 데이터 중복 제거를 위한 시간 범위를 입력하세요

다음으로, 데이터 중복 제거를 위한 시간 기간을 입력해야 합니다. 선택 가능한 시간 단위는 "일 단위"입니다. yyyy-MM-dd 형식으로 날짜를 입력해 주세요. 이 필드는 필수입니다.


# 2.6 최종 확인

마지막으로, 데이터 중복 제거를 시작하기 전에, 중복 제거된 항목의 이름, 중복 제거된 이벤트의 이름 및 중복 제거 기간을 포함하여 최종 확인이 이루어집니다. 데이터 중복 제거를 시작하려면 'y'를 입력하세요. 오류가 있는 경우 'n'을 입력하여 도구를 종료하고 다시 입력할 수 있습니다:


# 2.7 실행 계획 완료 과정

확인 후, 데이터는 중복 제거될 것이며, 전체 중복 제거 과정의 스크린샷은 다음 그림에 나타나 있습니다:

# 질문: 주의사항

답변:

# 데이터 중복 제거 도구를 사용하기 전에, 동시에 중복 데이터가 입력되는 것을 방지하고 중복 제거 효과를 보장할 수 없으므로 데이터 중복의 원인을 확인해 주세요.

# 2 중복 제거는 클러스터 컴퓨팅 자원을 필요로 하며 자주 사용하는 것은 권장하지 않습니다.

# 다음 스크린샷이 발생하면 클러스터가 데이터를 병합 중이며, 자체 자동 실행을 기다릴 수 있습니다. 오랫동안 멈춰 있다면, 운영 및 유지보수 담당자에게 문제 해결을 요청할 수 있습니다.