출처: https://repository.kihasa.re.kr/bitstream/201002/32608/1/%EA%B8%B0%EA%B3%84%ED%95%99%EC%8A%B5%28Machine%20Learning%29 %20%EA%B8%B0%EB%B0%98%20%EC%9D%B4%EC%83%81%20%ED%83%90%EC%A7%80%28Anomaly%20Detection%29%20 %EA%B8%B0%EB%B2%95%20%EC%97%B0%EA%B5%AC-%20%EB%B3%B4%EA%B1%B4%EC%82%AC%ED% 9A%8C%20%EB%B6%84%EC%95%BC%EB%A5%BC%20%EC%A4%91%EC%8B%AC%EC%9C%BC%EB%A1%9C. PDF
1. 이상 검출의 개념과 특성
anomaly는 nomal 반대의 정상이 아니다는 것을 의미한다.
분류는 두 범주를 구별할 수 있는 경계를 찾는 것이 목적이지만, 비정상 검출은 다수의 범주를 고려하고 비정상적인 데이터 범주와 정상 데이터 범주로 구분하는 것이 목적입니다.
정상 카테고리 N1, N2 외에도 o1, o2, O3이 비정상값입니다.
1.2. 이상 검출의 다양한 요인
2.1 이상의 종류
2.1.1 점 이상(point anomaly)
위 그림과 같이 하나의 개체가 나머지에 대해 이상하다고 판단되는 경우이다.
2.1.2 문맥적 이상(contexual anomaly)
문맥 변수와 행동 변수의 정의가 먼저 필요합니다.
컨텍스트 변수공간 데이터 위도와 경도, 시간 데이터시간 등이다.
행동 변수는 문맥적이지 않은 특성이다.
강우량 자료로 각 위치의 강우량 등이다.
문맥 이상은 특정 문맥에서 행동 변수의 값으로 결정된다.
위의 그림에서 t2 시간은 문맥상 비정상적인 값이기 때문에 이상값으로 검출됩니다.
2. 이상 검출 국내외 연구 사례
2.1 연구 분야별 검출 기법 사례
2.1.1 침입 탐지
침입 검지를 위해서는 대용량의 자료를 취급하기 위해 효율적인 계산이 필요하며, 오탐지가 조금 높으면 분석에 부담이 될 가능성이 있다.
또한 실시간 분석이 중요합니다.
실시간 분석을 위해 비지도 기술이 선호됩니다.
2.1.2 사기 검출
선형회귀분석, 군집분석 등 다변량분석에서의 표준편차를 활용하여 반복 이상치를 측정하고, 이상치로 볼 수 있는 특정 기준을 설정.
3. 이상 검출 기술의 연구
3.1 기계 학습 기반의 이상 검출 기술
3.1.1 분류 기반의 이상 검출 기술
각 객체에 어떤 클래스에 속하는지에 대한 레이블이 있는 자료로 분류기를 학습한 후,
학습한 모델에서 새 객체에 대해 각 클래스에 속할 확률을 예측합니다.
일반 클래스와 나머지 클래스로 나누도록 학습하고 어떤 클래스에도 속하지 않는 객체를 이상값으로 취급한다.
간다.
신경망 기반
신경망이 복수의 정상 클래스를 학습한 후, 테스트 데이터를 신경망에 입력값으로 넣는 방법.
복제 뉴럴 네트워크는 입력 데이터를 저차원으로 압축하기 위해 제안된 뉴럴 네트워크, 입력 레이어와 출력 레이어의 노드 수가 동일하며, 하나 이상의 은닉 레이어로 구성된 인코더를 통해 입력 데이터를 압축하고, 디코더를 이용하여 개체를 복원하여 출력값을 구한다.
나.베이지안 네트워크 기반
테스트 대상의 각 정상 클래스와 이상에 대한 사후 확률을 추정하여 가장 높은 확률에 해당하는 클래스로 지정한다.
각 클래스의 사전 확률과 조건부 확률은 학습 자료를 사용하여 추정한다.
확률이 0이면 라플라스 스무딩에서 0 대신 적절한 양의 값을 제공합니다.
이다.
SVM 기반
학습 세트를 포함하는 영역을 학습하는 단계; 영역 기반 학습 방법은 경계에만 초점을 맞추고, 경계의 내외의 분포에는 관심을 가지지 않기 때문에, 분포에 둔감하고 데이터의 샘플링이 어떻게 행해졌는지와는 무관한 결과가 나온다.
라.결정 규칙에 따라
결정 규칙 기반 기술은 정상 데이터를 결정하는 규칙을 학습하고 어떤 규칙에도 해당하지 않는 개체를 비정상으로 취급합니다.
우선, 결정 규칙 학습 알고리즘을 이용하여 규칙을 학습한다.
각 규칙에는 규칙이 올바르게 분류된 학습 엔터티 수와 학습 데이터의 총 수 비율에 비례하는 신뢰도 값이 제공됩니다.
그런 다음 각 개체에 대해 해당 개체를 가장 잘 캡처하는 규칙을 찾고 규칙의 신뢰도의 역수를 이상적인 점수로 만듭니다.
분류 기반 이상 검출의 장점과 단점
1. 여러 강력한 알고리즘을 사용할 수 있습니다
2. 이미 학습된 모델을 예측하기만 하면 되므로 테스트 프로세스가 빠르다.
3. 다집단 분류에서는 각 정상 개체 유형의 라벨을 얻기가 어려울 수 있습니다.
4. SVM 모델은 어떤 커널을 사용할 것인지를 결정해야 한다.
3.2 NN 기반의 이상 검출 기술
정상값은 어느 근방에 밀집하고 있고, 이상값은 각 근방으로부터 떨어져 있다고 한다.
이 기술을 작성하려면 두 오브젝트 사이의 거리 개념을 정의해야 합니다.
연속형 변수는 유클리드 거리, 카테고리형 변수에서는 단순 일치 계수를 많이 사용한다.
NN 기술로 이상 점수를 구하는 방법은 k번째에 가까운 개체의 거리를 이용하거나 상대 밀도를 이용하는 방법이다.
3.2.1 k번째에 가까운 개체와의 거리 이용
비정상 점수를 k번째에 가까운 개체와의 거리로 정의한다.
https://watchout31337./418
3.2.2 상대 밀도 사용
각 개체 근방의 밀도를 추정. 근방의 밀도가 낮은 개체는 이상치라고 판단.
Local Outlier Factor(LOF)라는 이상적인 점수는 가장 가까운 k 지점의 국소 밀도 평균과 자신의 국소 밀도의 비율로 정의됩니다.
정상값은 조밀한 영역에 위치하고, 국소 밀도는 그 근방과 유사하지만, 이상값은 NN에 비해 상대적으로 국소 밀도가 매우 낮기 때문에 큰 LOF 점수를 얻는다.
LOF는 core distance와 reachability distance 개념을 사용합니다.
reachability distance는 다음 식을 사용합니다.
A의 local reachability density(lrd) 값은 다음과 같습니다.
lrd(A)는 A에 속하는 B의 reachability distance 평균의 역수입니다.
이 말은 A 개체가 밀도가 높은 곳에 있는 경우가 밀도가 낮은 곳에 있는 경우보다 lrd 값이 높다.