kwan's note

Anomaly Detection - 이상값 탐지 본문

ML and AI/Machine learning - Andrew Ng

Anomaly Detection - 이상값 탐지

kwan's note 2021. 2. 7. 00:04
반응형

출처: machine learning by andrew ng, stanford cousera lecture

수강일시: 2021.02.06

 

reminder-by-kwan.tistory.com/86?category=962582

 

supervised learning -지도학습

출처: machine learning by andrew ng, stanford cousera lecture 수강일시: 2021.01.24 reminder-by-kwan.tistory.com/85 machine learning - Andrew Ng, Stanford(coursera) 이 복습노트는 Stanford의 Andrew Ng..

reminder-by-kwan.tistory.com

이번시간에는 이상값 탐지에 대해 알아보도록 하겠습니다.

이상치 탐지는 여러 data중에서 문제가 발생할확률이 높은 값을 탐지하는것을 의미합니다.

엔진의 여러 특성들에서 문제가 발생할 만한 값들을 구함으로서 엔진결함을 예방하거나

영상에서 일반적이지 않은 행동등을 감지하는등 다양한 곳에 사용될 수 있습니다.

 

아래와 같이 x1 x2 ... 등의 특성에대해 정상값들의 데이터를 이용해 정상 범주를 만들어내고 문제가 발생할 확률이 일정 이상인 경우 이를 탐지하도록한다.

이때 가우시안 distribution을 이용하되 만약 특성값들의 분포가 가우시안 분포가 아니라면 이를 변형해 가우시안으로 만들어준다 ex)카이제곱 to 가우시안 등

 

이제 이 확률을 어떻게 구하는지 알아보자.

각각의 특성에 대한 평균과 분산을 구하고 이를 가우시안 함수에 대입하여 곱한다.

이를통해 곱해진 값이 입실론 보다 작다면 이상치로 탐색한다.

아래는 이에대한 예 이다.

 

이러한 real number evaluation은 매우 중요한데 알고리즘이 얼마나 정확한지/ 효율적인지 판단할 수 있는 객관적이고 빠른 수단이 된다. 따라서 training set cv set test set으로 나누어 평가를 진행하고 모델을 만든다.

data에서 이상치가 정상치보다 매우 작은것이 당연하다.

알고리즘 평가에 대해 일반적인 방식은 비효율적일 수 밖에 없다.data의 이상치가 매우 적으므로 모두 정상이라고 판단하는 모델의 정답률이 매우 높아지기 때문이다. 따라서 true positive ,,, 등의 조건부 확률 방식을 사용하는등 다른 방법들을 이용해 평가하는것이 효과적이다.

 

다음으로는 이상치 탐지와 지도학습의 차이에 대해 알아보고자 한다.

지도학습과 이상치 탐지는 정답값의 비율이 크게 차이가 난다. 

 

이상치탐지의 문제점중 하나는 때때로 p값이 정상치, 이상치에 무관하게 높다고 판단한 다는 것이다(정상치라고 판단)

이에대한 해결방법중 하나로는 다양한 특성들의 결합으로 새로운 특성을 만들어 내는 것이다.

예를들어 cpu load와 network traffic의 두 특성이 있는경우 이를 조합하여 새로운 특성을 만들고 그 특성에 대해 이상치탐지 알고리즘을 실행하는 것이다.

그럼에도 때때로 문제가 발생하는데

특성 x1과 x2가 서로 correlated하여 두 특성이 결합되었을 때 새로운 특성이 나오는 경우 이를 알기 어려울때 문제가 발생한다.

위 왼쪽 그래프에서 세개의 파란x는 이상치탐지에서 동일한 이상확률을 가진다.

하지만 한개의 x만 정상범주로 보이고 나머지 2개는 이상치로 판단된다.

이러한 문제를 해결하기위해 multivariate gaussian을 이용한다.

이러한 multivariate gaussian에서는 correlationmatrix sigma를 통해 gaussian distributiond을 다양하게 이용할 수 있다. 즉, 축과 평행한 타원만 가능한것이 아닌 다양한 축의 타원형 그래프를 만들 수 있게 된다.

사실 위에서 배운 일반적인 가우시안 distribution은 multivariate한 form의 특수한 형태이다. 즉 correlation matrix sigma의 대각성분을 제외한 성분들이 0 일때가 된다.

이렇게 본다면 multivariate gaussian이 월등히 좋은것 처럼 보이지만

연산량이 많아지고 속도가 매우 오래걸린다.

또한 데이터수가 많지 않은경우 사용하기 불리하고

데이터 수가 feature 수보다 적은 경우에는 아예 사용이 불가능하다(sigma matrix is not invertable)

반응형