[졸업작품] (팀원들과 얘기 덜 됨) KDD CUP'99 Dataset은 안될 듯
물론 논문을 읽고 분석하는(사실 아직 분석할 능력 없음) 이유는 당연히 search 한 keyword, topic에 대해 더 자세히 알고 싶기 때문이겠지만 아직 이쪽 분야에 지식이 많지 않은터라 논문을 읽으면서 일반적인 지식을 얻게 되는 경우도 종종 발생한다. 아직 팀원들과 얘기가 끝나지 않았지만 KDD CUP'99 Dataset은 일단 목록에서 제외시켜야 되게 생겼다. 혹시 그 이류를 직접 알고 싶다면 A Detailed Analysis of KDD CUP '99 Data Set 링크를 걸어둘테니 직접 읽어보시는 것도 좋을 것 같다.
KDD CUP 99 데이터
KDD CUP 99년도 데이터는 20년이 넘었음에도 불구하고 정말 많이 연구에 활용되는 데이터 이다. 1998년에 미국 DARPA(Defense Advanced Research projects Agency)는 IDS(Intrusion Detection System) 평가 프로그램을 진행했다. 이 때 군사 네트워크 환경을 만들어 시뮬레이션을 통해 얻어진 네트워크 트래픽의 tcp dump 데이터를 가공해서 만든 것이 KDD Cup '99 데이터이다. 이 데이터에는 총 4가지의 공격 종류가 들어가 있는데 DoS(Denial of Service Attack), U2R(User to Root Attack), R2L(Remote to Local Attack), Probing attack이다.
- DoS : 공격자가 특정 시스템 자원 전체를 점유하거나 대역폭 또는 시스템 자원에 장애를 발생시켜 정당한 사용자들의 접근을 거부하는 형태의 공격 (→ 우리가 분석하고자 하는 APT와는 거리가 멈. 애초에 DoS는 너무 고전 공격임)
- U2R : 공격자가 특정 시스템에 일반 사용자 권한으로 접근한 다음 buffer-overflow와 같은 공격으로 취약점을 이용해 루트 권한을 획득하는 형태의 공격(→ 사용 가능할 듯)
- R2L : 공격자가 호스트 장비의 취약점을 이용하여 인증되지 않은 접근 권한을 다양한 방법으로 획득하여, 호스트 장비에 불법적으로 접근하는 공격 방법 (→ 사용 가능할 듯)
- Probe : 다른 공격을 준비하는 단계로서 네트워크 상에 존재하는 IP 주소, 제공되는 서비스의 콘텐츠 또는 운영체제의 종류 등과 같은 정보를 획득하거나 특정 시스템의 취약점을 찾는데 중점을 둠. (→ 애초에 무관한 듯?)
무엇이 문제인가
논문 전체가 이 데이터 셋의 결함에 대해 이야기 하고 있다. 내재적 문제, 통계적 문제 등 다양한 관점에서 이야기 하고 있지만 결국 문제가 있음을 지적하고 있어서 확실하게 이해한 몇 가지만 나열하려고 한다.
- tcp dump 데이터는 overload 되었을 가능성이 높아 traffic load가 높을 때 packet들을 중간에 유실했을 가능성이 있으나 고려 되지 않음.
- 공격에 대해 정확한 정의가 내려져 있지 않음. 가령, buffer overflow를 일으킨 packet이 있다고 하여 반드시 공격은 아니며 probing은 반복 횟수가 특정 임계를 넘기지 않으면 공격 목적을 띄지 않는다.
- test data에 DoS attack(smurf, neptune)이 71%를 차지 하고 있는다. 즉, 모델이 DoS만 잘 판별하더라도 정확도가 높아진다. 거기에 사실 smurf나 neptune은 traffic을 매우 늘리기 때문에 anomaly detection system을 만들면서 탐지할 필요가 없다. 그냥 보인다.
- 중복된, 무의미한 record가 지나치게 많다.
그래서 결론은?
이 논문에서 나온 데이터가 NSL-KDD 데이터이다. 새로운 데이터라기 보다는 조금 지저분했던 KDD Cup 데이터를 잘 정제하고 고르게 분포시켰다고 볼 수 있다. (test data의 distribution이 고르지 않음을 증명함) 그래서 NSL-KDD로 한번 해볼까... 라는 생각 중이다.
출처 : [1]M. Tavallaee, E. Bagheri, W. Lu, A. Ghorbani, "A Detailed Analysis of the KDD CUP 99 Data Set", IEEE Symposium on Computational Intelligence in Security and Defense Application(CISDA 2009) [2] 조정래, 성행남, 안병혁 "의사 결정트리와 인공 신경망 기법을 이용한 침입탐지 효율성 비교 연구", 디지털산업정보학회 논문지 제11권 제4호 -2015