티스토리 뷰

이 글을 후에 잘 정제시키게 될 지 모르겠지만 시간의 흐름에 따라 우리들의 판단의 흐름에 따라 전개가 될 예정이다. 이랬다가 저랬다가~ 이미 한 2번 계획이 바뀌었으니 앞으로 더 바뀌지 않는다고 보장할 수 없다. 뭐... 다른 글로 뺄 수도 있고

 

우리 프로젝트의 핵심은 로그 데이터에 놓여있다고 해도 과언이 아니다. 당연하지, 분석이 가장 중요한 업무니까. 그러니까 제목 그대로 보안 로그 데이터를 구해야 한다. 다만 공격이 발생한 로그도 있어야 한다는 제약이 치명적일 뿐이다. 정상 로그와 공격 로그가 함께 있는 데이터가 필요한데 이 데이터를 구할 수 있는 방법이 몇 가지 있다. 1) 실제 기업/기관의 보안 로그 구하기, 2) 허니팟을 구축해서 누군가가 공격하기를 기다리기, 3) 가상 웹을 만들어 로컬로 로그를 쌓고 의도적으로 SQL injection과 같은 공격하기, 또는 4) 오픈 데이터를 활용하기.

 

계획 1 : 허니팟 구축하기

사실 초기 계획은 허니팟을 구축하는 것이었다. 그런데 뭐 가치 있는 정보가 있는 것도 아니고, 몇 주 남지 않은 기간 동안 어떤 누가 들어와서 공격을 하겠는가 말이다. 그래서 세운 계획은 로컬로 웹을 구축해서 우리가 자동화를 통해 강제로 로그를 만들자.

 

계획 2 : 가상 웹에 강제로 로그 생성하기

조금만 생각해보면 고개를 절레 절레 젓게 된다. 애초에 이 프로젝트의 목적은 APT 공격에 재빠르게 대처를 하지 못하는, 전문 보안시스템을 구축할 자금력이 부족한 중소/견 기업을 위해 모델을 만드는 것이다. 자 그런데 자동화로 로그를 생성한다? 너무 허접할 뿐더러 프로젝트 자체가 무의미 해진다. 공격도 우리가 만들어야 되는데 뭐... 아무튼 허접하다. 한이음에서 이전에도 이런 프로젝트가 진행된 적 있는데 허접하게 끝난 것 같은 팀이 있어서 좀 아니라고 본다.

 

계획 3 : 실제 기업/기관의 보안 로그 구하기

음 교수님과 면담을 해보니, 관련 프로젝트를 하고 있으셔서 '줄 수 있을 것 같다'라는 대답을 받았다. 그러나 시간이 조금 걸릴 것 같다는 팔로업을 받았고, 로그가 어떻게 생겼는지 구경할 기회는 주셨다. 이메일로 받아본 로그 데이터의 생김새는 그야말로... 음.... 해괴망측했다. labeled data도 아니었고, feature도 없었다. 깔끔하게 테이블로 되어 있을 것이다라고 생각했던 우리가 멍해지는 순간이었다. 교수님께 여쭤보니, "너네가 본 깔끔한 테이블은 다 전처리하고 깔끔하게 만든거지." 우리가 labeled data를 받게되더라도(교수님께서 회사의 보안팀에 물어는 보겠으나 확답은 줄 수 없다고 하심) feature 파악을 못할 것 같았다. 그래서 암묵적으로 계획 수정에 나섰다. 오픈 데이터를 쓰자.

 

계획 4 : Open Data

오픈 데이터를 쓰는 것으로 암묵적으로 통하고 있다. 그래서 오픈 데이터들을 서칭하고 있는데 하 막막하다.

뭐 밑에 잘랐지만 public datasets의 종류다 (출처 : https://www.sciencedirect.com/science/article/pii/S2214212619305046)

일단 가장 유명하다고 하는 KDD Cup '99 Dataset (75번 인용)으로 시작해보자.

...라고 했지만 내 결론은 KDD Cup 데이터는 쓰지 말자. 이유는 다음 포스팅에

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함