분당아재의 솔직한 블로그

2013년 빅데이터 프로젝트에 대한 짧은 생각

IT산책

2013년의 IT화두는 단연 빅데이터입니다.

이 추세는 내년 2014년까지 유지될 것입니다. 창조경제의 한 축으로 ICT를 좀 밀고 있는 분위기이고

각 기관에서 빅데이터를 기반으로 갖가지 사업을 진행하기 때문입니다.

 

사실 요즘 공공기관에서는 "빅데이터"란 단어를 쓰지 않으면 IT 관련된 예산을 집행하지 못하는 분위기이기 때문에

SW를 도입하건 홈페이지를 구축하건 빅데이터를 한 꼭지로 잡는 실정이기도 합니다.

 

관련된 컨퍼런스도 많았습니다.

빅데이터의 정의를 제각각의 입장에서 정리하고 이렇게 저렇게 진행하는 것이 빅데이터이다... 라고

업체마다 서로 주장을 하고 있죠.

 

DB쪽에서는 빅데이터를 저장에 포커스를 두어서 이야기를 하면서

NoSQL쪽을 견제하는 분위기입니다.

Hadoop, MongoDB와 같은 NoSQL이 시장에서 어느정도 회지가 되고 있기에

철저하게 배제하지는 못하니까 전략을 좀 바꾸기도 합니다.

 

즉, 소셜데이터, 로그데이터 같은 대용량 데이터는 DB에 저장하지 말고 NoSQL에 저장해라.

그대신 조직도, 기관 내부 데이터와 같이 의사결정에 필요한 중요한 데이터는 DB에 저장해라...

이렇게 말이죠.

 

그 전략이 얼마나 먹힐지는 내년에 좀 지켜봐야 할 듯 합니다만,

NoSQL의 시류가 워낙 강해서 쉽진 않을 것 같기도 합니다.

 

빅데이터에 대한 정의도 슬슬 변해하는 것 같습니다.

아직까지 빅데이터에 대한 명확한 정의를 내리긴 어려운 것 같구요.

 

데이터가 많은 것이 빅데이터 아니다...

빅데이터를 Insight를 수반해야 한다...

소셜과 함께 분석하는 것이 빅데이터이다...

등등 여러가지 내용이 있지만 냉정히 보면 업체입장에서 해당 SW를 납품하기 위한 시도처럼 보이기도 합니다.

 

그럼에도 불구하고

올해 몇몇 빅데이터 사례를 보면 분야별로 크게 구분되는 것은 있습니다.

 

빅데이터 프로젝를 할 때

수집 --> 저장 --> 분석 --> 보고(Visualization)이 그것입니다.

 

수집은 Web, Social 데이터를 수집하는 외부데이터 수집과 내부 데이터를 수집하는 것입니다.

내부 데이터 수집은 이전과 크게 달라지는 것이 없으니

외부 Web & Social 데이터를 수집하여 어떤 분석결과를 도출할 수 있는가가 사업에 촛점이 되고 있습니다.

 

저장은 위에서 말씀드린 바와 같습니다.

NoSQL과 DB쪽이 치열하게 맞붙는 거 같습니다.

어느쪽이 낫다라고 단정하긴 어렵고 사업의 규모와 성격에 따라 결정해야 합니다.

 

분석쪽은 감성분석으로 대표되는 긍부정분석과 각종 시계열분석, 정량통계 분석 등이 그 내용입니다.

수집된 내외부 비정형 데이터를 정형화하여 어떻게 분석하는지가 핵심입니다.

 

고객들의 요구사항이 일정하지 않고

그 수준도 상이하여 업체들이 힘들어 하는 부분 중에 하나입니다.

 

Visualization은 분석엔진을 통한 결과를 시각적으로 표현하는 부분입니다.

빅데이터 프로젝트에서 상대적으로 쉬운 영역이 아닌가 생각합니다.

보통은 Tool을 선택하여 분석엔진과 연계하는 것으로 진행되는 것 같습니다.

 

이런 절차를 한 곳에 모으면 아래와 같은 그림으로 표현됩니다.  

위 그림이 빅데이터 사업의 모든 내용을 담고 있는 것은 아닙니다만,

올해 진행된 몇몇 사업에 대한 내용은 담고 있다고 생각합니다.

 

내년에는 Web, Social 데이터와 기상데이터, 위치데이터와 같은 외부에서 얻을 수 있는 또다른 형태의 데이터를

내부 데이터와 교차분석하여 insight를 추출하는 빅데이터 사업이 많은 것으로 예상됩니다.

 

할 수 있는 것이 많이 있을 것으로 예상되는데요.

내년으로 위해서 또 고민을 해야겠습니다.

 

조금이나마 참고가 되시길...