본문 바로가기

MACHINE LEARNING

빅 데이터

Pixabay로부터 입수된 Gerd Altmann님의 이미지 입니다. 

이 글은 WOrDS 에 올라온 글을 번역한 것입니다. 저자에게 번역에 대한 허가를 받지 않았기에, 언제든 삭제 될 수 있습니다. 
오역이 있을 수 있으니, 가능하면 원글을 읽는 것이 좋습니다. 

요즘 '빅 데이터'라는 용어가 모든 곳에서 보여집니다. '빅 데이터'는 전통적인 데이터베이스 시스템을 사용하여 관리하기 어려운 데이터 세트를 지칭하기 위해 사용됩니다. 또한, 단일 서버에서 처리하기에는 너무 큰 데이터 모음에 대해서 포괄적인 용어로도 사용됩니다. 어떤 사람들은 이 용어를 단순히 "많은 데이터"를 의미하는 것으로 사용합니다. 그렇다면 빅 데이터는 정확히 무엇입니까?

'빅'의 정확한 사양은 파악하기 어렵습니다. 한 조직에서 큰 것으로 간주되는 것이 다른 조직에서는 작을 수 있습니다. 현재 대규모의 데이터가 가까운 미래에는 소규모로 보일 것입니다. 따라서 크기만으로는 빅 데이터를 지정할 수 없습니다. 데이터의 복잡성도 중요하게 고려해야합니다.

이제는 Gartner의 Doug Laney가 만든 3V의 빅 데이터 특성에 대부분 동의합니다.

  • 볼륨(Volume) : 디지털화 된 세상에서 초/분/시/일 마다 생성되는 엄청난 양의 데이터를 의미합니다.
  • 속도(Velocity) : 데이터가 생성되는 속도와 데이터가 한 지점에서 다른 지점으로 이동하는 속도를 나타냅니다.
  • 다양성(Variety) : 텍스트, 이미지, 음성, 지형 공간과 같이 데이터의 형태가 계속 증가하고 있음을 나타냅니다.

네 번째 V가 때때로 추가 되기도 합니다.

  • 진실성 (Veracity) : 이는 데이터의 품질을 나타내며 크게 다를 수 있습니다.

위의 V는 빅 데이터의 특성을 나타내는 차원이며 문제도 구체화합니다. 우리는 다른 형식과 다양한 품질의 엄청난 양의 데이터를 신속하게 처리해야합니다.

빅 데이터 처리의 목표는 의사 결정을 지원하기위한 통찰력을 얻는 것입니다. 데이터를 캡처하고 저장할 수있는 것만으로는 충분하지 않습니다. 복잡한 데이터를 수집하고 처리하는 요점은 추세를 이해하고, 숨겨진 패턴을 발견하고, 변형을 탐지하여 분석되는 문제를 보다 잘 이해하고, 정보에 근거한 데이터 중심의 의사 결정을 내릴 수 있게 하는 것입니다. 사실 많은 사람들은 빅 데이터의 다섯 번째 V로서 가치를 고려합니다.

  • 가치(Value) : 빅 데이터를 처리하면서 얻은 통찰력으로 가치를 창출해야 합니다.

빅 데이터의 문제점을 해결하려면 혁신적인 기술이 필요합니다. 대용량 데이터를 분석하려면 병렬, 분산 컴퓨팅 패러다임, 확장 가능한 기계 학습 알고리즘 및 실시간 쿼리가 중요합니다. 대용량 데이터를 처리하기위한 인프라를 제공하려면 분산 파일 시스템, 컴퓨팅 클러스터, 클라우드 컴퓨팅 및 데이터 다양성과 민첩성을 지원하는 데이터 저장소가 필요합니다. 워크 플로우 는 재사용 가능하며 확장 가능하고 재현성있는 방식으로 큰 데이터를 처리하여 검증 가능한 값을 얻고 동일한 데이터 세트에 동일한 방법을 적용 할 수 있게 합니다.

소셜 미디어, 스마트 센서, 위성, 감시 카메라, 인터넷 및 기타 수많은 장치에서 생성 된 모든 데이터를 통해 빅 데이터가 우리 주변에 있습니다. 그 데이터를 이해하려는 노력은 참으로 흥미 진진한 기회를 가져옵니다!