본문 바로가기

MACHINE LEARNING

대용량 데이터의 저장 : 빅데이터 및 필요한 저장 장치의 유형 정의

이 글은 ComputerWeekly 에 올라온 글을 번역한 것입니다. 저자에게 번역에 대한 허가를 받지 않았기에, 언제든 삭제 될 수 있습니다. 오역이 있을 수 있으니, 가능하면 원글을 읽는 것이 좋습니다. 

 

대용량 데이터의 저장 : 대용량 데이터 분석을 사용하는 컴퓨팅 / 스토리지 시스템 구성 요소의 종류는 무엇입니까?

지난 1~2 년 동안 비즈니스 IT에서 빅데이터가 핵심 단어로 떠올랐습니다. 서플라이어가 마케팅 자료로 빅데이터를 다양하게 활용하려고 하기 때문에 쉽게 시니컬해질수 있습니다. 

 

빅데이터 란 무엇입니까?

빅데이터 현상에 대한 가장 단순한 설명은 한편으로는 다량의 데이터에 관한 것이고 다른 한편으로는 대용량 데이터 세트에 대한 분석 입니다.

표면적으로는 데이터의 양이나 분석 요소 중 어느 것도 실제로 새로운 것이 아닙니다. 수년 동안 기업 조직은 증가하는 데이터 저장소를 축적해 왔습니다. 일부 사람들은 대규모 데이터 세트에서 가치를 얻기 위해 해당 데이터에 대한 분석을 실행했습니다.

예를 들어, 수십 년 동안 지진 데이터로부터 지하 매장량을 모델링하기 위해 고성능 컴퓨팅(HPC) 시스템을 통해 매우 큰 데이터 세트를 운영하고 있는 석유 및 가스 산업이 여기에 주목할 만합니다.

예를 들어, 기업이 비즈니스 가치를 위해 대규모 데이터 세트를 조사하는 데이터 웨어하우징에 대한 분석이 있었습니다.

그러나, 이 두 가지 예는 모두 빅데이터가 의미하는 바를 현대적 의미로 강조합니다. HPC 및 데이터웨어 하우징은 대용량 데이터 세트를 처리하고 분석을 수반하지만 압도적으로 많은 양의 데이터로 구성되어 있으며 일괄 적으로, 데이터웨어 하우징을 위해 하룻밤을, 그리고 연구를 위해 며칠 또는 수주에 걸쳐 운영됩니다.

이와 대조적으로 오늘날 빅데이터라고 하는 것은 대용량의 비정형 데이터 세트를 다루는 경우가 많으며 신속한 분석에 의존하며 몇 초 내에 응답을 제공합니다.

예를 들어 Facebook, Google 또는 Amazon은 사용자의 상태 또는 검색어를 분석하여 사용자 페이지에서 타겟 광고를 실행합니다.

그러나 빅데이터 분석은 이러한 거대 웹 사이트에만 국한되지 않습니다. 주식 시장 행동을 분석하는 데 관심이 있는 금융회사에서 부터 범죄 경향을 분석하고 예측하는 것을 목표로 하는 경찰 부서에 이르기까지 모든 종류의 조직은 이익을 얻을 수 있습니다.

 

대용량 데이터 저장의 핵심 요구 사항

빅데이터 저장의 핵심 요건은 매우 많은 양의 데이터를 처리하고 성장을 따라잡기 위해 계속 스케일링을 할 수 있으며, 데이터를 분석 도구에 전달하는 데 필요한 초당 입출력 연산(IOPS)을 제공할 수 있다는 것입니다.

거대한 빅데이터 실무자인 Google, Facebook, Apple 등은 하이퍼스케일 컴퓨팅 환경을 운영합니다.

이들은 DAS(Direct-Attached Storage)를 가진 방대한 양의 상품 서버로 구성됩니다. 리던던시는 전체 컴퓨팅/스토리지 장치의 수준에 있으며, 장치가 모든 구성 요소의 장애를 겪으면 미러로 대체 됩니다.

이러한 환경은 분석 엔진으로 Hadoop , NoSQLCassandra 를 실행 하며, 대체로 서버 또는 디스크 외에도 PCIe 플래시 스토리지만 있으면 스토리지 대기 시간을 최소화 할 수 있습니다. 이러한 유형의 구성에는 공유 저장 장치가 없습니다.

하이퍼스케일 컴퓨팅 환경은 현재까지 최대 규모의 웹 기반 운영을 유지해 왔지만 이러한 컴퓨팅/스토리지 아키텍처가 향후 주류 기업으로 물러날 가능성이 큽니다.

하이퍼스케일 시스템을 구축하는 데 대한 욕구는 기업이 많은 사내 하드웨어 구축 및 유지 보수를 수행할 수 있는 능력과 그러한 시스템이 덜 전문화된 시스템에서 많은 양의 애플리케이션을 처리하는 전통적인 기업 환경과 함께 제한된 작업을 처리할 수 있도록 정당화할 수 있는지 여부에 달려 있습니다.

하지만 하이퍼스케일만이 유일한 방법은 아닙니다. 많은 기업과 심지어는 아주 작은 기업들도 빅데이터 분석의 혜택을 누릴 수 있습니다. 그들은 상대적으로 큰 데이터 세트를 처리하고 신속하게 처리할 수 있는 능력이 필요하지만, 그것을 사용하는 조직이 몇 초의 응답 시간내에 사용자에게 광고를 보내는 것과는 완전히 동일한 응답 시간이 필요하지 않을 수 있다.

따라서 필요한 속성을 가진 빅 데이터 저장 시스템의 핵심 유형은 종종 스케일 아웃 또는 클러스터링된 NAS입니다.이것은 용량을 충족하거나 계산 요구 사항을 증가시키기 위해 확장할 수 있는 파일 액세스 공유 스토리지이며, 커짐에 따라 일반 파일 시스템에서 발생하는 성능 저하없이 수십억 개의 파일을 처리할 수 있는 많은 스토리지 노드에 분산된 병렬 파일 시스템을 사용합니다.

얼마 동안, 규모를 조정하거나 클러스터링된 NAS는 이실론과 블루아크와 같은 전문 공급업체와 함께 뚜렷한 제품 범주였습니다. 그러나 이러한 시스템의 중요성이 커지고 있는 것은 이 두 가지 모두 비교적 최근에 대형 스토리지 공급업체인 EMC와 히타치 데이터 시스템(EMC and Hitachi Data Systems)에 의해 각각 구입 되었다는 것입니다.

한편, 클러스터링된 NAS가 주류를 이루었고, 여기서 큰 변화는 FAS 파일러의 데이터 ONTAP OS에 진정한 클러스터링과 페타바이트/병렬 파일 시스템 기능을 통합한 NetApp과 함께였습니다.

매우 많은 수의 파일을 위해 만들어진 다른 저장 형식은 객체 저장입니다. 이것은 전통적인 트리와 같은 파일 시스템이 많은 수의 파일을 포함할 때 다루기 힘들다는 스케일 아웃 NAS와 같은 도전을 해결합니다. 객체 기반 저장소는 각 파일에 고유한 식별자를 부여하고 데이터와 위치를 색인화함으로써 이것을 해결합니다. 우리가 사용하는 파일 시스템보다 인터넷에서 DNS 방식과 더 비슷합니다.

객체 저장 시스템은 수십억 개의 매우 높은 용량과 많은 수의 파일로 확장될 수 있으므로 빅데이터를 이용하려는 기업들에게 또 다른 선택사항이 될 수 있습니다. 이렇게 말한 바에 따르면, 객체 저장은 규모를 조정한 NAS보다 덜 성숙한 기술입니다.

따라서 빅데이터 저장장치는 용량을 처리하고 분석 작업에 낮은 대기시간을 제공할 수 있어야 합니다. 하이퍼스케일 환경에서는 빅 보이(Facebook, Google, Apple)들처럼 행동하거나, 전통적인 IT 부서에서 NAS나 객체 저장소를 채택하여 작업을 수행할 수 있습니다.