빅데이터와 오늘날 비즈니스 모델의 창조적 파괴

ARCHIVE/MACHINE LEARNING 2019. 4. 5. 13:35

코세라의 빅데이터 스페셜코스 수강중 제공 받은 문서를 학습하기 위해 번역한 내용입니다. 원본은 아래 첨부파일을 확인하시면 됩니다.

Big Data and the Creative Destruction of Todays Business Models.pdf

빅데이터는 기존 기술로는 처리하기가 사실상 불가능한 엄청나게 큰 데이터 세트로, 이를 활용하는 법을 배우는 기업들에게 큰 이점을 제공한다.

유명한 20세기 경제학자 조지프 슘페터(Joseph Schumpeter)는 “혁신은 그들의 본성 덕분에 큰 발전과 큰 변화를 암시한다 ... 그 이후에는 그전에 최적이었던 ‘일을 하는 방법’은 거의 남아 있지 않게 된다.”고 말했다.

슘페터의 말은 빅데이터가 오늘날의 비즈니스 모델을 창조적으로 파괴할 가능성이 있다는 것을 보여준다. 세상은 매일 매 순간 데이터가 넘쳐나고, 속도가 느려지지 않는다. 2012년에만 2.5제타바이트(1 제타 바이트는 대략 1000 엑사 바이트 또는 10 억 테라 바이트와 같다.)의 데이터가 생성되었고, 추세는 매년 비즈니스 데이터의 양이 크게 증가할 것이라는 것을 나타낸다(그림 1 참조). 다음 통계를 생각해보라.

그림 1. 데이터는 연간 40 %의 복합 비율로 증가하여 2020 년까지 거의 45 ZB에 도달합니다.

매일 25억 바이트의 데이터가 만들어지며, 지난 2년 동안만 세계 데이터의 90퍼센트가 만들어진다. - “Bringing Big Data to the Enterprise,” IBM, 2012
데이터 생산은 2009년보다 2020년에 44배 더 커질 것이다. - “A Comprehensive List of Big Data Statistics,” Wikibon Blog, 1 August 2012
전세계의 비즈니스 데이터 양은 1.2년마다 두 배로 증가할 것으로 예상된다. - “eBay Study: How to Build Trust and Improve the Shopping Experience,” KnowIT Information Systems, 8 May 2012
월마트는 시간당 100만 건의 고객 거래를 처리하며 2.5페타바이트 이상의 데이터를 포함하는 것으로 추정되는 데이터베이스에 저장된다. - “Big Data Meets Big Data Analytics,” SAS, 2011
엄청난 데이터 유입으로 IT 인프라가 어려워지고 있다. 최근의 한 조사에서, 55퍼센트의 임원들은 데이터가 IT 시스템을 느리게 하고 있다고 말했다. - “Global Survey: The Business Impact of Big Data,” Avanade, November 2010
데이터 관리가 좋지 않으면 비즈니스 운영 수익의 35퍼센트까지 비용이 들 수 있다. - “‘Big Data’ Facts and Statistics That Will Shock You,” Fathom Digital Marketing, 8 May 2012

빅데이터는 변혁적일 것이라고 약속한다. 컴퓨팅 자원이 진화하면서 발전하고 있다. 데이터 크기와 복잡성을 보다 잘 처리하기 위해, 기업들은 더 많은 이점을 얻을 수 있다. 빅데이터의 진화(그림 2)를 참조하라. 빅데이터가 기업의 중역실과 IT 부서에서 뜨거운 주제라는 것은 놀랄 일이 아니다. 최근 A.T. Kearney IT 혁신 연구(“IT Innovation Spurs Renewed Growth” at www.atkearney.com)에 따르면 지난 2년 동안 45% 이상의 회사가 비즈니스 인텔리전스 또는 빅 데이터 이니셔티브를 구현했다. 더 많은 연구 결과(“Big Data Market Set to Explode This Year, But What is Big Data?,” Smart Planet, 21 February 2012)에 따르면 Fortune 500 대 기업의 90 % 이상이 1년 이내에 적어도 하나의 빅 데이터 이니셔티브를 진행할 것으로 추정된다. 이러한 흐름을 효과적으로 사용하면 최상위 부터 하단까지 혜택을 제공할 수 있다 (그림 3 참조). 이 분야의 빌딩 기능은 전통적인 세그먼트 및 기능의 성능을 향상시킬뿐만 아니라 제품 및 서비스 제공을 확장할 수 있는 기회를 창출한다.

금융 서비스와 같은 일부 산업에서 빅데이터는 완전히 새로운 비즈니스 모델을 촉진했다. 예를 들어 알고리즘 거래는 이제 엄청난 양의 시장 데이터를 분 단위로 분석하여 거의 즉시 가치를 포착할 수 있는 기회를 확인한다. 이는 10년 전에는 할 수 없던 프로세스이다. 소매 부문에서 빅데이터는 매장 내 구매 행동 분석을 거의 실시간으로 신속하게 수행한다. 수요 변화에 대한 빠른 통찰력을 통해 매장은 상품, 재고 수준 및 가격을 조정하여 판매를 극대화할 수 있다.

산업 전반에 걸쳐 빅 데이터는 성장을 촉진하고 비용 절감 기회를 공개하기 위해 대규모 처리 기능과 결합된 대규모 데이터 세트를 생성할 수 있다. 모든 산업은 다양한 접근법을 사용하고 마케팅에서 공급망에 이르기까지 다양한 측면에 초점을 맞추지만, 거의 모든 것이 분석과 빅데이터를 활용하는 변형에 몰두하고 있다(그림 4 참조). 정부 역시 이러한 변화에서 제외되지 않는다. 빅 데이터 및 분석은 국민에 대한 서비스를 개선하고 납세자 기금을 최적화하며 무인 차량 및 항공기와 같은 고급 무기로 국가를 보다 잘 보호하는 데 사용된다.

그림 4. 산업계는 빅데이터를 이용해 비즈니스 모델을 변형시키고 많은 분야에서 성과를 향상시키고 있다

빅데이터 정의

빅데이터는 일반적으로 네트워크를 통해 프로세스 또는 스토리지 장치로 쏟아지는 구조화 및 비 구조화 데이터의 3Vs (volumn, variety, velocity)와 해당 데이터를 사용 가능한 비즈니스 정보로 변환하는 것을 의미한다.

Volumn. 오늘날 생성되는 데이터의 양은 전문 기술로만 처리 및 관리할 수 있다. 기술 발전의 완전한 능력을 활용하는 것이 빅데이터의 잠재력을 푸는 열쇠다.
Velocity. 유용한 결과를 제공하기 위해 빅 데이터가 처리되는 속도이다.
Variety. 통찰력을 이끌어 낼 수 있는 다양한 데이터 유형과 소스이다.

본질적으로 빅 데이터는 3Vs를 지원하는 인프라, 데이터 소스, 소프트웨어 및 기술의 집합체로서 전통적인 비즈니스 인텔리전스 방법으로 가능한 것보다 더 적절하고 적시에 분석을 수행할 수 있다.

그러나 빅데이터가 무엇인지, 그리고 미래에 어떤 의미가 있는지를 완전히 파악한 조직은 거의 없다. 빅데이터 이니셔티브를 실행하는 사람들은 중요한 능력을 구축하기보다는 물을 시험하는 실험으로 그렇게하는 경향이 있다. 그리고 빅데이터가 제공하는 기회를 놓치지 말아야 한다고 믿는 조직은 없지만, 가장 큰 보상은 조직, 역량, 산업을 어떻게 변화시킬 수 있는지에 대한 명확한 비전을 가진 사람들에게 돌아간다고 믿는다.

가장 어려운 부분은 어떻게 시작해야 하는지 아는 것이다. 이 변화 여정의 시작 부분에 네 가지 질문을 해야 한다.

빅데이터와 분석은 우리 회사에 이점을 창출할 수 있는가?
빅데이터와 분석의 이점을 포착하기 위해 어떻게 조직해야 할까?
어떤 기술 투자가 분석 능력을 가능하게 할 수 있는가?
빅데이터 여행은 어떻게 시작해야 할까?

빅데이터와 분석이 우리 회사의 장점을 창출할 수 있는 곳은 어디일까?

빅데이터가 경쟁 우위를 이끌어낼 수 있는 곳을 이해하는 것은 그 가치를 실현하는 데 필수적이다. 많은 기업에서 빅데이터에서 얻은 통찰력은 이미 고객 친밀감, 제품 혁신 및 운영이라는 세 가지 영역에서 수익성 있고 지속 가능한 성장을 가져 왔다.

고객 친밀감

빅데이터는 고객을 기업 전략의 핵심으로 만든다. 조직에는 대화형 웹 사이트, 온라인 커뮤니티, 정부 및 타사 데이터 뱅크의 고객 데이터가 넘쳐난다. 페이스북과 같은 소셜 미디어 플랫폼은 특히 사용자들이 매일 300억 개에 달하는 콘텐츠를 공유하고 있다. 동시에 날씨 데이터, 문화 행사 및 고객 연락처 정보와 같은 내부 데이터를 포함하여 서로 다른 소스로 소셜 미디어 피드를 통합할 수 있다. 또한 고급 분석 도구를 사용하면 빠르고 효과적이며 비용이 적게 드는 처리가 가능하고 새로운 통찰력을 신속하게 개발할 수 있다.

하지만 당신은 이것을 알고 있다. 그렇다면 빅데이터가 어떻게 전개되고 있는지에 대한 실제 사례를 살펴보자. 미국에 본사를 둔 한 소매 은행은 소셜 미디어 활동을 조사하여 위험에 처한 고객을 식별하고 아시아 은행은 고객 전화 오디오 로그를 분석하여 진정한 감정을 수집합니다. 이런 의견 수집은 직접적인 피드백을 포착할 뿐만 아니라 고객 조사의 고유한 편향을 피할 뿐만 아니라 고객 및 성과 목표를 신속하게 개발합니다. 더 이상 전략 전술을 결정하기 위해 월간 보고서를 기다리지 않습니다.

마찬가지로 미국의 소매업체 메이시는 빅데이터를 이용해 고객 중심적인 구색을 만든다. 과거에 메이시의 분석 데이터 포인트(매진 비율, 주식 외, 가격 판촉)는 머천다이징 계층에서 분석되었다. 그러나 빅데이터를 이용해 특정 시점과 장소에서 제품이나 SKU 수준에서 이 데이터 포인트를 분석한 다음 특정 시점과 장소에서 특정 제품을 판매할 확률을 측정하기 위해 수천 가지 시나리오를 생성할 수 있다.

... 기업의 45 %가 비즈니스 인텔리전스 또는 빅 데이터 이니셔티브를 구현했습니다 ... Fortune 500 대 기업의 90 %가 올해 적어도 하나의 빅 데이터 이니셔티브를 진행할 것입니다.

온라인 비즈니스의 경우 빅데이터는 실시간으로 오퍼레이션을 사용자 정의하는 데 도움이 됩니다. 아마존은 ‘이 아이템을 구입한 고객’ 지역에 제품을 전시함으로써 수년간 이런 일을 해 왔다. 오프라인 광고에서 빅 데이터는 광고 배치를 지원하여 어떤 TV 프로그램이 다른 고객 세그먼트에 가장 큰 영향을 미칠지 결정합니다. 오늘날의 기술은 패턴 매칭을 뛰어 넘습니다. Bluefin Labs는 고급 기술을 사용하여 비디오를 "보고"오디오를 "듣기"하여 TV 쇼 장르가 어떤 광고를 선호하는지 배우기 위해 오디오를 사용합니다. 마이크로 세그먼트 수준에서 마케팅 전술을 정의하는 것은 광고 투자에 대한 높은 수익을 의미합니다.

2012년 미국 대선에서도 빅데이터가 중요한 요소였다. 방대한 양의 대조를 통해 민주당은 투표, 기금 모금, 자원 봉사자 및 소셜 미디어에 관한 데이터를 중앙 데이터베이스에 포함시켜 개별 유권자의 온라인 활동을 평가하고 캠페인 전술이 오프라인 결과를 산출하는지 여부를 확인할 수 있었습니다.(“Corporations Want Obama's Winning Formula,” Bloomberg Businessweek, 21 November 2012) 목표 공유 프로그램은 예외적으로 높은 투표율을 올리는 데 사용되어 선거에서 승리하는 열쇠가 되었습니다.

제품 혁신

모든 빅데이터가 새로운 데이터는 아니다. 과거에 생성된 풍부한 정보는 사용되지 않거나 적어도 효과적으로 사용되지 않습니다. 한 예 : 저소득층 차용인에게 대출한 돈 대출 기관인 ZestCash가 신용 위험을 확인하기 위해 휴대 전화 기록을 대리로 사용하기 시작했을 때 회사는 마진을 20 % 향상 시켰습니다. 새로운 빅데이터 기회는 전 세계적으로 급증하여 많은 출처의 데이터를 수집하고 구성하거나 오프라인 정보를 수집합니다. 미국에 본사를 둔 액시옴은 공공 기록, 조사, 연간 50조 건의 데이터 거래에서 수집한 5억 명의 고객에 대해 1,500개의 데이터 포인트를 가지고 있다(“Mapping and Sharing the Consumer Genome,” The New York Times, 16 June 2012). 이러한 추세의 이면은 찾기 어려운 데이터에 액세스하는 것을 전문으로하는 기업에 대한 위협입니다. 한때 독점적인 정보 였던 부동산 데이터는 이제 공공 및 민간 출처에서 수집할 수 있습니다.

일단 캡처된 일부 데이터는 기존 회사가 수익을 창출하고 새로운 방식으로 제품을 개선할 수 있게합니다. GE는 제트 엔진, CT 스캐너, 인터넷을 통해 테라바이트의 데이터를 GE 제품 엔지니어에게 보내는 센서로 무장한 발전기를 포함한 새로운 유형의 "연결 장비"를 계획하고 있습니다. 이 회사는 그 정보를 사용하여 제품을보다 효율적으로 만들고 고객에게 매년 수십억 달러를 절약하고 GE를위한 새로운 사업을 창출할 계획입니다(“GE Tries to Make Its Machines Cool and Connected,” Bloomberg Businessweek, 6 December 2012).

모든 빅데이터가 새로운 데이터는 아니다. 과거에 생성된 풍부한 정보는 사용되지 않거나 적어도 효과적으로 사용되지 않습니다.

크라우드소싱과 다른 소셜 제품 혁신 기법은 빅데이터 때문에 가능하다. 이제 구조화되지 않은 데이터의 불협화음인 수억 개의 풍부한 트윗을 소비자와 공감하는 제품 및 서비스에 대한 통찰력으로 변형할 수 있습니다. 이 작업의 핵심은 정교한 기계 기반 계산 언어학을 사용하여 회사의 제품 포트폴리오 및 고객에 대한 시간적 정서 분석을 수행하는 능력입니다. 결과 산출물은 제품 마케팅 및 제품 혁신 전략을 알려줍니다.

데이터와 관련 분석 또한 독립 실행 형 제품이되고 있습니다. 기술 및 분석 회사는 예를 들어 소매 업체와 공급 업체 간의 거래 데이터를 수집하고 분석하는 것과 같은 데이터로부터 풍부한 통찰력을 제공하는 것으로 나타났습니다. 이 데이터를 소유하고 분석을 중요하게 생각하는 소매 업체는 운영을 개선하고 고객에게 추가 서비스를 제공하며 현재 이러한 서비스를 제공하는 타사 조직을 대체하여 완전히 새로운 수익 흐름을 창출할 수 있습니다.

마지막으로, 비즈니스 문제나 가설을 세우고, 어떤 것이 작동하는지, 어떤 것이 작동하지 않는지, 어떤 것이 작동하는지, 어떤 것이 작동하는지, 어떤 것이 작동하지 않는지, 정제하고, 반복하는 대규모 데이터 세트를 이용해 실험을 실행하는 데 잠재적인 빅데이터가 어떤 영향을 미칠지 상상해보라. 페이스 북은 매일 수천 건의 실험을 실시하며한 세트의 사용자는 다른 기능과 다른 기능을 봅니다. Amazon은 다양한 고객에게 다양한 콘텐츠와 동적 가격을 제공하고 적절하게 조정합니다.

운영

공급망 데이터는 무선 주파수 식별 (RFID) 및 마이크로 센서를 통해 캡처 된 물리적 제품 이동을 포함하여 다양한 정보 풍부 상호 작용을 제공합니다. 예를 들어 에어버스의 가치 사슬 가시성 프로그램은 RFID 판독기, 모션 센서, 컨베이어를 사용하여 프로세스, 재료 및 자산 이동을 실시간으로 모니터링합니다. 이 범위는 공급 업체, 제조 사이트, 고객 및 서비스 파트너간에 걸쳐 이루어지며 재고 감소, 생산성 향상 및 비용 절감을 초래합니다.

소매 체인은 상세한 SKU 재고 정보를 사용하여 다른 매장에서 판매 될 수 있는한 매장의 초과 재고를 식별합니다. 이전의 신속한 역방향 물류 접근법은 상위 100 대 SKU만을 식별 할 수 있었지만 빅 데이터 접근법은 여러 테라 바이트의 운영 데이터 전체 데이터를 취하고 수천 개의 매장에서 SKU의 포괄적 인 모델을 만듭니다. 체인은 매장 초과 주식에서 수억 달러를 신속하게 다른 여러 매장으로 이전했으며 이후 과다 공급을 제한하기 위해 예측 모델을 구축했습니다. 이 체인은 이제 가격 책정, 홍보 및 충성도 카드 데이터를 포착하여 고객이 구매한 이유,시기 및 이유에 대한 더 깊은 통찰력을 창출합니다.

빅데이터 분석을 위한 가장 효과적인 비즈니스 모델은 비즈니스 인텔리전스를 위한 분산형 서비스와 분석을 위한 독립형 공유 서비스를 결합한 것입니다.

GE의 최신 R&D센터인 빌 루는 “GE의 가장 큰 사업체와 빅데이터를 결합하고 싶다”고 말했다. 블룸버그 비즈니스위크와의 인터뷰에서 GE는 GE 제트 엔진을 구입하는 항공사들이 GE캐피털에서 상업용 차량을 임대하는 기업들에게는 성능을 모니터링하고 유지보수 요구를 예상하는 데 도움을 줄 수 있다고 말했다. “뭔가가 악화되기 시작하고, 깨지기 전에 거기서 벗어나 고쳐나가는 것을 볼 수 있다면 그건 근본적인 변화야.”. “결국 모든 사람이 원하는 것은 예측 가능성입니다.” (“GE’s Billion-Dollar Bet on Big Data,” Bloomberg Businessweek, 26 April 2012)

이러한 기회는 데이터가 자본화 될 자산이라는 것을 이해하는 사람들을 위해 예약됩니다. 고객 정보가 저장 공간에서 정체되도록 허용하는 것은 낭비되는 기회입니다. 그리고 모든 데이터의 가치는 수집된 정보가 아니라 고객의 관점에서 정보를 보는 방법입니다. 이는 이익에 미치는 영향뿐만 아니라 변화하는 고객 선호도가 시장에 미치는 영향을 고려하는 것을 의미합니다. 예를 들어, 제품 홍보 효과를 고려할 때 경쟁사의 프로모션에 대한 데이터를 수집할 때 특히 대체 제품에 대한 데이터를 수집하면 고객 선호도가 어떻게 진화했는지 알 수 있습니다.

빅데이터와 분석의 이점을 포착하기 위해 어떻게 조직해야 할까?

빅데이터는 복잡하고 복잡한 관계를 드러내기 위해 크고 다양한 데이터 세트를 처리하지만, 인간은 데이터와 관계를 통찰로 해석하고 변환하는 데 중요한 요소입니다. 이러한 해석은 종종 데이터 과학자라고 불리는 비즈니스 세계의 21 세기 퀀트인 새로운 세대의 분석가들에 의해 점점 더 많이 만들어지고 있습니다. 데이터 과학자들은 비즈니스 지식과 결합된 고급 통계 및 수학 지식을 가진 새로운 유형의 사람들입니다. 그들은 비즈니스 관리자들과 긴밀히 협력하여보다 전략적인 결정을 내리는 통찰력을 도출합니다. 비즈니스 관리자는 일상적인 책임의 일부로 비즈니스 인텔리전스 작업을 수행하는 반면 데이터 과학자는 거의 독점적으로 데이터에서 비즈니스 통찰력을 도출하는 데 중점을 둡니다. 자세한 내용은 Fermilab 물리학자인 Rob Roser의 The Science of Big Data를 참조하십시오(“The Science of Big Data” at www.atkearney.com).

데이터 과학자들이 변화의 최전선에 서 있기 때문에 조직 구조와 분석 프로세스는 이러한 전문가 팀을 염두에두고 설계되어야 합니다.

비즈니스 모델 설계

조직이 진화함에 따라, 그들의 분석 능력도 기본적, 예상적 분석에서 더 성숙한 예측적 분석으로 옮겨가야 한다(그림 5 참조). 기본 분석은 비즈니스 성과에 대한 역사적인 견해를 제공합니다. 무슨 일이 일어 났는지, 어디서 일어 났는지, 얼마나 많은 일이 일어 났는지. 예상 분석은 고유 한 드라이버, 근본 원인 및 민감성을 식별합니다. 예측 분석은 비즈니스 모델링 및 시뮬레이션을 수행하고 어떤 일이 일어날지 예측하려고 노력합니다.

그림 5. 분석 기능과 프로세스는 빅데이터의 잠재력을 완전히 실현하기 위해 발전해야 합니다

분산형 서비스, 임베디드 공유 서비스, 독립형 공유 서비스 등 세 가지 운영 모델은 데이터 및 정보의 초점에서 비즈니스 통찰력 및 예지 초점으로 진화하는 데 중요한 도구가 될 수 있습니다. 각 모델에는 장단점이 있습니다 (그림 6 참조).

분산 서비스 모델에서 각 비즈니스 또는 기능에는 자체 분석 그룹이 있어 신속한 의사 결정 및 실행을 가능하게하고 장려합니다. 그러나 일반적으로 전략적 계획이나 모범 사례 공유에 헌신적인 역할이 없으므로 중복된 자원과 인프라가 발생할 수 있습니다. 이 모델은 초점을 증가 시키지만 엔터프라이즈 뷰가 없기 때문에 기회를 약화시킬 수 있습니다.

임베디드 공유 서비스 모델은 기존 기능 또는 비즈니스 유닛 아래에서 롤백하고 전체 조직에 서비스를 제공하는 중앙 집중식 모델입니다. 실행 및 의사 결정 속도를 높일 수 있으며 구조, 지원 프로세스 및 표준은 효율성 및 IT 전문 지식을 향상시킵니다. 그러나 그 역할은 배달 파트너가 아닌 고객으로서 더 많이 수행됩니다.

독립 실행 형 공유 서비스 모델은 임베디드 모델과 유사하지만 조직 엔티티 또는 기능 외부에 존재합니다. 직접 임원 수준의보고를 보유하고 있으며 분석을 활성화 기능이 아닌 핵심 역량으로 향상시킵니다.

빅데이터 분석을 위한 가장 효과적인 비즈니스 모델은 비즈니스 인텔리전스를 위한 분산형 서비스와 분석을 위한 독립형 공유 서비스를 결합한 것입니다. 비즈니스 인텔리전스가 비즈니스 유닛에 내장되어 조직 전체가 성과 통찰력을 신속하게 개발하면서 조직 문화를 "직감"접근 방식과는 달리 가설 기반의 데이터 중심 의사 결정으로 유도합니다. 중앙 집중식 분석 기능은 전체 비즈니스에 대한 관점과 회사가 추구할 수 있는 기회에 대한 반응이 아닌 예측을 보장합니다.

누가 빅데이터를 가장 잘 활용하겠는가?

빅데이터에 필수적인 역할은 대부분 조직에 이미 있지만, 그 범위, 경영진에 대한 가시성, 필요한 기술적 기술은 더욱 명확하게 정의될 수 있다. 이러한 역할을 수행하는 사람들은 실험하려는 의지와 미래를 "데이터 모델"하는 능력과 같은 특정 특성을 가지고 있습니다.

예를 들어, 프록터 앤드 갬블의 CEO인 밥 맥도널드는 “데이터 모델링, 시뮬레이션, 기타 디지털 도구들이 우리가 혁신하는 방식을 재구성하고 있다”고 확신한다. P&G는 맥도날드가 "조직의 모든 발전에 맞춰 만든 디지털 기술 재고"라고 부르는 것을 만들었다. 비즈니스 인텔리전스(BI) 관리자는 비즈니스 유닛과 기업 전략에 대한 정보를 제공하는 기술을 가지고 있으며 비즈니스 분석가는 문제 해결에 대한 가설 기반 접근 방식을 취하고 데이터에 대한 상호 부서 정신 관점을 채택하여 기회를 확고히 식별하는 방법을 알고 있습니다. 마찬가지로 데이터 분석가는 복잡한 통계 모델을 개발하는 데있어 구조화되지 않은 데이터로 작업하고 데이터 관리자는 IT 아키텍처를 재 설계하여 더 큰 데이터 조작 (비 구조화 된 데이터) 및 모델링 활동을 의사 결정 프로세스에 통합하여 회사 전체의 뷰를 제공합니다(“Data Is Useless Without the Skills to Analyze It,” Harvard Business Review, 13 September 2012).

빅데이터는 독립형 기술로 오랫동안 존재하지 않을 것이다. 더 넓은 분석 생태계의 일부가됨에 따라 크고 전통적인 데이터의 구별이 사라지고 있습니다.

앞서 언급했듯이 데이터 과학자들은 트렌드를 인식하고 예측 모델을 구축하며 비즈니스 개선 기회를 파악하기 위해 대규모 데이터 세트를 분석하는 데 능숙하기 때문에 인기있는 상품입니다. 데이터 관리자 및 데이터 분석가와 달리 데이터 과학자는 일반적으로 컴퓨터 과학, 통계, 응용 수학 또는 기타 관련 분야에서 고급 학위 (선호 박사 학위)를 취득합니다. 그리고 이상적으로는, 그들은 대규모 데이터 세트를 절차적으로 조작하고 분석하는 데 필요한 프로그래밍 기술을 가지고 있습니다. 그들은 훌륭한 의사 소통자이며 종종 비즈니스 질문을 의미있는 분석으로 번역할 수 있는 자연스러운 능력을 가지고 있습니다.

분석 능력을 활성화할 수 있는 기술 투자는 무엇인가?

빅데이터 기능을 제공하는 데 있어 가장 어려운 과제 중 하나는 적절한 비용으로 IT 아키텍처를 변형시키는 것입니다. 이것은 새로운 것으로 옛 것을 활용해야 한다. 모든 옵션이 존재하기 때문에 올바른 기술 투자를 (분석 수익 최적화)하려면 조직의 분석 비전을 이끌어내는 데 필요한 빅 데이터 아키텍처를 완전히 이해해야 합니다. 구조화에서 구조화되지 않은 것, ‘깨끗한’ 내부 데이터에서 ‘엉망진창인’ 외부 데이터, 일방적인 데이터 흐름에서 고객 및 파트너와의 양방향 데이터 공유에 이르기까지 데이터의 복잡성이 커지면서 분석에 대한 이러한 수익이 증가합니다. 분석 및 빅 데이터를 가능하게 하는 아키텍처는 이러한 모든 데이터 유형을 효율적으로 처리할 수 있어야 합니다.

빅 데이터 기술 아키텍처는 표준 아키텍처 스택과 유사한 5 개의 레이어를 가지고 있습니다 : 프리젠 테이션, 응용 프로그램, 처리, 저장 및 통합 (그림 7 참조). 프리젠 테이션 계층은 프로세스 워크 플로우 및 관리, 대시 보드를 통한 데이터보고 보급 및 데이터 시각화 도구를위한 기본 인터페이스를 제공합니다. 비즈니스 논리를 수용하는 응용 프로그램 계층은 분석, 모델링 및 비즈니스 인텔리전스가 실행되는 곳입니다. 처리 및 저장 계층은 실시간 또는 실시간으로 많은 양의 구조화 및 비 구조화 데이터를 처리하고 저장합니다. 마지막으로 통합 계층은 조직 전체의 다양한 엔터프라이즈 데이터 소스와 인터페이스하여 빅 데이터 아키텍처를 통해, 외부로, 그리고 이동합니다. 각 층에는 데이터에 작용하는 다양한 기능이 포함되어 있으며 원하는 결과를 산출하기 위해 함께 작동합니다. 각 계층에는 특정 데이터 중심 작업과 기능이 있습니다. 이들은 새로운 빅 데이터 제품의 시장 세그먼트를 반영하도록 그룹화됩니다.

수직 응용 프로그램 또는 제품군 (예 : Hadoop)은보고 및 시각화 도구를 통합하면서 데이터 및 처리를 제공합니다.
결정 지원은 빅 데이터 응용 프로그램 및 시각화 도구로 강화된 전통적인 BI 대시 보드 및 시스템을 제공합니다.
보고 및 시각화 도구는 빅데이터가 이해하기 쉬운 방식으로 이루어지는 결과를 나타냅니다.
분석 서비스는 예측 모델링, 예측 및 시뮬레이션과 같은 빅 데이터 지원 솔루션을 강화하는 스토리지, 처리 및 응용 프로그램입니다.
병렬 분산 처리 및 저장 기능을 통해보다 구조화된 데이터를 위해 대규모 병렬 처리(MPP) 및 메모리 내 분석을 가능하게합니다.
느슨하게 구조화된 스토리지 캡처 및 덜 구조화된 데이터를 저장합니다.
고도로 구조화된 스토리지 캡처 및 기존 데이터베이스 저장 그리고 분산된 발현을 가지고 있습니다.

알고 있는 기술

MPP, 원주형 데이터베이스, 구조화된 데이터를 관리하기 위한 NoSQL 데이터베이스 등 빅데이터를 관리, 처리, 분석하는 혁신적인 제품이 시장에 넘쳐난다(“MapReduce and MPP: Two Sides of the Big Data Coin,” ZDNet, 2 March 2012). 예를 들어 Greenplum, Vertica, Aster Data, Netezza 및 Splunk와 같은 MPP 솔루션을 제공하는 주목할만한 공급 업체는 하드웨어 및 소프트웨어를 단일 어플라이언스로 결합합니다. 문자 메시지, 소셜 미디어, 모바일 기술 및 임베디드 센서와 같은 구조화되지 않은 데이터를 처리하기 위해 회사는 오픈 소스 프레임 워크인 Hadoop으로 전환하고 있습니다. Hadoop의 힘은 수백 테라 바이트 또는 페타 바이트 (심지어 제타 바이트)의 데이터를 처리 할 수있는 능력에 있습니다.

대부분의 회사는 Greenplum, MapR, Cloudera, IBM 및 기타 업체가 서로 다른 구조화되지 않은 데이터 세트를 수집하고 광산으로 쉽게 사용할 수 있도록 상업용 Hadoop 제품을 선택합니다. 예를 들어, Facebook 및 Twitter 데이터를 사용하여 실시간으로 고객 만족도를 측정할 수 있으며 결과 피드는 지오 로케이션, 웹 클릭 스트림 및 판매 시점 번호와 같은 다른 데이터와 결합하여 더 큰 데이터 지원 응용 프로그램을 만들 수 있습니다.

이러한 빅 데이터 응용 프로그램을 지원하기 위해 새로운 소프트웨어 응용 프로그램이 등장했습니다 (Big Data Technology 동향 참조). 예측 및 시뮬레이션에서 예측 모델링에 이르기까지 다양한 목적을 달성하며 워크 플로우 엔진, 대시 보드, 배치보고 및 차트 작성 및 그래프 작성 도구를 통해 지원됩니다. 또한 멀티 노드 네트워크 다이어그램, 지리 공간 그래프 및 다차원 차트를 포함하여 수많은 시각화 도구가 시장에 출시되었습니다.

수많은 개념 증명이 현재 이용 가능하다. 여기서 목표는 별도의 평행 환경을 유지하여 기존 시스템을 방해하지 않는 환경에서 자유로운 테스트를 허용하는 것입니다. 평가할 가치가 있는 제품이 많이 있지만 Hadoop은 비용 효율적인 처리 및 덜 구조화된 데이터를 처리할 수 있는 능력의 중심 역할 때문에 대부분의 테스트 목록에 있습니다.

빅데이터는 독립형 기술로 오랫동안 존재하지 않을 것이다. 더 넓은 분석 생태계의 일부가됨에 따라 빅 데이터와 전통적인 데이터의 구분이 사라지고 있습니다. 빅 데이터는 전반적인 고급 분석 전략의 일부가 되고 있습니다.

빅데이터 기술의 동향

수많은 독립형 회사가 빅데이터 시장에 남아 있기는 하지만, EMC가 그린플럼을 인수하고 IBM이 네테자를 구입했으며 HP가 베르티카를 인수하면서 데이터 관리 업체가 늘어나면서 시장은 매일 변화하고 있다. 또한 파트너십은 구조화되지 않은 데이터 처리를 통해 기존 기능을 향상시키기 위해 형성되고 있으며, 가장 주목할만한 것은 Microsoft가 Hortonworks 및 Oracle과 Cloudera의 제휴 관계를 맺고 있다는 것입니다.

하드웨어 회사는 단기 수요를 충족시키기 위해 소프트웨어 솔루션을 수직으로 통합하고 있지만 장기적으로는보다 중요한 통합과 더 큰 투자가 필요합니다. 기존 BI 공급 업체는 구조화 및 비 구조화 데이터에 대한 최고의 기술을 결합한 빅 데이터 솔루션의 플레이를 고려할 수 있습니다.

반구조화된 데이터에서 하둡은 10년 전 아파치나 리눅스와 마찬가지로 최소한의 비용으로 상품 하드웨어에 배치되고 있다(“Hadoop Could Save You Money Over a Traditional RDBMS,” Computerworld UK, 10 January 2012). 그러나 하둡은 기업에 대비한 것이 아니며 실행과 지원을 위해 고도로 숙련된 전문가가 필요하다. Hadoop 기반 가전 제품은 현재 Greenplum, IBM 및 반 구조화되지 않은 데이터 처리를위한 표준 제품을 제공하기 위해 노력하고 있습니다. 예를 들어 이베이의 새로운 검색 엔진인 카시니는 빅데이터 기술을 기반으로 하고 있으며, 9700만 명의 적극적인 구매자와 판매자, 하루에 2억 5천만 건의 질의, 5만 개 이상의 카테고리에 속하는 2억 개의 항목을 지원할 수 있다(“eBay Readies Next Generation Search Built with Hadoop and HBase,” InfoQ, 13 November 2011).

결국 엔터프라이즈 수준의 정보 아키텍처 빅데이터 스토리지, 처리 및 애플리케이션 요구사항을 충족시킬 것이며 기존 스토리지 및 처리 시스템은 빅데이터를 수용할 가능성이 높습니다. 응용프로그램은 훨씬 더 큰 분석 기능을 제공합니다. 예를 들어, 미래의 수요 예측 시스템은 경쟁 가격 책정, 수요 혼란, 주식 아웃 및 배달 통지를 평가하여 실시간 가격 조정을 가능하게하기 위해 프로모션 및 가격 인하와 같은 요소를 넘어서 확장 될 것입니다.

빅데이터 여정에서 어떻게 시작해야 할까?

성공적인 빅데이터 구현을 할 때마다 똑같이 성공적인 변화 관리 프로그램이 있다. 이것은 전통적인 대형 소매상인을 위한 최근의 작업에서의 경우입니다. 회사는 수년간 긍정적인 동점 판매를 보지 못했고 시장은 더욱 경쟁력이 있었습니다. 한 임원은 “온라인 소매업자들이 점심을 먹고 있다”고 불평했다. 경제 상황이 좋지 않고 소비자 행동이 바뀌고 경쟁사들이 새로 생겨나고 채널이 늘어나고 데이터가 더 많이 영향을 미쳤다. 전자상거래와 온라인 채널로 적극적으로 진입하려는 강력한 추진력이 있었다. 소매업자는 문제를 해결하기 위해 일회성 프로젝트에 수백만 달러를 지출했지만 아무 것도 효과가 없었습니다. 경쟁사의 투자와 구조화되지 않은 데이터의 급격한 증가에서부터 통찰력있는 데이터의 필요성에 이르기까지 분석에 대한 경쟁으로 회사를 전환시키는 몇 가지 요인이 있었습니다.

분석 기능과 빅 데이터 플랫폼을 변환하는 것은 잘 생각된 3 갈래 접근법으로 시작됩니다 (그림 8 참조).

빅 데이터가 게임 체인저가 될 수 있는 위치를 식별합니다. 대형 소매업체의 경우, 회사가 현재의 불안에서 벗어나 경쟁 우위를 확보할 수 있다면 새로운 역량이 필요했다. 이는 끊임없이 변화하고 변동성이 있는 시장과 경쟁이 치열해졌음에도 불구하고 지속될 수 있는 것이다. 팀은 분석 결과가 결과를 향상시킬 수 있는 곳을 이해하기 위해 머천다이징, 예측 및 구매에서 유통, 할당 및 운송에 이르기까지 비즈니스의 모든 영역을 참여했습니다. 반응성 데이터 액세스보다는 예측 분석에 중점을 두었습니다. 따라서 테이크 앤 베이크 피자 판매가 감소하는 이유에 대한 답변 대신 소매 업체는 시간이 지남에 따라 그리고 지리적 영역에 걸쳐 테이크 앤 베이크 피자 카테고리의 판매 감소 및 대량 이동을 예측하는 데 중점을 두었습니다. 또 다른 예로, 기업은 안전 문제에 대한 반응에서 안전 문제에 대한 예측으로 이동하기를 원했습니다. 소매 업체는 소셜 미디어 데이터를 사용하여 문제를 "듣기"를 계획했는데, 이는 회사를 고객 중심적으로 만들뿐만 아니라 미래의 위기에 대한 방패를 제공할 것입니다. 이 계획은 네 가지 목표를 염두에두고 비즈니스 정보 조직을 설립하는 것이 었습니다.

조직 전체의 특정 요구를 충족시키기 위해 맞춤화된 정보를 전달한다.
오늘과 내일에 경쟁에 대응하는 데 필요한 기술을 구축하라.
조직 전체에 걸쳐 협업 분석 플랫폼을 구축하라.
채널과 지역에서 판매되는 제품들에 대한 일관된 견해를 확보한다.

미래 상태 기능 시나리오를 작성합니다. 소매 업체는 총 비용, 위험 및 유연성 측면에서 평가 되고 기업 문화의 맥락에서 결정되는 향후 기능에 대한 시나리오를 개발하기를 열망했습니다. 예를 들어, 비즈니스 데이터가 주도하는가, 아니면 회사가 가설 기반의 사고와 실험에 편안할까? 둘 다 빅데이터의 본질이다. 또한 각 시나리오에 대한 트레이드오프를 확인했는데, 여기에는 기능 비교, 마이그레이션 우선순위, 일정 추정치 등이 포함되어 있었다. 예를 들어, 가장 효과적인 것은 본사의 글로벌 데이터 토폴로지 또는 지역 - 글로벌 조합입니까? 빅데이터의 전진 아키텍처의 경우 하둡 대 카산드라를 사용하는 데 있어서의 절충안은 무엇인가? 이들은 첨단 기술을 활용하고 협업 플랫폼을 제공하고 기존 및 전진 아키텍처와 고급 분석을 통합하며 여러 분석 유형을 위한 확장 가능한 플랫폼을 구축하는 등 중요한 기회의 맥락에서 평가 되었습니다. 이 기술은 다섯 가지 핵심 기능을 가능하게하고 향후 혜택의 기초가 될 것입니다.

고객의 구매 및 구매 행동을 예측한다.
매장에서 맞춤 가격, 공간, 구색을 개발한다.
가격 책정에 사용되는 탄력성, 친화력 및 성향을 파악하고 활용합니다.
여러 위치와 사업부에서 글로벌 소싱을 최적화한다.
에너지 사용과 탄소 배출량을 줄이는 방법을 제안하는 모델을 개발한다.

혜택 및 로드맵을 정의합니다. 이러한 능력으로 무장한 다음 질문은 자원을 중심으로 전개되었습니다. 내부 자원을 할당하는 것이 재정적으로 의미가 있을까? 아니면 외부 자원이 적어도 초기에는 빅데이터 분석을 제공하는 것이 비용 효율적일까? 당연히 그 결정은 회사의 능력에 달려 있다. 기술 요구는 데이터와 아키텍처의 두 가지 관점에서 계획되었습니다. 데이터 플랜은 인수에서 스토리지로, 그리고 구조화되지 않은 데이터와 구조화되지 않은 데이터 모두에서 자체 서비스 환경을 사용하여 프리젠 테이션으로 차트로 작성되었습니다. Hadoop 기반 통합을 포함할 수 있는 시스템 아키텍처는 Teradata 및 Oracle 플랫폼을 활용하는 관계형 데이터 웨어하우스에 크게 의존하는 기존 IT 아키텍처에 비추어 계획되었습니다. 로드맵은 5년 이내에 긍정적인 보복을 제공할 수 있는 수백만 달러 투자 계획을 설명했습니다. 이 회사는 이제 빅 데이터 전략에서 네 가지 주요 이점을 실현할 수 있습니다.

일관된 정보를 더 빨리, 더 적은 비용으로 전달하라.
비즈니스를 통해 정보를 요약하고 분배하는 것이 더 효과적이다. 글로벌 조직을 활용할 수 있는 성과와 기회를 이해합니다.
비슷한 질문에 답하기 위해 바퀴를 재창조하는 모든 그룹 대신 반복 가능한 BI와 분석을 개발하십시오.
고급 분석을 통해 아직 발견되지 않은 가치 창출 통찰력을 창출하라.

비즈니스 모델의 창조적 파괴를 수용하는 방법

빅데이터는 21세기 산업혁명과 같은 것인가? 우리는 그렇게 생각한다. 기업들은 단기적·장기적 이점을 동시에 확보할 수 있는 빅데이터의 잠재력을 포착하는 방법을 점점 더 많이 실험하고 실행하고 있다. 중요한 성공 요인은 먼저 데이터를 자산으로, 즉 명제와 비즈니스 모델을 구축하는 토대라고 생각하고, 빅데이터의 잠재력을 활용하는 데 필요한 역량을 부지런히 구축하는 것이다. 그리고 가장 중요한 것은 오늘날의 비즈니스 모델이 창조적으로 파괴되는 것을 받아들이는 것이다.

'ARCHIVE > MACHINE LEARNING' 카테고리의 다른 글

빅 데이터 (0)	2019.05.29
빅 데이터 : 혁신, 경쟁 및 생산성을 위한 개척자 (0)	2019.05.21
Overfitting vs. Underfitting: 개념적 설명 (0)	2018.06.02
데이터 엔지니어 vs 데이터 과학자 (0)	2018.05.02
Random Forest in Python (0)	2018.03.15

ABOUT ME