본문 바로가기

MACHINE LEARNING

데이터 과학의 5가지 P

이 글은 WorDS 에 올라온 글을 번역한 것입니다. 저자에게 번역에 대한 허가를 받지 않았기에, 언제든 삭제 될 수 있습니다. 오역이 있을 수 있으니, 가능하면 원글을 읽는 것이 좋습니다. 

데이터 과학은 데이터에서 지식을 추출하는 것에 관한 것입니다. WorDS 센터에서는 데이터 과학을 사람, 프로세스, 계산 및 빅 데이터 플랫폼, 특정 목적 및 프로그래밍 가능성을 결합한 다방면의 기술로 정의합니다. 이러한 간행물로 이어지는 데이터 제품의 간행물 및 출처는 데이터 과학에서도 중요합니다.

  • 사람(People) : 데이터 과학자는 과학 또는 비즈니스 영역 지식을 비롯하여 다양한 주제에 대한 기술을 보유한 사람들로 종종 간주됩니다. 통계, 기계 학습 및 수학 지식을 사용한 분석; 데이터 관리, 프로그래밍 및 컴퓨팅. 실제로 이것은 일반적으로 상호 보완적인 기술을 가진 사람들로 구성된 연구자 그룹입니다. 
  • 프로세스(Process) : 데이터 과학 프로세스에는 통계, 기계 학습, 프로그래밍, 컴퓨팅 및 데이터 관리 기술이 포함됩니다. 데이터 과학 워크 플로 는 이러한 단계를 실행 가능 그래프로 결합합니다. 우리는 프로세스 중심 사고가 사람과 기술을 응용 프로그램에 연결하는 데이터 과학을 수행하는 혁신적인 방법이라고 믿습니다. 데이터 과학 프로세스의 과제는 1) 그러한 프로세스를 구축하는 데 필요한 모든 작업을 쉽게 통합하는 방법, 2) 프로세스 정의, 매개 변수 설정 및 사용자 기본 설정에 따라 최상의 컴퓨팅 리소스를 찾고 리소스에 대한 프로세스 실행을 효율적으로 예약하는 방법입니다.
  • 목적(Purpose) : 사람들이 특정한 목표를 염두에 두고 일반화 가능한 프로세스를 사용할 때 발생합니다. 그 목적은 Big Data에서 자주 분석해야 할 가설 또는 비즈니스 척도가 있는 과학적 분석과 관련 될 수 있습니다. 유사한 재사용 가능한 프로세스는 여러 워크 플로 내에서 사용될 때 용도가 다른 많은 응용 프로그램에 적용될 수 있습니다.
  • 플랫폼(Platforms) : 애플리케이션 중심의 요구 사항과 이 애플리케이션을 수행하는 데 필요한 데이터 및 컴퓨팅의 양에 따라 서로 다른 컴퓨팅 및 데이터 플랫폼을 데이터 과학 프로세스의 일부로 사용할 수 있습니다. 이러한 확장성은 모든 데이터 과학 솔루션 아키텍처의 일부가 되어야 합니다.
  • 프로그래밍 가능성(Programmability) : 확장 가능한 데이터 과학 프로세스를 캡처하려면 프로그래밍 언어 (예 : R) 및 패턴 (예 : MapReduce)을 사용해야합니다. 이러한 프로그래밍 기술에 대한 액세스를 제공하는 도구는 다양한 플랫폼에서 데이터 과학 프로세스를 프로그래밍 할 수 있게 하는 핵심 요소입니다.

이러한 데이터 과학 프로세스를 실행하려면 크고 작은 많은 데이터 세트에 대한 액세스가 필요하며 데이터 과학에 새로운 기회와 도전이 필요합니다. 데이터 수집, 데이터 정리, 데이터 처리/분석, 결과 시각화와 같은 많은 데이터 과학 단계 또는 작업이 있어 ​​데이터 과학 워크 플로를 만듭니다. 데이터 과학 프로세스는 사용자 상호 작용 및 기타 수동 작업이 필요하거나 완전히 자동화 될 수 있습니다.