본문 바로가기

번역

The Problem with AI

* 과학은 실제로 꽤 지저분 해.
* 내가 화학 학부 때, 나는 생화학의 이론을 좋아했다. 단순한 규칙에 의해 끝없는 복잡성이 허용되었다. 얼마나 거대하고 복잡한 셀룰러 기계가 몇 가지 빌딩 블록에서 발생할 수 있는가?
* 그러나 실험실에서 나는 가장 간단한 반응을 만들기 위해 애썼다.
* 순수한 결정 성 화합물과 고가의 실험실 장비로 시작하여 결과가 결정질이 될 것으로 예상 될 때 실험의 목적과 관련하여 강사가 "글쎄, 거기에있을 수있다"고 말하면서 갈색 껌 더미가 생겨 버렸습니다.
* 데이터 과학 또한 매우 지저분하다.
* 자주 시작점은 차가운 끈적 거리는 데이터, 품질이 좋지 않은 데이터, 일치하지 않는 데이터 등입니다. 순수한 결정 결과가 차선책, 맞춤 마케팅 캠페인, 매우 효과적인 맞춤 이메일 캠페인 또는 십자가 고객과 그들의 필요에 대한 부서 간, 기능 간, 360도 이해
* 인공 지능 (Artificial Intelligence, AI)은 요즘 거의 모든 알고리즘을 의미하지만 일반적으로 어떤 형태의 기계 학습에 의존합니다
* 기계 학습은 대용량 데이터 (고속, 대용량, 고도로 가변적 인 데이터 소스)에 의해 자주 촉진되지만 기존의 데이터 소스에 의해 촉진 될 수도 있습니다
* 변수는 품질이 좋지 않다는 것을 의미하지 않는다 "가변적 인"데이터는 "지저분한"데이터를 의미 할 수 있고 "지저분한"데이터는 "품질이 떨어지는"데이터를 의미 할 수 있다는 일반적인 오해가있다
* 간단히 말해 변수가 지저분하지 않고 지저분하지 않은 것이 품질을 의미하지는 않습니다.
* 변수 데이터는 형식과 구조가 다른 데이터입니다.
* 이를 사용하려면 결과를 얻기 위해 여러 유형의 데이터를 신호로 사용하는 방법을 이해해야합니다.
* Twitter 데이터는 거래 데이터와 매우 다릅니다.
* 이 둘은 함께 사회적 추세가 매출에 미치는 영향에 대한 통찰력을 제공 할 수 있습니다
* 지저분한 데이터는 값이 누락되거나 처리 및 처리가 어려운 형식 일 수 있습니다.
* 데이터는 매우 유용 할 수 있지만 처리를위한 형식으로 가져 오는 작업이 필요합니다.
* Sloan Management Review의 최근 기사에 따르면 조직에서는 이제 모든 데이터를로드하고 데이터 자체가 방향을 지시하고 스토리를 전달할 수 있다고 명시했습니다.
* 불필요하거나 중복 된 데이터는 제거 될 수 있습니다 ... [이 프로세스는] 종종 '로드 앤 고 (load and go)'라고 불립니다.
* 개념적으로 정확하지만, 오해의 여지가 많이 남아 있습니다.
* "모든 데이터"를 정의해야합니다.
* 모든 제품 데이터, 소셜 미디어 데이터, 회계 데이터, 트랜잭션 데이터, 지식 기반 데이터를 의미합니까?
* 분명히 "모두"는 지나친 일반화이다.
* 그리고이 방법에는 단점이 있습니다.
* MIT 교수 인 샌디 펜 랜드 (Sandy Pentland)는 최근 MIT CIO 심포지엄에서 "데이터 호수에 모든 데이터를 넣으면 해커가 모든 데이터를 훔칠 수있는 한 곳으로 이동하는 것이 편리합니다"
* 범위가 무엇이든 관계없이 문제 공간의 도메인에 적합한 데이터를 선택해야합니다
* 데이터는 일관된 형식이어야합니다.
* 잘못된 값을 포함 할 수 없습니다.


이 글은 영어로 작성된 문서를 기계적으로 요약 및 번역한 내용입니다. 

원문보기 : https://www.infoq.com/articles/problem-with-ai?utm_source=articles_about_MachineLearning&utm_medium=link&utm_campaign=MachineLearning