취향의 이유
빅데이터 시대를 살아가는 이들에게 추천하는 책 양승규 사옥건설처 감리부 차장
저자. 이토 고이치로 출판. 인플루엔셜
난이도
흥미도
숫자는 전략이 될 수 있다
인터넷에 수많은 데이터가 있다. 데이터(data)가 많다고 하여 모든 데이터가 필요한 정보(information)가 되지는 않는다. 자신의 판단으로 필요에 따라서 취합하고 가공하는 행위를 통해 쓸모 있는 데이터를 만들지 않는다면 아무리 많은 데이터라도 유용하게 사용되지 못한다. 『데이터 분석의 힘』, 이 책의 저자는 빅데이터의 분석을 비슷한 맥락에서 이야기하고 있다. 빅데이터 자체만으로는 쓸모가 없다. 그 데이터를 읽을 수 있는 눈을 가지는 것이 중요하다는 것이다. ‘분석력’이라고 하는 눈 말이다. 데이터 사이의 인과관계를 판단할 수 있는 분석력이 없다면 데이터는 그냥 숫자, 문자, 변수들의 나열일 뿐이다.
“빅데이터가 모든 문제를 해결해준다는 주장도 있지만 데이터의 처리, 분석, 해석에는 인간의 판단이 중요한 역할을 한다. 요즘 IT업계에서도 단순히 빅데이터만이 아니라 빅데이터를 읽어내는 분석력(analytics)이 중요 하다는 인식이 확산되고 있다. ... 인과관계를 판단하는 방법을 활용하여 스스로 데이터를 가려내는 힘을 갖추어야 한다.” (본문 중)
저자는 인과관계를 밝히는 가장 좋은 방법이 RCT(무작위비교시행)1)라고 말한다. 구글의 데이터 분석에 대한 내용을 다루는 세스 스티븐스 다비도위츠의 『모두 거짓말을 한다』에서도 무작위 대조시험이라는 용어로 RCT가 등장한다. 놀라운 것은 ‘A/B 테스트’라는 새로운 이름으로 그 사용분야가 엄청나다는 것이다. 구글과 페이스북 같은 글로벌 IT 업체들이 수많은 ‘A/B 테스트’를 통해서 원하는 결과를 도출한다. 『데이터 분석의 힘』에서는 RCT의 약점이 비용, 시간, 노력이 많이 드는 것을 꼽는다. 하지만 이들 기업은 그로부터 자유로워 보인다. 플랫폼 안에서 사용자들의 행태를 관찰하고 약간의 조작만으로도 RCT를 수행할 수 있기 때문이다. 이러한 환경(남들보다 쉽게 인과관계를 밝혀낼 수 있는)을 갖추고 있는 것이 이들 GAFA2)의 경쟁력일 것이다.
1) RCT(Randomized Controlled Trial): 인과관계를 밝히기 위해 집단을 비교하는 시험. A와 B 집단을 비교하는 의미에서 AB테스트라고 부르기도 한다. RCT 3원칙 ▲ 적절하게 집단을 나눈다. ▲ 집단은 반드시 무작위로 나눈다. ▲ 집단별로 충분한 표본수를 채운다.
2) GAFA : GAFA란 구글과 애플, 페이스북, 아마존의 머리글자를 딴 단어로, 미국 정보기술(IT) 4개 공룡 업체를 의미한다.
저자. 세스 스티븐스 다비도위츠 출판. 더퀘스트
난이도
흥미도
데이터, 어떻게 ‘요리’할까
데이터를 분석하기 위해서는 우선 적절한 양의 데이터가 확보되어야 한다. 빅데이터라면 당연히 이 선행조건은 만족할 것이다.
또한, 데이터의 분석을 위한 적절한 도구가 필요하다. 데이터를 분석하고자 하는 목적과 데이터의 유형에 따라서 적합한 도구를 선정해야 한다. 이 책에서 소개된 RCT(무작위비교시행), RD디자인(회귀불연속설계법)를 모든 케이스에 동일하게 적용할 수는 없다. 데이터의 분석을 통해 무엇을 얻고자 하는가를 먼저 명확하게 정의하는 작업이 필요하겠다. 그 후에 그 목적에 맞는 분석도 구를 선정하는 것이 효과적인 데이터 분석의 방향설정이라 할 수 있겠다.
컴퓨터 프로그래밍을 잘하는 것과 다양한 디자인 소프트웨어를 활용하여 멋진 예술품을 만드는 것은 동일하지 않다. 컴퓨터의 언어를 잘 이해한다고 해서 멋진 디지털 작품을 만들어 낼 수는 없는 것이다. 데이터 분석도 마찬가지이다. 빅데이터를 핸들링할 수 있게 DB를 다루는 능력이나 R, SPSS를 잘 다룬다고 해서 데이터 분석을 잘한다고 할 수 없다는 것이다. 툴을 잘 다루는 능력과는 별개의 능력이 필요한 것이다. 원하는 답을 얻기 위하여 어떠한 방법을 적용해야 할지, 어느 정도의 유효한 데이터가 필요한지에 대한 판단을 할 수 있는 넓은 관점의 시야가 필요하다. 저자는 이것을 ‘컴퓨터에 데이터가 저장되기 이전 단계까지 포함한 기술과 경험’이라고 이야기한다.
저자. 프랭클린 포어 출판. 반비
난이도
흥미도
구글링할 때 ‘파란 글씨’에 주목하는 이유
얼마 전에 읽었던 프랭클린 포어의 『생각을 빼앗긴 세계』는 GAFA로 대변되는 거대 IT 업체들이 어떻게 대중의 지식과 사상, 프라이버시, 문화를 파괴하는가에 대해 다룬 책이다. 거대 기업의 제품, 서비스에는 그 기업의 수장, 기업의 설립자가 가진 생각들이 묻어날 수밖에 없다. 테크 기업들이 가지고 있는 알고리즘에는 그 기업의 가진 철학이 어느 정도 담겨 있다는 것이다. 포털 ‘다음’ 의 검색 결과와 ‘네이버’의 그것이 다른 것은 단지 두 기업의 기술력 차이는 아닐 것이다. 이 책의 5장에서 소개된, 구글이 검색결과 화면 텍스트 색상을 41가지의 파란색으로 실험했던 것 같이 페이스북 피드를 조작하여 대중의 행동을 파악하고 조종할 수 있는 것(대통령 선거와 같은 커다란 이벤트에서도)은 엄청난 힘이다.
ICT 기술의 발달을 통해 전 세계인이 인터넷으로 거의 24시간 연결된다. GAFA와 같은 거대 IT 기업들은 이러한 환경 속에서 자신들의 서비스, 제품으로 대중을 유혹한다. 그 유혹에 아무런 생각도 없이 빠져든다면 점점 뜨거워지는 냄비 속에서 끓어 죽게 되는지도 모르고 따뜻함을 즐기고 있는 ‘생각’을 빼앗긴 개구리가 되는 것이다. 빅데이터 시대를 살아가는 우리에게 데이터를 보는 눈은 어쩌면 이러한 세계에서 살아남기 위해 필요한 필수 요소일 것이다. 살아남기 위해 데이터를 읽어내야겠다.