인터넷에 수많은 데이터가 있다. 데이터(data)가 많다고 하여 모든 데이터가 필요한 정보(information)가 되지는 않는다.
자신의 판단으로 필요에 따라서 취합하고 가공하는 행위를 통해 쓸모 있는 데이터를 만들지 않는다면 아무리 많은 데이터라도 유용하게 사용되지 못한다. 『데이터 분석의 힘』, 이 책의 저자는 빅데이터의 분석을 비슷한 맥락에서 이야기하고 있다.
빅데이터 자체만으로는 쓸모가 없다. 그 데이터를 읽을 수 있는 눈을 가지는 것이 중요하다는 것이다. ‘분석력’이라고 하는 눈 말이다. 데이터 사이의 인과관계를 판단할 수 있는 분석력이 없다면 데이터는 그냥 숫자, 문자, 변수들의 나열일 뿐이다.
“빅데이터가 모든 문제를 해결해준다는 주장도 있지만 데이터의 처리, 분석, 해석에는 인간의 판단이 중요한 역할을 한다. 요즘 IT업계에서도 단순히 빅데이터만이 아니라 빅데이터를 읽어내는 분석력(analytics)이 중요 하다는 인식이 확산되고 있다. ... 인과관계를 판단하는 방법을 활용하여 스스로 데이터를 가려내는 힘을 갖추어야 한다.” (본문 중)
저자는 인과관계를 밝히는 가장 좋은 방법이 RCT(무작위비교시행)
1)라고 말한다. 구글의 데이터 분석에 대한 내용을 다루는 세스 스티븐스 다비도위츠의 『모두 거짓말을 한다』에서도 무작위 대조시험이라는 용어로 RCT가 등장한다. 놀라운 것은 ‘A/B 테스트’라는 새로운 이름으로 그 사용분야가 엄청나다는 것이다. 구글과 페이스북 같은 글로벌 IT 업체들이 수많은 ‘A/B 테스트’를 통해서 원하는 결과를 도출한다. 『데이터 분석의 힘』에서는 RCT의 약점이 비용, 시간, 노력이 많이 드는 것을 꼽는다. 하지만 이들 기업은 그로부터 자유로워 보인다. 플랫폼 안에서 사용자들의 행태를 관찰하고 약간의 조작만으로도 RCT를 수행할 수 있기 때문이다. 이러한 환경(남들보다 쉽게 인과관계를 밝혀낼 수 있는)을 갖추고 있는 것이 이들 GAFA
2)의 경쟁력일 것이다.