首先,我们要了解一个概念,就是元数据。元数据就是对数据本身进行描述的数据,听起来有点绕,我们举个例子。比如说,一幅画本身,就是数据,而这幅画的作者、完成时间、尺寸、价格等等,就是它的元数据。再比如,你妈给你介绍了一个对象,和你说了这个人的年龄、身高、体重、收入、爱好,这些就是元数据。这时候虽然你不认识这个人,但你心里还是对他有个基本的印象。
元数据有两个价值,一是能从侧面描述对象;二是可以做到结构化和信息化。举个例子,我们要判断一幅画值不值钱,除了找专家鉴定,还可以通过元数据来判断。比如,这幅画是名家的还是二流画家的?这幅画是画家鼎盛时期的作品,还是年轻时的作品?这幅画是不是画家擅长的领域?通过这些信息,我们大概也能估计出这幅画的价值,虽然可能有误差,但这种方法是很科学的。
那用元数据描述对象比单纯用数据描述对象强在哪儿呢?举个例子,你妈给你了100个相亲男士的资料,一个一个翻,几天都翻不完。但如果你把你的要求告诉你妈,比如身高多高,体重多重,年龄多大,收入多少,然后再让你妈帮你按照条件筛选一下,你找对象的效率就高多了。当然,这个方法是会有失误的,说不定真爱就被筛掉了,但总的来说概率还是很小的。
了解了元数据之后,我们再说说大数据应用的三个阶段。
大数据应用第一个阶段是辅助产品,给产品提供支持,帮产品人员和市场人员做判断。过去做产品调研很麻烦,假设有个饮料公司,想知道那种口味市场最喜欢,他们不仅要设计问卷调查,还要组织很多人现场试喝,而且这么做结果还不一定准。有了互联网之后就不用这么麻烦了,只要有了真实的数据,很快就能分析出来。比如,腾讯知道自己的微信用户有多少人用朋友圈,每天发几条,发的内容是什么,这些都是真实的数据。再比如,现在有个用户每个月在网上买十箱水,留的地址是某个高档餐厅,我们就知道这瓶水的目标受众是谁了。
大数据应用的第二个阶段是创造价值。当数据积累到一定程度之后,数据本身就是有价值的。比如,中国最熟悉老百姓消费习惯的,不是某个机构或者协会,而是淘宝;拥有最全面个人信用信息的,不是银行或者咨询公司,而是支付宝。道理很简单,我们的所有消费和交易行为都在某个平台上,而这个平台又有所有数据的记录,那这些数据本身就是产品。如果把消费行为的数据卖给广告商,广告商就可以定向给你投送广告;如果把信用数据卖给银行,银行就可以判断出你的信用程度。
从另一个角度看,通过我们行为数据这些元数据,我们已经在慢慢被量化的信息给描述出来了。比如你一年花了多少钱、在哪方面花的钱等等,就能让别人通过数据对你有个大概的认识了。所以,大数据应用的第三个阶段是塑造我们。
举个例子,如果有个人挺长时间没买避孕套了,这两天突然买了两盒,他就有可能和异地恋的女朋友见面了;如果他跟异地的某个妹子微信聊得特别多,还经常视频,这个妹子大概就是他异地的女朋友;如果他最近一直在网上搜东南亚的机票和旅行攻略,他很可能要去那里玩。通过这三条元数据,我们就可以推测,这个人最近可能要跟女朋友一起去东南亚旅行。
而且,未来我们每个人的数据会越来越多。工作有云笔记,打车用优步,吃饭有各种订餐网站,社交用微信,这些都会变成可以量化的数据记录,然后用来描述我们的个人信息。比如你喜欢黑色的衣服,比较文艺,有高度近视,最近刚失恋。大数据没准比你爹妈都了解你,我们最终都将成为可以被量化的大数据对象。
所以,大数据的作用不会只是简单帮我们做决策,它最终的形态就是可以用海量的数据描述具体的个体。也就是说,未来的大数据可能比你还了解你自己。(来源:互联网)