现在一开电脑,尤其是一些IT性质的网站论坛,所谓大数据真是铺天盖地,很有气势。
好像每个搞IT的同仁不说点关于大数据的东西,都不好意思跟人打招呼。
关于这种疯狂,我们已经看得够多了。什么SOA、Ajax、RIA、HTML5......
当繁华过后,这写概念本身又能给我们留下点什么呢?
我们还不是得跟往常一样,像狗一样的写着下一秒就可能被否定的代码?
我不赞成炒概念,但是也不是说见着炒概念的就要批个你死我活。如果能靠这些概念忽悠让你所谓的成功一把,那也是您的能耐,至少这说明您可以不用像吾等守着电脑,一行行的敲代码了。
当然这种成功严格意义上只属于成功者个人,而不是这个行业。因为,如果你换一个人去忽悠,可能就会死的很惨很惨。
好了,说点和题目关系比较大的,大数据。
这其实不是什么新鲜的概念和技术了,就像当年Ajax出来的时候,其实也TMD就是浏览器暴露了一个可编程的js对象而已。而又因为很多浏览器的历史原因使这个对象的实现又各有不同,这时就需要一个已经写好的if else来封装一下这个脾气怪异的编程对象。。。其实整个过程就是这样,平常的不能再平常。
大数据也一样,大数据就是量比较大的数据而已。当然你把一条数据复制10亿条,量也不小,但这毫无意义。
真正的互联网大数据首先是内容丰富的。是基于互联网产品真实应用场景,由用户按照自己真实的意愿进行操作,由系统真实记录而形成的一条条反映客观情况的数据的集合。
其实每条数据之间没有任何关系,但把他们都放在一起就有了关系。
就像抛硬币,每次都各自独立,互相之间毫无关联。但当你抛很多次,并把这些情况汇总到一起的时候,你就会发现一些规律。
其实自从有了互联网,尤其是web2.0,关于通过基于网站数据分析,和数据挖掘的事就一直存在。
就像对于电商网站,从数据库里面统计下每天卖了多少商品,哪个商品卖的好一样。这真TMD是平常到不能再平常的事情了。
只是现在上网的人多了,网站多了,网络应用和产品更丰富了,我们收集到的数据更多了。
这时我们再做我们熟悉的事儿的时候就变的有点困难了,毕竟数100只羊和数100亿只羊虽然理论上一样,但操作方面却不一样,不过也就仅此而已。
这时市面上就出现了很多牛逼的数羊机器,有集中式的也有分布式的、有大厂商的也有社区的、有批处理的也有流式的、有关注吞吐量的也有关注实时性的,五花八门、琳琅满目,但这不过只是在不同时候用起来更称手的数羊机器而已。
我想强调的是,这些机器无论再牛逼也不是数据,即不能创造也不能改变数据。数据只和数据自己有关。
而数据分析和挖掘则是人类一个永恒的话题,起于互联网之前,也不会终于互联网之末。
其实就如抛硬币,我们都知道抛硬币正反面概率的经验值各是0.5,而我们也都知道只有当抛很多次的时候,统计值才会接近于经验值。只抛1次,则毫无意义。这里的“很多次”就是我们说的大数据的“大”。
其实所谓的大数据研究,就是抛很多次硬币而已。
而这是一个相当古老的话题。。。
相关推荐
大数据综合应用实践(基于医疗大数据) 教学大纲.docx
大数据与风险管理.docx
不动产大数据技术白皮书.docx
2017年度公需科目大数据时代的互联网信息安全考试答案98分.docx
2020年地球大数据支撑可持续发展目标报告
大数据考试题.docx
大数据课堂测验.docx
大数据技术原理与操作应用AB卷带答案 期末考试题 模拟卷 模拟试题 综合试卷自测试卷2套.docx
2021年重点城市大数据发展指数报告 重点城市 大数据 发展指数 报告
Redis大数据平台测试方案.docx
XXX大数据平台技术白皮书.docx
emc-大数据解决方案.docx
如何有效的学习大数据语言.docx
X大数据备份系统方案设计.docx
公需科目(大数据)考试答案.docx
大数据时代对市场营销的影响.docx
大数据开发工程师岗位的主要职责概述.docx
大数据技术及其在教育研究领域应用.docx