888集团6008

888集团6008动态

你周全熟悉大数据了吗?

  • 时间:2014-05-07
  • 泉源:

    888集团6008(泉源:天极网  作者:佚名)

    近年来,有关大数据的热门话题一浪高过一浪,关注大数据应用的人也越来越多。总体来说,人们对大数据的远景持乐观态度,好比谈到大数据的手艺特征,人们最容易想起的就是4个“v”:vast(数目重大)、variety(种类繁多)、velocity(增添迅速)和value(总价值高)。这些都没错,但仔细一想,它们都是着重说明大数据的正面优势的。但着实,大也有大的难处,大数据也不可阻止地保存着一些负面劣势。这些负面劣势可以归纳综合四点:

   inflated——大数据是肥胖的。大数据的大不但仅体现在数据纪录的行数多,更体现在字段变量的列数多,这就为剖析多因素之间的关联性带来了难度。哪怕是最简朴的方差剖析,盘算一两个还行,盘算一两百个就让人望而生畏了。

  unstructured——大数据是非结构化的。大数据的结构一ㄇ很是重大的,既包括像生意额、时间等一连型变量,像性别、事情类型等离散型变量这样古板的结构化数据,更增添了如文本、社会关系网络,以致语音、图像等大宗新兴的非结构化数据,而这些非结构化数据蕴含的信息量往往越发重大,但剖析手段却略显薄弱。

  incomplete——大数据是残破的。在现实的天下里,由于用户挂号的信息不全、盘算机数据存储的过失等种种缘故原由,数据缺失是常见的征象。在大数据的场景下,数据缺失更是司空见惯,这就为后期的剖析与建模质量增添了不确定的危害。

  abnormal——大数据是异常的。同样,在现实的天下里,大数据里尚有不少异常值(outlier)。好比某些一连型变量(如一个短期时间内的生意金额)的取之太大,某些离散型变量(如某个被选购的产品名称)里的某个水平值泛起的次数太少,等等。若是不删除,很可能滋扰模子系数的盘算和评估;若是直接删除,又以为缺乏说服力,容易引起他人的质疑。这使得剖析职员落到了一个骑虎难下的田地。

    古有孔子“温故而知新”,现在,人们使用大数据的剖析,已经可以预见和剖析出许多当下时代的大趋势了。可是,这些剖析数据的真实性怎么包管呢?现在,我国的大数据正处于生长中阶段,若是不可处置惩罚好这些倒运因素就盲目“跟风”去运用,那么大数据应用的优势很难施展出来。想要真正运用好大数据,并不是一项在通例条件下数据剖析的简朴升级,而是一项需要大智慧的综合事情。

  着实,只要是有用地使用大数据,就可以实时监控种种潜在危害,提高生产效率,更主要的是为企业提供诸多洞见,提升投资回报和竞争优势,并且有助于企业从多维度判断全球市场潜在商机,实现跳跃式快速生长。若是没有一个周全、客观熟悉大数据的历程,即便我们能很容易的使用大数据获得许多可预见的数据,又有几分准确性?

  以是,我们必需要对大数据有一个周全、客观的熟悉。文中提到的四个难点,也是必需要重视的。只有在差别的营业和数据配景下接纳差别的战略战术,才华在大数据时代,真正施展大数据的杠杆作用,有用提高企业的运营效率和市场竞争力。




网站地图