大数据面临的三大手艺问题
- 时间:2013-08-26
- 泉源:
888集团6008(泉源:CIO时代网 作者:不详)
当今,大数据的到来,已经成为现实生涯中无法逃避的挑战。每当我们要做出决议的时间,大数据就无处不在。大数据术语普遍地泛起也使得人们徐徐明确了它的主要性。大数据徐徐向人们展现了它为学术、工业和政府带来的重大机缘。与此同时,大数据也向加入的各方提出了重大的挑战,首先是三个主要的手艺问题:
一、怎样使用信息手艺等手段处置惩罚非结构化和半结构化数据
大数据中,结构化数据只占 15% 左右,其余的 85% 都是非结构化的数据,它们大宗保存于社交网络、互联网和电子商务等领域。另一方面,也许有 90% 的数据来自开源数据,其余的被存储在数据库中。大数据的不确定性体现在高维、多变和强随机性等方面。股票生意数据流是不确定性大数据的一个典典范子。
大数据刺激了大宗研究问题。非结构化和半结构化数据的个体体现、一样平常性特征和基来源理尚不清晰,这些都需要通过包括数学、经济学、社会学、盘算机科学和管理科学在内的多学科交织来研究和讨论。给定一种半结构化或非结构化数据,好比图像,怎样把它转化成多维数据表、面向工具的数据模子或者直接基于图像的数据模子?值得注重的是,大数据每一种体现形式都仅泛起数据自己的侧面体现,并非全貌。
若是把通过数据挖掘提取“粗糙知识”的历程称为“一次挖掘”历程,那么将粗糙知识与被量化后主观知识,包括详细的履历、知识、本能、情境知识和用户偏好,相团结而爆发“智能知识”历程就叫做“二次挖掘”。从“一次挖掘”到“二次挖掘”类似事物“量”到“质”的奔腾。
由于大数据所具有的半结构化和非结构化特点,基于大数据的数据挖掘所爆发的结构化的“粗糙知识”(潜在模式)也伴有一些新的特征。这些结构化的粗糙知识可以被主观知识加工处置惩罚并转化,天生半结构化和非结构化的智能知识。追求“智能知识”反应了大数据研究的焦点价值。
二、怎样探索大数据重大性、不确定性特征形貌的描绘要领及大数据的系统建模
这一问题的突破是实现大数据知识发明的条件和要害。从久远角度来看,遵照大数据的个体重大性和随机性所带来的挑战将促使大数据数学结构的形成,从而导致大数据统一理论的完整。从短期而言,学术界勉励生长一种一样平常性的结构化数据和半结构化、非结构化数据之间的转化原则,以支持大数据的交织工业应用。管理科学,尤其是基于最优化的理论将在生长大数据知识发明的一样平常性要领和纪律性中施展主要的作用。
大数据的重大形式导致许多对“粗糙知识”的怀抱和评估相关的研究问题。已知的最优化、数据包络剖析、期望理论、管理科学中的效用理论可以被应用到研究怎样将主观知识融合到数据挖掘爆发的粗糙知识的“二次挖掘”历程中。这里人机交互将起到至关主要的作用。
三、数据异构性与决议异构性的关系对大数据知识发明与管理决议的影响
由于大数据自己的重大性,这一问题无疑是一个主要的科研课题,对古板的数据挖掘理论和手艺提出了新的挑战。在大数据情形下,管理决议面临着两个“异构性”问题:“数据异构性”和“决议异构性”。古板的管理决议模式取决于对营业知识的学习和日益积累的实践履历,而管理决议又是以数据剖析为基础的。
大数据已经改变了古板的管理决议结构的模式。研究大数据对管理决议结构的影响会成为一个果真的科研问题。除此之外,决议结构的转变要求人们去探讨如作甚支持更高条理的决议而去做“二次挖掘”。无论大数据带来了哪种数据异构性,大数据中的“粗糙知识”仍可被看作“一次挖掘”的领域。通过寻找“二次挖掘”爆发的“智能知识”来作为数据异构性和决议异构性之间的桥梁是十分须要的。探索大数据情形下决议结构是怎样被改变的,相当于研究怎样将决议者的主观知识加入到决议的历程中。
大数据是一种具有隐藏规则的人造自然,寻找大数据的科学模式将带来对研究大数据之美的一样平常性要领的探讨,只管这样的探索十分难题,可是若是我们找到了将非结构化、半结构化数据转化成结构化数据的要领,已知的数据挖掘要领将成为大数据挖掘的工具。
以上是我对大数据的三个主要手艺问题举行研究的一些心得,也仅仅是一个研究大数据挑战的起点。除此之外,尚有一些数据科学的问题,包括在获得数据和从数据中爆发规则方面可能保存的正义系统,基于数据库的知识发明规则与基于开放数据源的知识发明规则以及大数据挖掘的整体和(或)局部解的保存性问题等等。在不久的未来,我相信这些问题都需要去仔细研究,以获得突破性科研与应用效果。
下一篇:企业怎样通过ERP转变谋划机制?