用计算机收集、记录数据,经加工产生新的信息形式的技术。数据指数字、符号、字母和各种文字的集合。数据处理涉及的加工处理比一般的算术运算要广泛得多。
计算机数据处理主要包括8个方面。
①数据采集:采集所需的信息。
②数据转换:把信息转换成机器能够接收的形式。
③数据分组:指定编码,按有关信息进行有效的分组。
④数据组织:整理数据或用某些方法安排数据,以便进行处理。
⑤数据计算:进行各种算术和逻辑运算,以便得到进一步的信息。
⑥数据存储:将原始数据或计算的结果保存起来,供以后使用。
⑦数据检索:按用户的要求找出有用的信息。
⑧数据排序:把数据按一定要求排成次序。
数据处理的过程大致分为数据的准备、处理和输出3个阶段。在数据准备阶段,将数据脱机输入到穿孔卡片、穿孔纸带、磁带或磁盘。这个阶段也可以称为数据的录入阶段。数据录入以后,就要由计算机对数据进行处理,为此预先要由用户编制程序并把程序输入到计算机中,计算机是按程序的指示和要求对数据进行处理的。所谓处理,就是指上述8个方面工作中的一个或若干个的组合。最后输出的是各种文字和数字的表格和报表。
数据处理系统已广泛地用于各种企业和事业,内容涉及薪金支付,票据收发、信贷和库存管理、生产调度、计划管理、销售分析等。它能产生操作报告、金融分析报告和统计报告等。数据处理技术涉及到文卷系统、数据库管理系统、分布式数据处理系统等方面的技术。
此外,由于数据或信息大量地应用于各种各样的企业和事业机构,工业化社会中已形成一个独立的信息处理业。数据和信息,本身已经成为人类社会中极其宝贵的资源。信息处理业对这些资源进行整理和开发,借以推动信息化社会的发展。 根据数据处理的不同阶段,有不同的专业工具来对数据进行不同阶段的处理。
在数据转换部分,有专业的ETL工具来帮助完成数据的提取、转换和加载,相应的工具有Informatica和开源的Kettle。
在数据存储和计算部分,指的数据库和数据仓库等工具,有Oracle,DB2,MySQL等知名厂商,列式数据库在大数据的背景下发展也非常快。
在数据可视化部分,需要对数据的计算结果进行分析和展现,有BIEE,Microstrategy,Yonghong的Z-Suite等工具。
数据处理的软件有EXCEL MATLAB Origin等等,当前流行的图形可视化和数据分析软件有Matlab,Mathmatica和Maple等。这些软件功能强大,可满足科技工作中的许多需要,但使用这些软件需要一定的计算机编程知识和矩阵知识,并熟悉其中大量的函数和命令。而使用Origin就像使用Excel和Word那样简单,只需点击鼠标,选择菜单命令就可以完成大部分工作,获得满意的结果。
大数据时代,需要可以解决大量数据、异构数据等多种问题带来的数据处理难题,Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统 Hadoop Distributed File System,HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。 有关商务网站的数据处理:由于网站的访问量非常大,在进行一些专业的数据分析时,往往要有针对性的数据清洗,即把无关的数据、不重要的数据等处理掉。接着对数据进行相关分分类,进行分类划分之后,就可以根据具体的分析需求选择模式分析的技术,如路径分析、兴趣关联规则、聚类等。通过模式分析,找到有用的信息,再通过联机分析(OLAP)的验证,结合客户登记信息,找出有价值的市场信息,或发现潜在的市场。