数据集成的三种方法

如题所述

数据集成的三种方法
目前数据集成的一般方法可以概括为联邦式、中间件式、数据仓库模式等。(1)联邦模式该模式构建的数据集成系统是由自治的多个数据库系统的协作组成,各个数据源之间提供相互访问的接口。该架构的集成系统以全局模式整合各异构数据源的数据视图。全局模式描述异构数据源的数据结构、语义和操作,是虚拟的数据源的数据视图,能够让用户透明地进行数据访问。用户根据全局模式向系统发出访问请求,系统将这些请求变换为各个异构数据源在自治系统内能够执行的操作。构建全局模式与异构数据源数据视图间的映射关系和处理用户在全局模式查询请求是该模式需要解决的两个关键问题。
(2)中间件模式在中间件模式的数据整合系统中,中间件一般位于数据层和应用层的中间,向下可以对不同的数据库系统进行协调,向上可以向不同的应用提供统一的访问接口和数据模式,中间件系统主要是为分布式环境中的异构多数据源提供统一的检索服务,各个数据源仍然具有各自的独立性。中间件模式的架构通常由中介器和包装器组合构成。其中,中介器能够将针对全局模式的查询进行分解后,生成为针对不同异构数据源的子查询交由包装器执行,查询结束后将所有子查询的结果汇总后以统一的格式返回给用户:针对不同数据源的包装器,可以将不同数据源中的异构数据转换成整合系统可以处理的统一格式的数据(3)数据仓库模式数据仓库是面向主题的、集成的、和时间相关的数据集合,数据被归类为广义的、功能独立的、没有重叠的主题,用于数据分析和决策支持的系统,也是针对企业应用提出一种数据整合方法。该模式采用在单一的数据仓库中存储多个异构数据源的副本的方式,定期的由ETL(Extract,Transform,Load)工具从不同数据源中对数据进行抽取、转换,然后将其装载到数据仓库中,在数据仓库的基础上构建数据管理系统,处理用户的数据访问请求。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-06-01
比较常见的两种方法
1、编码集成:通过编写代码方式实现源端数据处理后传输到目标端。优点:成本低。缺点:无法应对多任务数、数据复杂度高、需求变化多的场景,后期维护困难。
2、工具集成:使用ETL工具实现源端数据处理后传输到目标端。优点:效率高、能快速响应需求,一般都有监控预警功能。缺点:需要一定的学习成本,付费软件成本高。推荐下免费的ETL工具,希望对大家有帮助。如国外的Kettle,国内的DataX、ETLCloud社区版。如果考虑数据安全等因素,建议选择国内的产品,ETLCloud社区版有社区服务,能较好解决技术组成问题。
相似回答