flink血缘解析原理分析

如题所述

第1个回答 2022-06-22

参考dlink实现血缘解析程序流程图

对于经过parse阶段解析出的AST语法树结果需要进行有效性校验，SqlToOperationConverter.convert(planner, this.catalogManager, parsed)方法负责校验sql语句，并将其转为Operation。该方法内部首先会对解析后的SQL语法树进行校验。具体验证的方面主要包括以下两方面，1.表名、字段名、函数名是否正确，如在某个查询的字段在当前SQL位置上是否存在或有歧义；2.特定类型操作自身的合法性，如group by聚合中的聚合函数是否存在嵌套调用，使用AS重命名时，新名字是否是x.y的形式等。使用flinkPlanner.validate(sqlNode)方法会拿到校验后的SqlNode变量，会判断SqlNode的类型，采用不同的转换逻辑最终获得需要的Operation对象。

rel阶段是将SqlNode组成的一棵抽象语法树转化为一棵由RelNode和RexNode组成的关系代数树，并且此阶段只处理DML与DQL，因为DDL实际上可以认为是对元数据的修改，不涉及复杂关系查询，也就不用进行关系代数转换来优化执行，所以也无需转换为表示，根据对应的SqlNode中保存的信息已经可以直接执行了。对于DML语句会执行converter.convertSqlQuery(validated),该方法内部会先创建出Rel转换器，由Calcite转换为Relation tree，最终生成一个PlannerQueryOperation。将Calcite转换成的reletional tree包装在其中，对于转换过程本身并不涉及很复杂的算法，大部分过程都是提取已有SqlNode节点中记录的信息，然后生成对应的RelNode和RexNode，并设置RelNode间的父子关系。

在Translate阶段，通过Blink Planner 的translateToRel、optimize、StreamGraph和ObjectNode四个阶段:将Operation转换成 ObjectNode。从operation开始，先将ModifyOperation通过translateToRel方法转换成Calcite RelNode逻辑计划树。在Explainer#translateObjectNode()方法内部可以会先将modifyOperations数组组装出来，然后通过PlannerBase#translate(modifyOperations)方法获取到Transformation数组。并将其作为参数传入ExecutorUtils#generateStreamGraph()方法获取到StreamGraph。在Executor#getStreamGraph()方法中通过使用JSONGenerator，ObjectMapper进行封装最后返回ObjectNode。然后通过TransGenerator(plan).translateTrans()获取ObjectNode里的节点信息最后组装成Trans数组，以便后续得到最终的实体对象LineageColumnGenerator。

相似回答

基于Flink的实时计算平台的构建答：针对日志数据，由Flume来进行统一收集，并发送至kafka。消息队列的数据既是离线数仓的原始数据，也是实时计算的原始数据，这样可以保证实时和离线的原始数据是统一的。2. 计算层 Flink 有了源数据，在计算层经过Flink实时计算引擎做一些加工处理，然后落地到存储层中不同存储介质当中。3. 存储层 HBase、...

如何进入大数据领域,学习路线是什么?答：第四部分为数仓建设主要讲解数仓仓库的历史背景、离线数仓项目-伴我汽车（5T）架构技术解析、多维数据模型处理kylin（3.5T）部署安装、离线数仓项目-伴我汽车升级后加入kylin进行多维分析等；第五阶段为分布式计算引擎主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu，并通过某p2p平台项目实现...

从大数据入门,到达到一定水平,在学习路径上有什么建议答：因为当前的大数据技术主要是用 Java 实现的或者是基于 Java 的，想入行大数据，Java基础是必备的；2、Java开发能力需要通过实际项目来锻炼在学习完Java语言之后，往往只是掌握了Java语言的基本操作，只有通过真正的项目锻炼才能进一步提高Java开发能力。3、大数据开发有明显的场景要求大数据开发是基于目前已有...

大数据有什么学习路线?答：如果你是金融专业，你可以学习，因为这结合起来你自己的专业，将让你在只有你专业知识的竞争者之中脱颖而出，毕竟现在AI+已经涉及到金融行业了。说了这么多，无非就是想告诉你，大数据的三个大的发展方向：平台搭建/优化/运维/监控；大数据开发/ 设计/ 架构；数据分析/挖掘。请不要问哪个容易，只能说...

入门大数据需要学习什么内容?答：第四部分为数仓建设主要讲解数仓仓库的历史背景、离线数仓项目-伴我汽车（5T）架构技术解析、多维数据模型处理kylin（3.5T）部署安装、离线数仓项目-伴我汽车升级后加入kylin进行多维分析等；第五阶段为分布式计算引擎主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu，并通过某p2p平台项目实现...

大数据主要学习什么知识?答：第四部分为数仓建设主要讲解数仓仓库的历史背景、离线数仓项目-伴我汽车（5T）架构技术解析、多维数据模型处理kylin（3.5T）部署安装、离线数仓项目-伴我汽车升级后加入kylin进行多维分析等；第五阶段为分布式计算引擎主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu，并通过某p2p平台项目实现...

大家正在搜

flink流式处理的原理 flink原理WaterMark flink原理与实现pdf flink原理 flink集群原理 flink架构原理 flink集群高可以原理 flink集群高可用原理 flink原理、实战与性能优化