图神经网络是大数据时代发展的必然(原创)

如题所述

第1个回答  2022-07-23
        大数据的核心是数据智能。数据智能的本质是在大量样本中发现、评估若干概念之间的关联性,归纳形成数学表达,再利用数学表达进行推理运算,从而完成对未知样本的判断决策。这就需要发现海量数据背后的规律,解决数据表征问题。数据智能先后经历了专家系统、传统机器学习和神经网络三个阶段,输入的知识从具体到抽象,从规则到特征再到模式,越来越宏观,智能化处理效率越来越高,对底层的感知和模型的可解释性越来越弱化。随着专家系统逐渐淡出,传统机器学习和神经网络成为数据智能的两大常见技术。实践证明,随着数据集样本的增多,传统机器学习的性能不及神经网络(见图一)。这主要归结于前者的表达能力不如后者。Goodfellow在2013年ICML(国际机器学习大会)上发表了论文《MaxoutNetworks》(最大输出网络)。在这篇论文中证明了MaxoutNetworks能够无限逼近任意连续函数。也即是说,神经网络能够拟合任意连续函数,与传统机器学习相比,神经网络具有突出的表达能力优势。

         (上图):横轴代表数据量,纵轴代表算法精度     

        我们看到几个趋势:行业数据量指数级增长、以GPU为代表的专业芯片算力增长、新型算法层出不穷、学术界的前沿研究、投资界的资金投入、工商业的多种场景,这些因素都促进了神经网络快速发展。神经网络的发展形态有两种方向:一是以DNN深度全连接和CNN卷积神经网络为代表的纵向发展,即层数增多的纵向迭代,典型应用是CV计算机视觉;二是以RNN循环神经网络为代表的横向发展,即神经元之间的横向迭代,典型应用是以NLP自然语言理解为代表的序列处理。神经网络技术同时呈现两种发展形态,并在多个领域有广泛应用,就说明这个技术已经进入成熟期了。下一步往哪个方向发展?很有可能是:将纵向发展和横向发展进行结合,渗透到更多的应用领域。这看似顺水推舟的事情。事实证明,这个判断是正确的,图神经网络就是二者的结合。

        纵观技术圈的发展历史,可以总结出这样的事实:一个理论技术能否在更多的领域推广,关键取决于它能否真实地刻画现实世界的实体特征和关系。如果它刻画得越真实,那么它的应用场景就越多。比如马尔科夫链这个理论,就真实地刻画了现实世界中的时序对象的特征和依赖关系,因此它广泛应用在语音理解、机器翻译、国民经济、事件预测等领域;再如概率图理论,用图来表示事件概率的依存关系,也是真实刻画了现实世界中的实体关系,因此它也广泛应用在反欺诈、图像理解、事件预测等领域。从方法论看,要刻画现实世界的实体,就必须在模型中置入代表这个实体的节点,并且设计出实体之间的依赖关系转化。但无论是马尔科夫链还是概率图等方法,都弱化了嵌入表示,从而丢失了一些隐语义信息,是有缺憾的。

图神经网络(GraphNeural Networks,GNN)的问世,使事情出现了转机。在图神经网络中,存在两种网络。一种是拓扑结构网络,通常描述众多实体及其关系;另一种是特征变换神经网络,通常用于节点、边、图或子图的特征转化。前者完成信息横向传播,实现图信号的拓扑关系传递,理论依据是图论;后者完成信息纵向传播,实现原始特征向嵌入表示的转化,理论依据是深度学习。图神经网络是图论与深度学习的完美结合,它既考虑了实体关系,又考虑了实体特征。与传统图方法和传统深度学习相比,图神经网络具有明显的优势:建模来源数据更充分,更能反映现实世界中实体之间的真实关系,它既能从图结构代表的非欧式空间数据中学习到语义表示,又能让学习到的语义表示最大限度地符合图结构的实体关系。

        现实世界中80%以上的数据更适合用图结构来刻画,比如交通数据、社交数据、分子结构数据、行业经济数据等。图神经网络能适应这样的数据,在分布式学习架构下,图神经网络能处理的数据规模非常庞大,非常适合处理数亿节点的产业数据。因此图神经网络的应用场景更为广泛。近三年来,各种国际顶会关于图神经网络的论文频频发布,众多互联网科技公司(如阿里、百度、字节跳动)花重金在这一领域布局,并取得重大进展,广泛应用于关联搜索、实时推荐、风险防控、异常检测、行为预测、模式识别等。这些现象无疑说明了图神经网络是未来技术发展的重要领域方向。

        综上所述,在行业数据、算法理论、算力支持、市场需求、资本涌入等背景下,图神经网络的迅速崛起是大数据时代发展的必然。
相似回答