一、互联网是个非常复杂的网络,基于网络的反欺诈风控算法有哪些?
今日分享 / 基于图神经网络的互联网金融欺诈检测
文 / 敖翔博士 中国科学院计算技术研究所 副研究员
阅读收益:
1- 用GNN做欺诈检测为什么行?
2- 用GNN做欺诈检测有什么坑?
3- 用GNN做欺诈检测还有什么趋势?
学习PPT:https://pan.baidu.com/s/1aV9LBsLs1UVDN-7rQ74nlA
导读
欺诈检测因类别分布不平衡、概念漂移、自然误差等因素使得深度学习方法的自动特征提取能力难以充分发挥,进而影响模型的学习效果。近年来兴起的图神经网络由于其强大的关联特征感知、提取能力,为改善上述挑战带来机会。但其平滑的消息传递机制很难克服严重的类别分布不平衡现象,由于欺诈者的故意伪装又会对建模带来进一步挑战。本报告将围绕基于图神经网络的欺诈检测若干关键问题,介绍近期在此方向的研究进展及其在互联网金融欺诈场景的应用效果,最后探讨未来该方向的潜在研究趋势。
后疫情时代的互联网金融欺诈
新冠疫情的爆发以前所未有的方式冲击了世界经济,进一步增加了平台遭受金融欺诈的风险。根据一份英国媒体的报道,2020年4月,英国金融产品的欺诈率环比上升了33%。同时,根据美国FIS的报告,同一时期美国的交易欺诈率同比上涨35%。由此可以看出,新冠疫情打击了全球经济,下行的经济趋势导致了金融欺诈案件数量的攀升。在金融欺诈数量增长的同时,金融欺诈的形式也出现了变化,例如:
- 金融业务因疫情被迫向线上转移。如传统银行、保险和证券的业务从传统线下业务向线上迁移。在此过程中,机构难以获得全面的客户身份验证信息,加之现今信息欺诈技术的升级,导致信用欺诈频发。
- 很多互联网公司进军金融行业,推出新的金融产品和服务。一方面推动了金融的发展,但另一方面为互联网金融欺诈提供了新的舞台。比如阿里巴巴在其平台上向小企业主提供低息贷款,这类小型贷款无需抵押,贷款人存在较高违约风险。
接下来先了解一下传统欺诈检测和互联网欺诈检测任务。
1. 传统欺诈检测任务的挑战
在传统的欺诈检测任务中,主要会面临以下几个挑战:
- 类别不平衡,在数据中欺诈数据比例相对较低。
- 概念漂移,数据分布随着时间会产生一定的变化。
- 数据不可信,未被标注为欺诈的数据并不一定是可信的,有可能是因为发生了欺诈但未被识别。因此训练样本可能不是100%真实准确的。
2. 互联网欺诈检测任务的挑战
我们现在所面临的互联网欺诈检测任务挑战更加严峻:
- 类别极度不平衡,导致样本价值敏感度不同。由于互联网用户基数更大,欺诈率从传统银行约2%降低至万分之一甚至更低,因此识别欺诈案例难度再次升级。
- 对抗攻击,导致出现分布外的样本。欺诈者可能通过改变以往行为、模仿正常用户行为等方式逃过反欺诈模型的检测。欺诈手段的快速变化也对欺诈检测提出了新的挑战。
- 标注稀缺,导致特征学习的指导信号弱。互联网金融产品大多都是创新性产品,由于出现时间较短,大多数据尚缺乏完备的标注,如何在新场景中检测欺诈就变成了新的挑战。
总结以上三点,对于互联网欺诈检测最大的难点在于发现有效的特征。
用图神经网络为什么行?
在详细讨论为什么图神经网络可以用于解决以上问题之前,需要先了解一下欺诈检测数据和方法的演化。
① 欺诈检测数据的演化:
- 早期数据是基于量化表格的结构化数据,使用简单模型就可以得到较好的结果。
- 随着时间发展,数据逐渐变复杂,出现了大量半结构化数据如XML文件和访谈表格等。
- 现如今,很多数据是非结构数据如文本、视频甚至遥感数据等。
② 欺诈检测方法的发展:
- 1980年代,欺诈检测方法是基于规则系统。
- 1990年代,欺诈检测方法借鉴了传统机器学习模型。
- 现在,由于数据结构非常复杂,特征很难提取,深度学习模型开始成为主流,即让模型自己去学习特征。
综上所述,欺诈检测的数据和方法都趋于复杂。
1. 图神经网络:一种新的趋势
互联网的数据往往呈现多源异构的特点。我们可以将多源异构数据整合成图来表示,并设计基于图神经网络(GNN)的方法来发现欺诈活动。图神经网络作为一种深度学习模型,具有特征学习能力,可用于半监督学习问题,贴合欺诈检测场景的特征,所以成为了新的趋势。在我们的实验研究中,运用图神经网络研究欺诈检测取得了一定进展。
比如在我们的一项研究中,结合专业风控专家的建议,将八种风控规则以元路径形式指导节点特征采样,优化特征提取过程。
相比于以往采样该用户所有的邻居,基于这些元路径,我们在采样时会有一定的侧重,可以提升采样效果。接着我们对采样的路径进行编码,并在编码中加入注意力机制以学习到更强的表示。最后基于学习到的表示判断该用户是否存在欺诈行为,具体模型如下图所示:
我们在阿里巴巴真实的数据集上进行实验,与当时最好的方法相比均有提升,实验结果如下:
综上所述,经过研究,融合多源异构数据并结合图神经网络方法有助于特征的提取。随着我们对于GNN的进一步了解,我们也发现了在使用GNN时遇到的一些问题。接下来讨论在用GNN可能会遇到哪些坑,以及如何缓解。
用图神经网络有什么坑?
图神经网络的核心思想是消息传递。对于一个目标节点,周围的邻居通过消息传递生成目标节点的embedding表示。GNN的一个基本假设是同质偏好假设,意思是在图中邻居之间是相似的。但在我们面对的问题中,数据类别极度不平衡,一个欺诈用户的邻居可能大部分为好人,个别为欺诈者,GNN根据邻居传递消息后很可能错误地将此用户识别为好人,因为他的邻居大部分为好人。
1. PC-GNN:面向类别不平衡图的采样GNN
为了解决因数据不平衡带来的问题,我们采用了PC-GNN对GNN近邻采样的机制进行改造,以缓解类别不平衡的问题。PC指Pick和Choose,两种采样方式。具体来说,Pick是指我们根据标签类别分布占比,进行全局采样,使得多数类别和少数类别的采样更加平衡。
在局部,我们对少数类别的节点实施自适应过采样,对所有节点实施自适应降采样,这就是Choose,具体采样方式如下图所示。
举例说明,下图中节点 u,v,c 同属于一种少数类别。假设我们需要对节点v进行采样,我们会采样节点v周围与其所属相同类别并且隐含表示距离小于一个特定阈值的同类节点。如图,虽然u和v在图结构中本身不是邻居节点,但因为两者隐含表示的间距小于所定阈值,所以我们在采样时会把节点u也包含在内。这就是对少数类别的过采样。此外,还会对所有类别进行降采样。在采样时,我们不采样节点的全部邻居,而是将其邻居集合中隐含表示间距小于特定阈值的节点保留,其他的删除,从而挑选与该节点更相似的个别邻居。
通过以上两种方式,我们可以得到一个相对平衡的训练数据。下图是整个结构的示意图:
训练阶段,Pick和Choose过程所有的步骤都可以正常做。但是在测试阶段,由于类别的信息不可知,所以Pick以及Choose中的过采样是做不了的,但Choose中的降采样依然可以做,我们通过实验发现,它依然可以提升效果。我们在公开测试集(YelpChi和Amazon Musical Instrument商品评论)和真实数据集(阿里巴巴真实数据)进行实验,用F1-macro, AUC和GMean作为评价指标,与GCN, GAT, DR-GCN, GraphSAGE, GraphSAINT, Graph Consist和CARE-GNN等进行比较,得到如下实验结果:
在Amazon和YelpChi数据上,PC-GNN比作为state-of-art的CARE-GNN的AUC提升3.6%-5.2%,比GMean提升了0.6%-3.7%。
与此同时,我们还进行了消融实验,实验结果如下。我们发现,Pick的全局采样是基础,Choose板块可进行一些精细化操作,使得模型进一步提升。
2. AO-GNN:面对类别不平衡图的AUC最大化GNN
有了采样的方法后,我们进一步思考是否可以借鉴价值敏感方面的方法来解决类别不平衡的问题。根据最近一些机器学习理论会议关于AUC优化的研究,我们尝试将AUC最大化与GNN进行融合,因为优化AUC的训练倾向于获得一个既能区分良性节点又能区分欺诈节点的模型。按此思路,我们提出了AO-GNN结构模型。
首先,因为直接优化AUC的计算复杂度相对较高,我们将其转化为鞍点搜索问题,以此实现AUC最大化。具体数学公式推演可参照论文 “AUC-oriented Graph Neural Network for Fraud Detection”(Huang, 2022)。运用GNN可能存在的另一个问题是欺诈者可能主动伪装导致图结构已被“污染”,欺诈节点经常通过与其他节点交互来混淆他们的身份。因此,我们提出在进行AUC最大化的同时,设计一个拓扑结构优化器净化被污染的图拓扑结构。其基本思路是向着AUC增大的方向优化图拓扑结构。优化结构的方式是运用强化学习对于图结构进行剪边,具体结构如下图所示。
需要注意的是,这里我们在两处分别运用GNN,一个是环境中我们使用GNN编码,在reward的计算过程中我们运用GNN分类器预测得到AUC-ROC变化值。
整体的AO-GNN结构图如下:
对于AO-GNN我们在公开数据集YelpChi, Amazon和Books进行了实验,结果如下。从实验中我们发现AO-GNN相较于PC-GNN的表现又有一定提升。
用图神经网络有什么趋势?
最后,讨论一下有关图神经网络在欺诈检测任务上的研究趋势。
我认为未来的趋势大概有以下三个方向:
第一是关于“场景依赖”问题的研究。在互联网数据中,场景应用变化很快,如何在不同场景中自适应地学习与场景有关的特征是一个值得研究的问题。
第二个方向是“对抗攻击与防御”。用户有可能频繁改变自身特征,以至于模型无法分辨。因此对于欺诈行为的动态对抗防御是一个很重要的研究方向。
第三个方向是“预训练模型”。我们不是直接对于GNN进行预训练,而是基于大量无标注的行为数据进行预训练,并对从中提炼的知识加以有效利用。通过将预训练模型与下游场景数据进行融合精调,使GNN模型达到更好的效果。
二、描写网络复杂的句子?
网络上的内容非常的复杂,所以我们一定要保护好孩子,不要让他们轻易观看
三、揭示机器学习在复杂网络中的潜力与应用
在如今这个数字化迅猛发展的时代,机器学习以其惊人的能力深深吸引了各行各业的目光。但提到复杂网络,许多人可能会感到陌生,那么这两者之间究竟有什么样的关联呢?今天,我将带您深入探讨这个话题,揭示机器学习在复杂网络中的潜力与应用。
复杂网络是由许多节点与连接(边)组成的结构,这些节点可以是社会中的人、互联网的网页、或生物系统中的细胞等等。机器学习则是一种使计算机系统能够通过数据学习并做出决策的技术。将这两个领域结合在一起,可以产生许多革命性的应用,推动科学研究和技术创新。
机器学习如何帮助分析复杂网络
面对庞大的复杂网络,传统的数据分析方法常常面临挑战,难以从中提炼出有价值的信息。而机器学习通过算法和模型,能够有效识别数据中的模式和规律:
实例解析:社交网络中的应用
社交网络无疑是复杂网络的一个典型代表。让我们看看机器学习如何在这一领域大展拳脚。
以Facebook为例,利用机器学习算法,该平台能够分析用户之间的互动,识别出潜在的好友推荐。通过深度学习技术,算法将历年的数据进行训练,从中找出用户更可能感兴趣的人,优化社交体验。
此外,机器学习同样可以帮助打击社交网络上的不当内容。例如,某些算法能够自动识别出仇恨言论或假新闻,保护用户的权益和社交环境的安全。
前景展望:机器学习与复杂网络的未来
随着数据规模的不断扩大,机器学习与复杂网络的结合为我们带来了无限的可能性。我个人相信,这一领域未来将有更多创新。
那么,作为普通读者,我可能会想,学习这些知识该如何入手呢?我建议感兴趣的朋友们可以从简单的机器学习和网络分析的入门书籍开始,逐步深入,借助一些在线课程加速自己的学习进步。
总结来说,机器学习与复杂网络的结合无疑是在推动科学技术进步的一项伟大探索,期待未来能有更多的研究成果和应用。让我们共同关注这个领域的发展!
四、什么网络拓扑结构适合复杂的网络?
网状网络拓扑结构适合复杂的网络。
优点:系统可靠性高,比较容易扩展,但是结构复杂,每一结点都与多点进行连结,因此必须采用路由算法和流量控制方法。目前广域网基本上采用网状拓扑结构。
网络 的拓扑结构我们并不陌生,都是我们平常经常见到的,学习过的知识,在不同的环境中换了一个名称而已.不管是局域网或广域网,其拓扑的选择,需要考虑诸多因素:网络既要易于安装,又要易于扩展;网络的可靠性也是考虑的重要因素,要易于故障诊断和隔离,以使网络的主体在局部发生故障时仍能正常运行;网络拓扑的选择还会影响传输媒体的选择和媒体访问控制方法的确定,这些因素又会影响各个站点在网上的运行速度和网络软、硬件接口的复杂性。
五、机器人是基于什么发明的?
发明第一台机器人的正是享有“机器人之父”美誉的恩格尔伯格先生。 恩格尔伯格是世界上最著名的机器人专 家之一,1958年他建立了Unimation公司,并于1959年研制出了世界上第一台工业机器人,他对创建机器人工业作出了杰出的贡献。
六、oppo基于网络的位置服务?
打开手机,找到一个空白的地方,然后两个手指往里缩。
2、然后下排会出来选项,点击oppo手机自带的中华万年历。
3、然后再随便选择一个喜欢的样式。
4、选择以后,点击图标调节时间和天气显示的亮度。
5、最后可以看到已经在桌面上设置完了,显示的位置可以根据需求再调节。
七、基于网络的ais的名词解释?
基于网络的AIS(Automatic Identification System)是一种利用网络技术实现的船舶自动识别系统。AIS是一项全球船舶通信和定位系统,旨在提高船舶的安全性和航行效率。它通过无线电通信技术,将船舶的相关信息(如位置、速度、航向、船名、呼号等)传输到附近的船舶、陆地基站和相关监控中心。
基于网络的AIS扩展了传统的AIS系统,利用互联网和网络技术,将AIS数据传输到更广泛的用户范围,提供更多的功能和服务。基于网络的AIS可以通过在线平台、应用程序或专门的数据提供商来访问和查询船舶的实时位置和相关信息。它可以实现船舶监控、航行规划、航行预测、船舶交通管理等功能,并为船舶运营、港口管理、海事监管等领域提供重要的数据支持。
基于网络的AIS为航海业界和相关利益相关者提供了更广泛、更实时的船舶信息,有助于改善船舶安全性、减少碰撞风险,并提高船舶运营的效率和可持续性。
八、基于机器学习的标签图谱
基于机器学习的标签图谱是当今数据处理和信息检索领域中一个备受关注的话题。随着互联网内容的爆炸性增长,文本数据的处理变得愈发复杂和困难。为了更好地组织和理解海量文本数据,基于机器学习的标签图谱应运而生。
什么是标签图谱?
标签图谱是通过自动提取文本数据中的关键信息和标签,以构建一个结构化的图形化表示形式,从而帮助用户更有效地理解和浏览文本数据。这种图谱不仅可以提供数据的分类和组织,还可以帮助用户快速定位所需信息。
基于机器学习的标签图谱的优势
相较于传统的人工标注方法,基于机器学习的标签图谱具有以下几大优势:
- 效率更高:机器学习算法可以自动从大规模文本数据中学习并提取标签,避免了繁琐的人工标注过程。
- 准确度更高:基于机器学习的算法可以根据大数据量进行训练,从而提高标签提取的准确性和覆盖范围。
- 可扩展性强:一旦建立了基础的标签图谱模型,可以通过不断的数据采集和迭代训练来扩展和优化图谱。
应用领域
基于机器学习的标签图谱在各个领域都有着广泛的应用,包括但不限于:
- 搜索引擎优化:通过标签图谱可以提高网页内容的关联性和准确性,从而优化搜索引擎的检索结果。
- 信息检索:标签图谱可以帮助用户更快速地找到所需信息,提升信息检索的效率。
- 智能推荐系统:基于用户的浏览行为和偏好,标签图谱可以为用户提供个性化和精准的推荐内容。
- 舆情分析:通过分析大规模的文本数据,可以构建相关标签图谱来实现舆情监控和分析。
挑战与未来发展
尽管基于机器学习的标签图谱在各个领域都有着广泛的应用前景,但也面临一些挑战:
- 数据质量:标签图谱的质量取决于训练数据的质量,需要处理好数据的噪声和不完整性问题。
- 算法优化:机器学习算法的选择和优化对标签图谱的效果至关重要,需要不断探索和改进。
- 隐私保护:在构建标签图谱的过程中,需要注意用户数据的隐私保护和合规性。
未来,随着人工智能和大数据技术的不断发展,基于机器学习的标签图谱将不断完善和深化应用,为各行各业带来更多的创新和机遇。
九、基于数字孪生的机器学习
基于数字孪生的机器学习:利用虚拟镜像的数据驱动方法
数字孪生技术近年来在工业界引起了广泛关注,其结合机器学习方法为企业提供了前所未有的数据驱动决策能力。数字孪生是将实际物理实体或流程的数字化模型与实时数据进行整合,以模拟、预测和优化物理实体的运行状况。在制造业、能源领域和城市规划等方面得到了成功的应用,推动了智能制造和可持续发展。
基于数字孪生的机器学习方法将数字孪生技术与机器学习算法相结合,通过从数字孪生模型中学习实时数据并不断优化模型,实现数据驱动的智能决策。这种方法可以帮助企业提高运营效率、降低成本,甚至改变传统行业的商业模式。
数字孪生技术的优势
数字孪生技术的优势在于其能够实时监测和分析实际物理系统的运行状况,并通过模拟和预测优化系统性能。通过数字孪生模型,企业可以实现远程监控、预测性维护和智能优化,提高生产效率和产品质量。
与传统数据分析方法相比,数字孪生技术具有以下几点优势:
- 实时性:数字孪生模型能够实时获取和分析数据,及时发现问题并做出相应调整。
- 全面性:数字孪生模型可以模拟整个系统的运行状况,从而帮助企业全面了解系统性能。
- 可视化:数字孪生技术可以通过虚拟镜像展示物理系统的运行情况,使复杂数据变得直观易懂。
基于数字孪生的机器学习方法
基于数字孪生的机器学习方法结合了数字孪生技术和机器学习算法,形成了一种强大的数据驱动决策模式。通过从数字孪生模型中学习实时数据和历史数据,机器学习算法可以不断优化模型,实现智能决策。
数字孪生模型可以为机器学习算法提供大量实时数据,帮助算法更好地理解系统的运行规律和变化趋势。同时,机器学习算法可以通过优化数字孪生模型,提高模型的准确性和预测能力。
应用案例分析
数字孪生技术和机器学习算法在制造业、能源领域和城市规划等领域都有广泛的应用。下面我们以工业制造业为例,分析基于数字孪生的机器学习方法在质量控制方面的应用。
质量控制案例
在传统的制造业质量控制中,通常需要依靠人工检验和统计抽样等方法来检测产品质量问题。这种方法存在着效率低下、成本高昂和容易出错的缺点。
而基于数字孪生的机器学习方法可以通过实时监测生产线上的数据,并结合历史数据进行分析,及时发现产品质量问题并给出解决方案。通过优化数字孪生模型,可以实现智能化的质量控制,提高产品合格率和降低不良率。
技术挑战和展望
尽管基于数字孪生的机器学习方法在质量控制等方面取得了一定的成果,但也面临着一些技术挑战。例如,如何更好地融合数字孪生技术和机器学习算法,提高模型的准确性和稳定性等。
未来,随着人工智能和物联网技术的不断发展,基于数字孪生的机器学习方法将会得到进一步的完善和应用。我们期待这种数据驱动的智能决策模式能够为企业带来更大的商业价值和社会效益。
十、基于机器学习的项目实战
近年来,随着人工智能技术的不断发展和应用,基于机器学习的项目实战越来越受到关注。机器学习作为人工智能的一个重要分支,通过让计算机利用数据自动学习和改进,为项目实践提供了更多可能性。
机器学习的应用领域
在当今社会,基于机器学习的项目实战已经渗透到各个领域。从医疗健康到金融服务,从农业生产到智能制造,机器学习的应用无处不在。通过大数据分析和模式识别,机器学习帮助企业优化业务流程、提高生产效率,甚至可以帮助医生提前发现疾病迹象,实现精准治疗。
机器学习项目实战的关键步骤
要在项目中应用机器学习,关键在于理解机器学习的基本原理和方法,并结合实际场景进行合理的模型选择和特征工程。其次,需要对数据进行清洗和预处理,确保数据质量符合机器学习模型的要求。最后,在模型训练和评估中,需要不断优化参数和算法,以取得更好的预测效果。
成功案例分析
以金融风控为例,许多金融机构利用机器学习技术构建风险评估模型,帮助他们更准确地评估借款人的信用风险。通过对大量历史数据进行分析和建模,机器学习可以发现隐藏在数据背后的规律和不确定性,从而提高风控决策的准确性和效率。
未来发展趋势
随着技术的不断进步和数据的不断增长,基于机器学习的项目实战将在未来展现出更广阔的发展空间。深度学习、强化学习等新技术的不断涌现,将为机器学习的应用带来更多可能性,为各行业的发展带来更大的推动力。