"); //-->
来源:知乎
似乎一夜之间,所有的互联网公司在对外的宣传稿中都会提及自己使用机器学习和大数据技术,一时间成为了近几年来最炙手可热的名词,不谈机器学习、大数据似乎都不好意思说自己是做高新技术的了。
百度搜索指数:机器学习
百度搜索指数:大数据
上图来自最近7年来这两个词的百度搜索指数,可以看到从2013年开始一直在稳步攀升,在2017年的时候迎来了爆发式的增长,这些都与我们的感知类同。
机器学习与人脑思维的区别
机器学习和大数据应用是相辅相成的,目的是想用机器去模拟人类的思考过程,人类通过自身经历经过思考可以形成经验,并用来解决新的问题,而机器学习是需要利用大量的历史数据去训练一个模型去解决一个特定的问题:比如识别两张脸是否一致、该用户是不是精准客户等。
虽然这两个词这两年才火起来,但是这些概念早在半个多世纪前就有理论的提出,尤其机器学习的算法已经在几十年前就非常成熟了,但是受制于计算效率、存储等硬件的限制,大数据和机器学习在实际业务上的应用场景十分受限,很难有大规模的场景应用。最近十年来随着存储、芯片等层面的突破让大数据和机器学习的计算应用成本大大降低,这也支撑了基于这两项技术的应用场景呈现爆发式增长。
除了机器学习之外,我们也发现互联网信贷成为了这几年最火的行业方向,互联网信贷的工作重心在风控。于是天作佳成,正如目前我们看到的,信贷风控成为当前机器学习和大数据技术最适合也是最成熟的应用场景之一:
1.金融业务自身需要大量的数据且也会产生更多的数据,这天然的让信贷风控成为最适合大数据和机器学习的场景;
2.风控涉及的数据量大、数据面广、关联复杂,也急需利用大数据和机器学习技术解决风控过程中效率低、缺乏公平准则、风险难以量化的问题;
所以正是因为这样的相互依赖,信贷风控成为当前大数据和机器学习技术应用最成熟的领域之一。
信贷风控中的主要问题
信贷风控最关键的目标就是从全量申请用户样本中找到会逾期的客户,所以风控的核心目的是评估用户的还款意愿和还款能力。从过去的业务实践经验来看,风控当中需要重点关注的问题包括:
非本人申请:申请人利用虚假身份申请信贷,这一问题在信贷业务高速增长的蛮荒阶段,****或者互金机构缺乏对黑产全面的认知,在部分业务环节被黑产用虚假/残缺或者非本人身份证欺诈,包括一些知名的持牌消金机构也遇到过大量类似的欺诈案例。
伪造资料:申请人为了更容易获得贷款或者贷后恶意逾期避免催收,伪造收入证明、联系人、工作地址等资料。
中介团伙:中介在网络上大量招徕需要信贷申请的用户,使用不同的攻略“教”客户如何有机会以较高概率通过****/信贷机构的审核。
历史信用记录:用户历史如果存在大量失信行为,或者存在****/毒等不良社会行为,那么其逾期失联的概率也很高。
还款能力不足:申请人负债收入比较高,外部有大量债务且自身收入不稳定,这些都有可能导致用户愿意还款但是却没有能力还款。
基于大数据和机器学习技术的风控解决方案
为了解决上述的这些问题,目前业内已经形成了一套基于大数据和机器学习技术的较为完整的解决方案。
非本人申请:人脸识别技术
目前人脸识别技术已经应用在生活中的方方面面,如刷脸支付、高铁进站甚至公安的天网系统;而在金融业务中,****办理、网贷申请也都普遍使用人脸识别:将申请人照片与在公安系统中身份证存照进行比对,判断两张照片的相似度,可有效避免非本人申请的问题。
与人类识别面部类似,当我们人类对一个人比较熟悉的时候,我们很容易根据他的面部特征与我们在脑海里过去存储的特征进行比对,就能判断这个人是否是这个人(虽然也会有误判的时候),同样的,人脸识别技术的背后也是一套深度学习的算法,把我们思考的过程转化为模型算法,目前市面上有多家提供人脸识别服务的商业化应用公司,不过其算法的本质基本是类同的,人脸识别的核心思想在于:不同人脸由不同特征组成。
理解这个思想,首先需要引入的的是“特征”的概念。先看下面这个例子:
最简单的人脸特征
假设这 5 个特征足够形容一张人脸,那每张人脸都可表示为这 5 个特征的组合:
(特征1,特征2,特征3,特征4,特征5)
一位双眼皮,挺鼻梁,蓝眼睛,白皮肤,瓜子脸的小姐姐即可用特征表示为(见表格加粗项):(1,1,0,1,0)
那么遍历上面这张特征表格一共可以代表32张不同的脸。32 张脸可远远不够覆盖70 多亿的人口。为了让不同特征组成的人脸能覆盖足够多人脸,我们需要扩充上面那张特征表。扩张特征表可以从行、列两个角度展开。
列的角度很简单,只需要增加特征数量:(特征6.脸型,特征7.两眼之间距离,特征8.嘴唇厚薄…)实际应用中通常应用 128,256,512 或者 1024 个不同特征。从行的角度扩充也很好理解,比如“特征3”,除了值 0 代表蓝色,值 1 代表灰色,是不是可以增加一个值 2 代表黑色,值 3 代表没有头发呢?此外,除了这些离散的整数,我们也可以取连续的小数,比如特征 3 的值 0.1,代表“蓝中略微带黑”,值 0.9 代表“灰中带蓝”……
百度开源平台:面部特征识别
经过这样的扩充,特征空间便会变得无限大。扩充后特征空间里的一张脸可能表示为:
一张脸提取出128维特征变量
用于表示人脸的大量特征从哪来?这便是深度学习(深度神经网络)发挥作用的地方。它通过在千万甚至亿级别的人脸数据库上学习训练后,会自动总结出最适合于计算机理解和区分的人脸特征。
阐明了不同人脸由不同特征组成后,我们便有了足够的知识来分析人脸,算法工程师通常需要一定的可视化手段才能知道机器到底学习到了哪些利于区分不同人的特征:同一人的不同照片提取出的特征,在特征空间里距离很近,不同人在特征空间里相距较远。
三张不同角度的撒贝宁照片经过神经网络提取出 128 维的特征后,变成了 3 个在 128 维空间中的点(红色),刘德华的特征点为绿色。
不过在实际应用中在光照较差、遮挡、形变(大笑)、侧脸等诸多条件下,神经网络很难提取出与“标准脸”相似的特征。另外,在金融风控领域还需要解决伪造人脸的情况,面对这些问题,通常采取四种应对措施:
1. 工程角度:研发质量模型,对检测到人脸质量进行评价,质量较差则不识别/检验。
2. 应用角度:施加场景限制,比如刷脸解锁、人脸闸机、会场签到时,都要求用户在良好的光照条件下正对摄像头,以避免采集到质量差的图片。
3. 算法角度:提升人脸识别模型性能,在训练数据里添加更多复杂场景和质量的照片,以增强模型的抗干扰能力。
4.精准活体识别:通过3D建模软件可以使用用户已有的照片模拟一张真实的头像,以此来骗过人脸识别算法,所以如何验证这个头像是来自一个真实的人同样也是一个机器学习的过程。
鲲鱼科技-灵犀联合实验室“模拟人脸攻击”示例
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。