1亿条信息泄漏,你的身份信息安全吗
· 拉卡拉支付股份有限公司、· 北京数知科技股份有限公司、· 拓尔思信息技术股份有限公司、· 北京旋极信息技术股份有限公司、· 北京蓝色光标数据科技股份有限公司。
仅分析这5家上市公司我们发现,清一色跟大数据、人工智能相关,部分甚至在行业中具有相当的影响力。
[1亿条信息泄漏?AI背后的数据安全更严峻]
大数据/AI公司特点
表面看,考拉征信爆发的原因是因为其利用手头掌握的个人信息资源的便利,向下游兜售,最终形成了黑色产业链。
实际上,目前的大数据公司、人工智能公司,都存在个人信息汇集的问题。我们知道,人工智能得以发展的3个要素中,数据是其中不可或缺的一环,AI算法的优化,需要通过无数的数据训练,才能得到最为优化的结果,因此,我们现在看到的人脸识别、车牌识别、大数据轨迹碰撞等人工智能应用,背后都是多年的人工智能算法训练的成果。
可以说,应用效果越好的AI算法,背后支撑的数据越庞大,而且通常这些用于训练的数据基本都是以万为单位,百万级都属于比较低的量级;在交通领域,百亿级数据都是常有的事。
两个渠道获取数据来源
随着大数据、人工智能技术的成熟,可关联的数据越来越多,除了人脸、人外形、车牌等直观可抓拍的数据外,还可与姓名、身份证号、手机号、家庭地址、家庭成员、财产情况、过往经历等信息关联起来。
人脸、车牌等信息可通过摄像机获得,但是第二类信息的获取则涉及公民隐私,难度非常大。不过,在国家鼓励企业发展人工智能技术的前提下,总会有一些政策支持,让部分企业可以接触到的部分个人信息,例如将人工智能对接到户籍、公安、交通、教育、金融等信息系统,通过抓拍的图片与从第三方接口获取的信息比对,即可把信息关联起来,从而实现数据碰撞。
这是目前人工智能企业获取公民信息的合法渠道。通过这一渠道,AI公司、大数据公司可以对接到全国所有的人口信息、车辆信息、财产信息;一些黑名单更是全方位开放给这些公司。
早些时候,张学友演唱会频繁被爆出通过人脸识别技术抓获多名疑犯就是个人数据公开给AI公司并做数据对接带来的结果。
但并不是所有AI算法公司都有资格接触到如此众多的个人信息,这部分企业为了获得充分的数据来训练AI算法库,通常会采取一些基于研发目的的数据收集行为,如摄像机抓拍、网上下载等。
[1亿条信息泄漏?AI背后的数据安全更严峻]
AI两面,隐患重重
AI人工智能技术的推出,就是为了更好地服务于行业,服务于人类;但凡事都有两面性,用得好,它是一项好技术,若是某个环节出现偏差,将会带来不可挽回的损失。如考拉征信,其上游为其开放数据接口,是为满足其企业发展,但他们却用这一独享资源来进行非法经营,导致了大量的个人信息泄露。
而且,这部分已经泄露的信息,短时间内是无法抹去的,会存储于下游各个环节的服务器中。
而AI技术的强大之处还在于,除了合法渠道,它自己也可以通过数据碰撞获得个人信息。
我们知道,大数据时代,通过人工智能技术对数据的加工处理、碰撞,可以获得很多我们意想不到的信息,如行人轨迹、个人的关系网、个人饮食爱好、个人投资偏向等,都可以分析出来。
同样的,在这个网络时代,个人信息其实都已经发布于网上,如征婚网站、汽车网站、房产网站、股市资讯网站、各大门户的会员系统、支付宝/微信的支付系统等,都有着数量庞大、形形色色的个人信息。通常情况下,这些信息是相互孤立的,但在人工智能技术下,通过信息采集、比对、分析、融合,可以汇聚成完整的个人信息,这将形成一条非常庞大的黑色产业链,如某个网站有某人的头像、手机号等少数个人信息,另一平台有身份证号、手机号等个人信息,通过数据碰撞,即可将这些信息汇总;如果都有人物照片,直接通过人像比对就可以判断是否为同一人,进而便捷地获取个人信息。
截止2018年底,我国人工智能企业超过1000家,企业规模从初创期到1000亿级市值,他们用于AI训练的数据库来源形色各异,但不可否认的是,都涉及到了个人隐私问题,这些企业如何利用和保护好这些数据?他们开发的AI应用,如何在下游中不被非法使用?
都已经摆在了国人面前。
[1亿条信息泄漏?AI背后的数据安全更严峻]
延伸:微软删除千万级人脸数据库
微软曾经搜集并整理为一个千万级的人脸数据库用于AI训练,该数据库公开后,被众多机构下载,并引发了公众的不满。为此,微软特别把自己数据库中的千万级人脸库删除。
但公众认为,虽然微软删除了自己的数据库,但该数据库在共享之后,其实已经遍布于世界各地的硬盘中,信息泄露已无可避免。