“爬虫”技术应用的尺度与个人信息保护
近日,作为互联网之都的杭州格外吸引圈内人士的目光,大数据风控头部企业频繁受到公安机关的调查,首先是深耕大数据风控的头部公司某宝、某某科技、某盾科技[1]等,整个互联网行业一片哗然,矛头直指数据“爬虫”业务。
注释[1]通常情况下,“魔盒”业务由其关联公司某川科技公司作为对外运营主体,但在实质认定上目前并没有具体的官方结论,具体以公安机关的侦查结果为准。
一、“爬虫”技术的实质
尽管“爬虫”技术的名字已相当形象,但其技术内涵确鲜为人知,从技术层面来讲,“爬虫”技术也被成为网络爬虫,其核心功能即为“定向抓取”,聚焦选定的关键词通过网页分析算法向公开网页筛选与之相关的内容或链接,基本结构可以分为以下几个单元:
如果仍无法理解,可以简单以常用的搜索引擎为例,通过百度演示一下:
即通过“百度”检索关键字“浙江泽大律师事务所”网络爬虫所得关于“浙江泽大律师所”的相关目标数据,通过百度公司数据分析模型,呈现给客户端的数据结果即为网页展示的内容。
作为一种基础的计算机技术,网络爬虫的技术开发非常简单,而且离我们很近,可以说是毫无技术含量;但作为一个大数据技术应用,确有相当高的技术门槛,其主要核心在数据分析模型的有效性。
二、大数据风控的兴起与爬虫技术的应用
随着P2P、现金贷的蓬勃发展,通过大数据对自然人进行资信评估成为风控领域的重要推动力。
对自然人进行风控评估需要利用网络爬虫技术爬取的核心数据通常包括:
1、“四要素”反欺诈数据:姓名、身份证号、银行卡号、电话号码;
2、财产信息:房产信息、存款信息(含支付宝、微信账户资金)、信贷记录、个人征信、交易和消费记录;
3、社交信息:个人手机通讯录、好友列表、电子邮件及其联系人、通讯设备信息、行踪轨迹等。
大数据风控的基本逻辑必然要求上述数据的多样化与最大化的丰富性,因此,爬虫技术获得前所未有的应用场景,而变得无孔不入。
网络爬虫的增多,必然导致网络负载的增加,降低网页的运行速率,互联网巨头百度、腾讯、阿里等企业的“反爬虫”技术显然已无法抵抗数据对爬虫的诱惑。
因此,刑法不再矜持,2017年“两高”《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第一条即对个人信息进行界定,即“公民个人信息”,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。可以看出,“爬虫技术”关注的数据也是我国法律重点保护的对象。
三、爬虫技术的泛滥与个人信息保护的底线
实务中,大数据公司获取数据的主要途径可以分为三种:一是利用自营网站或APP直接抓取自身用户个人信息;二是通过网络接口向合作方网站或APP抓取合作方用户的个人信息;三是通过购买取得经过脱敏的信息。
其中第一种和第二种方式主要以“爬虫技术”为技术核心。但“爬虫技术”大行其道的同时,一张关于个人信息保护的法律之网也逐步成型。
1、2017年至今我国关于个人信息保护的立法情况
《网络安全法》、《刑法》及两高关于侵犯公民个人信息最的司法解释,一民一刑,搭建了个人信息保护的基本法律框架。在此基础上,电子商务、APP治理、信息保护等单行法律、法规以及行业规范陆续制定和实施,对《网络安全法》及定罪量刑所需的具体业务行为进行了完善和细化。
除此之外,自2017年起,大量关于个人信息保护的单行法规起草完成,正式对外征求意见,比如信息处境评估、信息基础设施安全保护、个人信息去标示化的行业规范,信息安全影响的评估、APP违法违规收集使用个人信息行为的认定方法等,个人信息保护的法律之网越来越严密,我们今天看到的司法机关收网行动也是水到渠成。
2、“爬虫技术”对信息收集基本原则的无视
根据网络安全法第四十一条的规定:“网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。”该规定也是全国人大常委会《关于加强网络信息保护的决定》确立的“明示同意”原则,其中,明示同意包括两个方面,一是个人信息主体的明示同意是其在完全知情的基础上自愿给出的、具体的、清晰明确的愿望表示。第二是明确告知拒绝提供或拒绝同意将带来的影响。应允许个人信息主体选择是否提供或同意自动采集;以及附加功能信息采集敏感信息的授权及其不利后果。
实务中,以现金贷平台为例,还是只用一个授权文件完成所有授权,并没有分阶段处理,未明确披露或授权信息抓取方的情况普遍存在,因此,也为相关主体违规收集个人信息,以及违法转移个人信息埋下了犯罪的种子。
3、关于侵犯公民个人信息罪的具体规定
根据《刑法》第二百五十三条之一的规定,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,或者窃取或者以其他方法非法获取公民个人信息的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。,单位犯罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。
根据最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第三条的规定,“提供”的具体涵义至少包括两个方面:一是向特定人提供公民个人信息,以及通过信息网络或者其他途径发布公民个人信息的;二是未经被收集者同意,将合法收集的公民个人信息向他人提供的,但是经过处理无法识别特定个人且不能复原的除外。
反观大数据风控公司的业务模式,其数据获取的方式一般为通过合作方的APP直接抓取其平台用户的个人信息,一般的技术接口连接结构如下:
根据“两高”关于侵犯公民个人信息罪的司法解释的第三条第二款规定,未经被收集者同意,将合法收集的公民个人信息向他人提供的,属于刑法第二百五十三条之一规定的“提供公民个人信息”,但是经过处理无法识别特定人且不能复原的除外。
根据上述规定,首先个人信息不得非法出售或向他人提供,合法出售或提供的前提是经过被收集者同意,或者是通过匿名化或去标示化做到无法识别特定个人且不能复原。
结合上述分析及大数据风控业务结构可以看出,大数据风控公司可能在以下两种情况下涉嫌侵犯公民个人信息罪:
一是未经APP用户的同意,直接通过APP平台接口抓取用户终端设备中存储的个人信息,即窃取公民个人信息导致的犯罪行为;
二是经过APP用户的授权获取该用户的终端设备存储的个人信息,但未经APP用户的同意将已收集的信息不经过“脱敏”[2]或“去标识化”[3]处理直接提供给第三方的,最常见的方式多为以“风控报告”的方式直接将未经脱敏的个人信息提供给多个现金贷平台。
注释[2] “脱敏”即匿名化是指通过对个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程。
注释[3] 去标示化的概念就是通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。
结 语
网络爬虫技术作为计算机应用领域的一种基础性技术手段,并未偏离“技术中立”的角色,作为数据获取的方法或工具,并不直接违反现有法律或法规的禁止性规定。而大数据及大数据产品的开发,将一直伴随个人信息保护的规定,行走在“侵犯公民个人信息罪”的边沿前行。
作者:高云翔 律师,二级合伙人,金融工作室