隐私
物理上的隐私:搜查个人住宅或个人财产、搜身、监控或提取生物特征信息等;
信息性的隐私:即个人控制、编辑、管理和删除关于自己信息的能力和决定如何与他人沟通自己这些信息的能力。
个人数据
指与一个身份已被识别或者身份可被识别的自然人(即“数据主体”)相关的任何信息;身份可识别的自然人,是指其身份可以通过诸如姓名、身份证号、位置数据等识别码,或者通过一个或多个与自然人的身体、生理、精神、经济、文化或者社会身份相关的特定因素来直接或者间接地被识别。个人数据包括:自然人的email地址、电话号码、生物特征(如指纹)、位置数据、IP地址、医疗信息、宗教信仰、社保号、婚姻状态等。”
敏感个人数据
敏感个人数据: 指在个人基本权利和自由方面极其敏感,一旦泄露可能会造成人身损害、财务损失、名誉损害、身份盗窃或欺诈、歧视性待遇等的个人数据。
通常情况下,敏感个人数据包括但不限于可以揭示种族或血统、政治观点、宗教或哲学信仰、工会成员资格的数据,用于唯一识别自然人的基因数据、生物数据(如指纹),与自然人的健康、性取向相关的数据。”
《一般数据保护条例》(General Data Protection Regulation,简称GDPR)GDPR的三种角色
保护对象:GDPR保护的仅是“个人数据”(personal data),不涉及个人数据以外的其他数据。
涉及的角色:数据主体(data subject)、数据控制者(controller)、数据处理者(processor)
管辖范围:数据控制着和处理者的业务范围牵涉到欧盟的数据主体的所有企业。
数据控制者和数据处理者的特点
数据控制者决定个人数据处理的目的及方式,满足以下任何一项即成为数据控制者:决定了个人数据处理的目的;决定了个人数据处理的方式。
数据处理者代表数据控制者处理个人数据,同时满足以下两项即成为数据处理者:不决定个人数据的处理目的及方式;按照数据控制者的指示及要求进行处理。
若数据处理者未能同时满足以上两项要求,则有可能转换为数据控制者而承担相应的责任和义务。
数据控制者和数据处理者的义务
我们还将为您介绍数据控制者和数据处理者义务:
数据控制者的义务数据处理者的义务数据主体权利
GDPR旨在保护自然人的基本权利和自由,尤其是个人数据保护的权利,下面让我们来看看数据主体都有哪些基本权利。
知情权(Right to be informed)
数据主体有权获得与其个人数据处理相关的信息,这些信息必须以透明、易懂、易于获取的方式提供。
访问权(Right of access for the data subject)
数据主体有权访问其个人数据并获取个人数据处理活动的相关信息。
更正权(Right to rectification)
数据主体有权要求数据控制者修改、补充不准确或不完整的个人数据。
删除权(被遗忘的权利)(Right to erasure (“right to be forgotten"))
数据主体在特定法律情形下有权要求控制者删除其个人数据。如个人数据与最初的收集/处理目的不再必要相关、数据主体撤回同意或授权等。
限制处理权(Right to restriction of processing)
在数据主体质疑数据的准确性、数据被非法处理等前提下,数据主体有权要求控制者限制数据处理活动
反对权(Right to object)
数据主体对以下行为拥有反对权:基于公共利益或他人合法利益处理其个人数据;为了精准营销处理其个人数据;为了科学/历史研究和统计目的进行数据处理。
数据可携权(Right to data portability)
出于个人目的,数据主体有权在不妨碍可用性的前提下以安全可靠的方式将个人数据在数据控制者之间跨服务转移。
不受制于自动化决策的权利(The right not subject to a decision based solely on automated processing)
GDPR为数据主体提供了保护措施,防止在没有人为干预的情况下做出可能有破坏性的决定的风险。
个人数据处理的基本原则
合法、正当、透明
指个人数据应当以合法、正当、对数据主体透明的方式被处理。
目的限制
指个人数据应当基于具体、明确、合法的目的收集,不应以与此目的不相符的方式作进一步处理。
数据最小化
指个人数据应与数据处理目的相关,且是适当、必要的。尽可能对个人数据进行匿名或化名,降低对数据主体的风险。
准确性
指个人数据应当是准确的,并在必要的情况下及时更新。根据数据处理的目的,采取合理的措施确保及时删除或修正不准确的个人数据。
存储期限最小化
存储个人数据不超过实现数据处理目的所必要的期限。。
完整性与保密性
指根据现有技术能力、实施成本、隐私风险程度和概率,采取适度的技术或组织措施,确保个人数据的适度安全,包括防止个人数据被意外或非法毁损、丢失、篡改、未授权访问和披露。
可归责
指数据控制者须负责且能够对外展示遵从上述原则。
个人数据使用过程中的隐私风险
匿名(匿名化):对个人数据进行“不可逆地去个人化”处理,使数据控制者及其他任何人在合理范围内的时间、成本、技术之下都无法再识别到相关自然人。匿名后的数据不再是个人数据,不需要遵从个人数据处理的基本原则进行处理。
化名(假名化):对个人数据进行处理,使之在不借助额外信息时不再能识别到特定的数据主体。这些额外信息单独保存,且受到技术和组织措施的保护,以确保化名后的数据不再能识别到特定的自然人。但化名只是降低了个人数据与数据主体之间的关联度,化名后的数据仍然是个人数据,需要遵从个人数据处理的基本原则进行处理。
GDPR适用范围定义
将个人数据变为匿名化数据,规避法律风险;
将合法获取到的个人数据,做假名化处理,降低数据使用或泄露的法律风险及名誉损失;
匿名化和假名化处理在降低数据隐私风险的同时,将会降低数据可用性。如何在保护用户隐私的同时,确保数据的可用性,是隐私保护匿名化技术的算法精髓所在。
数据屏蔽技术的原理
数据屏蔽(Data masking),也称为数据脱敏。按照架构可分为两大类:静态数据屏蔽(SDM)和动态数据屏蔽(DDM)
数据屏蔽技术的原理 - 算法掩码
将属性值的部分字符替换为固定的特殊字符(例如*)。
截断
舍弃属性值的后几位信息来保证数据的模糊性。
加噪
对原始数据增加一个随机值。
偏移
属于加噪的一种特殊形式,对原始数据增加一个固定值。
日期偏移取整
在偏移的基础上进行取整处理,舍弃精度来保证原始数据的安全性。
置换
属于加噪的一种特殊形式,将原始值映射为唯一的一个新值。
枚举
属于加噪的一种特殊形式,将原始值映射为唯一的一个新值,并且保留顺序。
保留前缀
保留数据的n位前缀。
加密
通过密钥对数据进行加密。
哈希
使用加盐、密钥等哈希函数对数据进行转换。
标志化
使用加密、索引函数或随机数生成算法替换ID号。
泛化技术的原理 - 基本概念
K-Anonymity(K-匿名化)- 1
K-Anonymity的目的是保证公开的数据中包含的个人信息至少k-1条不能通过其他个人信息确定出来。也就是公开数据中的任意Quasi-identifier信息,相同的组合都需要出现至少k次。
K-Anonymity(K-匿名化)- 2
用户标志假名并不能完全做到匿名化,假名化后的用户标识SUID与原用户标识UID保留了1对1映射关系,仍然可以通过链接攻击、彩虹表攻击等方式还原个体。
K-Anonymity(K-匿名化)- 3
删除用户标识,并将AGE、ZIPCODE属性值进行K-匿名(例如K=5)处理,保证每个属性值相同的组(等价类)中至少包含K个记录,从而将链接攻击风险下降为1/K。
K-匿名化的优势和风险
未排序匹配攻击(unsorted matching attack)
当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如如果攻击者知道在数据中小明是排在小白前面,那么他就可以确认,小明的购买偏好是电子产品,小白是家用电器。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。
补充数据攻击(complementary release attack)
假如公开的数据有多种类型,如果它们的k-anonymity方法不同,那么攻击者可以通过关联多种数据推测用户信息。