

隐私保护问题是伴随着数据应用而提出的,在统计领域,隐私保护问题昀先受到关注。当前,隐私保护的主要研究方向如表 5-3所示。

国内外研究人员对隐私保护技术进行了大量研究,然而并没有任何一种隐私保护技术能够适用于所有的应用场景。一般的隐私保护技术习惯在较低的应用层次上保护用户的隐私,普遍通过引入统计和概率模型来实现。面向数据挖掘的隐私保护技术主要解决高层应用中的隐私保护问题,致力于研究如何根据不同数据挖掘操作的特性来实现对隐私的保护。还有一种基于隐私保护的数据发布方法,它的基本原则是提供一种在各类应用中都能够适用的隐私保护方法,从而达到在此基础上设计的隐私保护算法具有通用性的效果。从数据挖掘的角度,目前的隐私保护技术主要可以分为三类:
(1)基于数据失真的隐私保护技术:它是使敏感数据失真但同时保持某些关键数据或者属性不变的隐私保护技术,例如,采用交换( Swapping)、添加噪声等技术对原始数据集进行处理,并且保证经过扰动处理后的数据仍然保持统计方面的性质,以便进行数据挖掘等操作。
(2)基于数据加密的隐私保护技术:它是采用各种加密技术在分布式环境下隐藏敏感数据的方法,如安全多方计算( Secure Multiparty Computation,SMC)、分布式匿名化、分布式关联规则挖掘和分布式聚类等。
(3)基于数据匿名化的隐私保护技术:它是根据具体情况有条件地发布数据,例如,不发布原始数据的某些值、数据泛化(Generalization)等。
另外,也有一些新的方法融合了多种技术以实现更好的隐私保护,很难将其简单地归为以上某一类,但它们在汲取了某些技术优势的同时,也将不可避免地引入该技术的缺陷。例如,基于数据失真的技术,计算效率比较高,但却存在信息丢失的问题;基于数据加密的技术能够保证最终数据的准确性和安全性,但带来的计算开销往往较大;而基于数据匿名化的技术可以保证所发布数据的真实性,但是缺点是发布的数据会存在信息丢失。
在接下来的几节中,将会对这三类隐私保护技术进行深入阐述。
| 各省软考办 | ||||||||||