

信息安全工程师知识点:随机化应答
随机化应答的基本思想是:数据所有者对原始数据扰动后发布,使攻击者不能以高于预定阔值的概率得出原始数据是否包含某些真实信息或伪信息。虽然发布的数据不再真实,但在数据量比较大的情况下,统计信息和汇聚(Aggregate)信息仍然可以较为精确地被估算出。随机化应答技术与随机扰动技术的不同之处在于敏感数据是通过一种应答特定问题的方式间接提供给外界的。
随机化应答模型有两种:相关问题模型(Related-question Model)和非相关问题模型(Unrelated-question Model)。相关问题模型是通过设计两个关于敏感数据的对立问题,如:
①我含有敏感值A;
②我没有敏感值A。
数据所有者根据自己拥有的数据随机选取一个问题进行应答,但不让提问者知道回答的具体问题。当大量数据所有者进行回答后,通过计算可以得出含有敏感值的应答者比例和不含敏感值应答者的比例。假设应答者随机选取问题1的概率为θ,则有以下等式成立:

其中P*(A=yes)是回答中yes的比例,P(A=yes)是含有敏感值A的数据所有者的比例。通过以上两个等式,联合对所有应答进行估计得出的P*(A=yes)和P*(A=no),可以得到含有(或不含有)敏感值A的数据所有者比例P(A=yes)(或P(A=no))。
在这整个过程中,由于不能确定与应答者回答的相关问题,因此不能确定其是否含有敏感数据值。由于基于随机化应答技术采用应答模式提供信息,因此多用于处理分类数据(Categorical Data)。
| 各省软考办 | ||||||||||