数字图书馆隐私保护关键技术研究

　　1 数字图书馆数据安全威胁因素
　　由于云计算、异构服务和统-检索等技术的应用，数字图书馆开放式环境下的应用缺乏相对安全的操作系统、计算机网络系统和数据库管理系统，导致信息化过程中，敏感数据从数据完整性（Integrity）、数据可用性（Availability）和保密性（confidentiality）等方面面临着一系列的威胁。如果敏感数据管理者对这些威胁因素不重视不了解，则将会存在巨大管理漏洞，大大加剧隐私威胁的严重性。为了更好地应对数字图书馆运行和服务模式过程出现的敏感数据的隐私威胁，造成隐私泄露的原因可以归为自然、通信、存储和数据发布等9种威胁因素。
　　2 数字图书馆常规隐私保护技术
　　图书馆用户通过网络利用图书馆资源，而图书馆通过数据库、日志等各种手段管理和记录用户的各种信息，并采用各种统计、分析和挖掘工具来利用收集的信息，以提升图书馆服务质量。在这期间，信息利用和控制不当都有可能侵犯用户隐私权问题。数字图书馆的隐私保护需要从数据收集、数据存储和数据应用（发布）三个方面来全面有效地保护图书馆用户隐私权。
　　网络隐私保护问题随着网络的广泛应用，也越来越严峻。网络隐私的泄露-般是通过黑客软件、木马病毒窃取、Cookies文件、Web Beacons、IP地址跟踪等方式造成的。针对这些问题，防火墙、防杀毒软件、Cookies管理器、匿名邮件重发器、洋葱路由器等各种技术与相关产品应运而生。数字图书馆信息化系统要建立有效的网络安全防范手段：数字图书馆中心机房采用防火墙防止恶意攻击，图书馆网络采用一体化防病毒体系增强计算机安全，图书馆公用计算机采用PWB，K-Melcon等专用图书馆浏览器有效保证用户隐私，图书馆主要服务网站采用P3P（PlatformorPrivacyPreferences）技术、EPAL（EnterprisePrivacyAuthorizationLanguage）等技术增加图书馆用户隐私保护政策的透明度。甚至可以采用基于P2P和语义Web的隐私保护等新技术用于保护网络隐私。
　　现代的数据库管理系统（DBMs）一般通过用户认证、存取控制和数据加密等多种手段来限制对数据的访问。无论是用户认证、存取控制还是数据加密的不同方式，都能够限制用户对敏感数据的访问。甚至也采用了专用组件进行隐私控制，如Oracle119中提供Oracle DataMasking工具对敏感数据自动屏蔽以保证安全、可伸缩的数据共享，以保持引用数据完整性的同时屏蔽开发、测试或生产环境中的敏感数据和保密数据。
　　数字图书馆中应用-些初步隐私保护功能的商业数据库系统来管理信息资源。实际工作中需要是要加强数据库数据加密、用户认证、访问控制（DACMacRBAC）和推理控制等方面功能的应用，如用户个人信息的加密，手机号、密码等重要字段的加密，用户权限合理分配等等。另外，从管理上入手，尽量控制各种数据库（表记录）访问权限，使用权限也要按需开放。
　　随着Lib2.0一系列新技术的应用，移动图书馆的进一步推进，新形势下的数字图书馆服务的隐私保护需求，常规技术已远远不能满足需求。显然，数字图书馆快速增长的海量数据如果发布不当，很容易泄露用户隐私。这种面向各种应用的数据共享和分析服务的数据发布工作中的出现的隐私保护问题日益突出，有待于进一步研究合适的隐私保护技术。
　　3 基于匿名化的数据发布技术
　　根据对象数据类型可以把基于匿名化的数据发布技术分为两类，并介绍如下：
　　3.1 面向关系表数据发布
　　目前，己经提出了一些对个人数据进行匿名处理以达到隐私保护的目的，包括泛化、隐匿、干扰味口数据交换技术等。数据发布中的隐私泄露主要可以分为身份泄露和属性泄露。当目标个体与匿名数据中的某条具体记录关联起来时就会发生身份泄露；而属性泄露可以分为记录链接泄露、属性链接泄露、表链接泄露和可能性攻击泄露，它是指匿名数据会泄露目标个体的一些更为具体的信息。
　　近来，数据匿名化的隐私保护技术研究主要集中在集中式数据发布上，它主要可以分为：（1）匿名化原则的研究；（2）根据某种隐私保护模型发布匿名数据版本的算法研究。
　　3.2 数据匿名化原则
　　3.2.1 避免身份泄露的匿名化原则
　　为了避免身份泄露，1998年salnarati和Sweeney在文献778中提出了经典的k-匿名原则，它要求所发布的数据表中的每-条记录不能区分于其它k-1条记录，以使攻击者不能判别出隐私信息所属的具体个体，从而防止了个人隐私的泄密。此类模型对QID进行泛化后，把记录划分成若干个等价类，每个等价类中至少无条记录，这样链接到某条记录的概率不超过l/k，保证了记录安全。但是，如果每个等价类中记录的敏感属性取值相同或者某些敏感值出现的频率很高，则仍然存在隐私泄露的可能。
　　3.2.2 避免敏感属性泄露的匿名化原则
　　由于k-匿名思想启发，z-diversity及其它的两种形式基于嫡的l-diversity和递归（e，z）-成verse如，增强的（z.a）-diversity相继被提出，它们保证每个等价类的敏感属性至少有Z个不同的值，以使得攻击者最多以l/l的概率确认某个体的敏感信息。T-closeness在l-diversity如基础上，考虑了的敏感属性的分布问题，它要求所有等价类中敏感属性值的分布尽量接近该属性的全局分布，从而解决了针对敏感属性值的偏斜性攻击和相似性攻。
　　3.2.3 避免高概率推断的匿名化原则
　　除以上主要针对身份泄露和属性泄露的匿名化原则外，也有一些为了避免高概率推断的隐私问题而提出的针对概率泄露的匿名化原则。为了防止攻击者通过访问匿名发布数据表能够以较高概率推断目标对象的记录是否存在数据集中或者目标对象敏感属性的具体取值，文献提出了参presence匿名化求以不超过占一定的概率推断目标对象的记录是否存在信息集中现象；Rastogi等人提出了概率性隐私保护（d，r）-匿名化原则；Blum等人提出了适用于非交互查询模型的分布式隐私保护原则。此类匿名化原则旨在达到攻击者推断目标对象的概率在数据表匿名化前后差异性最少。

数字图书馆隐私保护关键技术研究

相关论文