PC版
搜索导航
论文网 > 公共管理论文 > 图书馆管理论文

基于图书馆数据分析的存储策略研究

  中图分类号:TP333
  在以数据为中心大数据时代,存储系统重要性逐步取代服务器,成为IT基础设施的核心。图书馆作为信息资源和服务的提供者,电子资源数据类型丰富,服务种类多样,对图书馆存储系统有更高的需求,存储系统建设与资金投入的矛盾日显。图书馆的电子资源类型不同,对存储安全性、访问效率的要求是相差很大的;不同的存储结构,不同的冗余措施,单位容量的设备价格也相差很大。探讨研究建设满足图书馆需求的高性价比的存储系统日益重要[1-2]。
  探讨图书馆储存系统建设方面的论文很多,绝大多数是基于存储技术层面论述图书馆存储系统建设[3]。本文以广东省科技图书馆为例,尝试从另一个角度,探讨图书馆存储系统建设问题,即从数据类型特点与存储策略的角度探讨图书馆存储系统建设问题。本文构思独特新颖,具有较高针对性和实用参考价值。
  本文的存储策略是指:以图书馆业务系统数据类型为依据,高性价比为主轴,对图书馆数据进行分类,分析存储系统性能指标,从数据安全性,扩展性,可用性和数据管理方面研究探讨建设高性价比图书馆存储系统问题。
  1 图书馆数据类型与存储系统需求分析
  图书馆的数据,仅从存取角度看,可分为两大类:第一类是以文件形式存取的数据,基于文件级(file)的操作;第二类是采用关系型数据库形式存储的数据,是基于数据块级(Block)操作。而从数据存储与应用的角度,图书馆电子资源和各业务系统的数据主要有以下几类(以广东省科技图书馆为例)[4-5]:
  (1)目录类关系数据库:包括馆藏书目数据库、联合目录数据库、电子期刊导航数据库等;(2)文摘题录和电子资源索引数据库:包括CNKI学术期刊全文索引数据库、学位论文索引数据库、超星院士文库、书生之家等电子期刊与图书的索引部分;(3)电子资源全文数据库:包括CNKI学术期刊全文数据库、维普科技期刊全文数据库、学位论文全文数据库、万方数据库、超星院士文库、电子报刊、书生之家电子书等电子期刊与图书;(4)光盘数据:CD、VCD、DVD 等多媒体音视频资源;(5)自建文件型数据:包括随书光盘的压缩文件等;(6)自建关系数据库:包括高新技术数据库、西文联合目录、多媒体导航数据库等;(7)网站数据:包括图书馆网站,内部办公网,广东发明网,高新技术网等系列网站的网页数据;(8)各应用系统的数据:包括自动化系统,原文传递系统,发现系统,邮件系统,DNS系统的数据;
  上述数据,(1),(6)类资源占用的存储空间较少,增长量也不大,对存储空间要求较低,但对安全性要求很高,对效率要求也很高;(2),(5),(7)类资源占用的存储空间比较大,增长平稳,对安全性与效率有较高的要求;(3),(4)类需要海量存储空间,而且空间增长迅速,但对安全性要求不高。(8)类数据原文传递系统,发现系统等图书馆业务系统对存储容量和性能有很高的需求。
  图书馆的数据种类不同,对存储系统安全性、容量、访问效率的要求是相差很大的;而不同的存储介质,不同的存储结构,不同的冗余措施,单位容量的设备价格相差很大。针对不同数据特点,采取不同的存在策略,对降低图书馆存储建设的成本,提高可用性用着重大意义。
  2 图书馆数据类型特点与存储策略研究
  2.1 数据的安全性及策略
  2.1.1 数据分类
  从安全性的角度,笔者将图书馆数据分为3种类型:(1)敏感数据,对存储系统安全性需求高,数据丢失不可恢复,对业务影响大。比如自动化系统读者信息库;(2)普通数据,对存储系统安全性需求较高,数据丢失可回复,但工作量很大。例如自建的随书光盘,如果丢失数据,虽然可以用光盘重建,但工作量巨大;(3)非敏感数据:对存储系统安全性需求不高,数据丢失可回复,但工作量不大,但费时。如全文期刊数据,如果丢失数据,可以让数据库提供商重新拷贝数据,但由于是海量数据,需要长时间恢复。数据类型与存储系统安全性需求关系如表1所示。
  表1 数据类型与存储系统安全性需求
  敏感数据 普通数据 非敏感数据
  数据来源 自动化系统,自建数据库系统等 自建光盘库等 电子刊,电子书等
  对存储的安全需求 高 一般 低
  2.1.2 存储介质与数据安全比较
  数据最终存放在存储介质,介质的安全性是起决定作用的。目前常用的存储介质有磁盘,光盘,SSD固态盘。表2列举了常用介质的安全性、性能与价格的关系比较。
  表2 不同介质安全性、性能与价格比较比较
  介质 光盘 SATA FC SAS SSD
  性能 低 中 高 高 极高
  安全性 较低 一般 高 高 较高
  价格 低 低 高 高 昂贵
  2.1.3 RAID水平与安全性、性能和价格比较
  数据的冗余也是提供存储安全行的重要方面。阵列技术,可以提高磁盘系统性能,增加数据安全性,阵列的级别不同,冗余及安全性也不同,表3列举了常用RAID水平与安全性、性能与价格的关系。
  表3 不同RAID水平的安全性、性能、价格比较与适合存储的数据类型
  RAID级别 RAID0 RAID1 RAID5 RAID6
  允许故障 无 是 是 是
  冗余类型 无 复制 奇偶校验 双重校验
  热备份选择 无 有 有 有   单位容量价格 低 最高 较低 较高
  2.1.4 数据的安全性存储策略分析
  根据表2和表3比较结果,安全敏感数据,普通业务数据,非敏感数据,可选择的应用策略如表4。
  表4 数据的安全性与存储策略分析
  敏感数据 普通数据 非敏感数据
  存储介质 FC或SAS硬盘 SAS SATA SATA
  RAID水平 RAID5 或者RAID6
  1-2块全局热备盘 RAID5
  RAID5
  1-2块全局热备盘 RAID5
  有效容量 N-3或N-4块盘 N-2块盘 N-3或N-4块盘 N-2块盘
  存储单位价格 贵 较贵 较便宜 便宜
  2.2 存储系统扩展性及策略
  从数据容量及重要性角度,笔者将图书馆的数据分为3种类型:
  (1)核心数据,比如图书馆自动化系统读者的数据,图书馆自建的数据库等,这类数据容量不是很大一般在1-3T,年增量不到1T,但对安全有最高要求,不允许丢失失效;(2)业务数据,如书附光盘数据,多媒体数据等,数据容量较大容量在5-10T,年增量在1-2T,对安全有较高要求;(3)海量数据,例如电子刊,电子图书等,容量大,年增量也大,但对安全的需求不是很高。如表5 所示。
  表5 业务数据与容量需求分析
  核心数据 业务数据 海量数据
  数据来源 自动化系统数据,自建数据库等 检索数据库,书附光盘,多媒体等 电子刊,电子书等
  容量 小 中 大
  增量 小 一般 大
  存储的性能需求 高 一般 低
  存储的扩展性有两个层次的含义:一是存储阵列容量的扩容;二是阵列服务的扩展。
  2.2.1 容量的扩展
  不同存储介质容量价格比较及适合存储数据类型分析,如表6所示。
  表6 不同存储介质价格比较及存储数据库类型分析表
  介质 光盘 SATA FC SAS SDD
  性能 低 中 高 高 极高
  容量 较低 一般 高 高 较高
  多次读写 否 是 是 是 是
  单位容量
  价格 低 低 高 高 昂贵
  适于存储的数据类型 离线或备份的数据 海量数据 核心数据 核心数据 存储系统本身的数据
  2.2.2 阵列服务的扩展
  访问量的增长。比如中文期刊网,服务需求的增长。
  业务的扩展,图书馆新业务的扩展,比如自建特色网站,发现系统等等新建业务系统的需求。
  图书馆业务系统对存储扩展性需求分析表7。
  表7 业务系统对存储扩展性的需求分析
  访问量增长 业务扩展
  图书馆业务系统需求 中文期刊,多媒体,书附光盘,读报系统等 自建特色网站,原文传递,发现系统等
  表8 典型存储系统扩展性综合比较
  DAS NAS FC-SAN IP-SAN
  安装、维护 较复杂 简单 复杂 简单
  协议 SCSI TCP/IP Fibre Channel TCP/IP
  数据共享 困难 容易 容易 容易
  兼容性 一般 好 差 好
  可靠性 较差 较高 高 高
  可扩展性 差 好 好 好
  安全性 高 一般 高 一般
  效率 高 低 高 较高
  价格 低 较低 高 一般
  2.2.3 存储系统扩展性及其策略分析
  根据2.2.1和2.2.2比较及分析结果,图书馆存储系统在扩展性方面采取的存储策略:
  (1)容量扩展策略如表9所示;(2)服务扩展策略如表10所示。
  表9 容量扩展策略分析表
  核心数据 业务数据 海量数据
  存储介质 FC或SAS硬盘 SAS SATA SATA
  表10 服务扩展策略分析表
  访问量增长 业务扩展
  对存储扩展性需求分析 DAS,FC-SAN NAS,IP-SAN
  2.3 性能与可用性及其策略
  通过对图书馆存储数据的分析,不仅不同类型的数据被访问的频率不同,就算同一类型数据也是具有生命周期的,不同时期其重要性和被访问的频率相差很大。因此对存储系统性能的需求也就不同。例如:索引数据库比全文数据库访问频率要高;新刊的数据访问频率最高,为读者带来的使用价值也最高,随着时间的推移,访问频率降低,数据的价值也随之下降。表11是作者对图书馆热点数据及数据来源的分析归类。
  表11 数据热点及数据来源
  热点数据 非热点数据 历史数据 归档数据
  数据来源 新建数据库,主要业务系统,新的电子刊,电子书,目录及索引数据等 电子刊,电子书,自建书附光盘,多媒体库等 旧电子刊,电子书,冷门学科数据 离线归档数据
  为满足业务需要,从存储策略角度,对分级分层存储及虚拟存储作简单的描述。
  2.3.1 分级分层存储策略
  分层存储就是将数据存储在不同层级的介质中,并在不同的介质之间进行自动或者手动的数据迁移,复制等操作。[6]
  图书馆数据中非热点的数据量远多于热点数据量,如果全部用成本高、速度快的存储介质来存储所有数据,不仅费用高,也没有必要。对不同的数据类型、不同的数据周期的数据存放对应层次的存储空间,热点数据存放高性能空间;非热点数据存放普通空间,既能最大限度地满足用户需求,又可使存储成本最小化,从而获得更高的性价比。   数据的活跃度与存储性能的关系如图1所示:
  图1 数据生命周期与数据活跃度与存储系统示意图
  采用统一存储系统,利用各类磁盘不同性能的特点,构建不同性能层级的存储空间,结合算法对负荷进行分析,自动管理各层级存储空间,数据在线迁移,实现高活跃数据以及生命周期各阶段数据在存储系统中分级分层存储,在保持成本不变的前提下,达到满足业务系统对存储空间不同性能的需要。
  2.3.2 虚拟存储技术
  实际上,要实现上述存储功能,不仅复杂,而且动态变化,如果仅通过“手工”配置实现,是相当困难的。因此对统一存现系统提出了虚拟存储要求。
  所谓的虚拟存储(Storage Virtualization)是指将多个不同类型、独立存在的物理存储体,通过软、硬件技术,集成转化为一个逻辑上的虚拟的存储单元,集中管理供用户统一使用。虚拟存储的实质是对物理存储设备进行逻辑化的处理,并将统一的逻辑视图呈现给用户。因此,用户在使用时,操作的是虚拟设备,无需关心底层的物理环境。因而,可以充分利用基于异构平台的存储空间,达到最优化的使用效率。
  3 图书馆存储系统解决方案
  通过对图书馆数据类型特点及存储策略的分析,以安全、高效、易管理、高性价比为原则,提出建设图书馆统一存储的解决方案,具有下列特点:(1)支持多种不同性能的磁盘,方便容量扩展,满足不同业务的需求;(2)支持Fcsan和Ipsan网络存储,方便业务系统服务扩展;(3)支持分级分层存储与数据动态迁移;(4)支持虚拟存储概念,高效管理存储空间。
  4 结束语
  云计算,大数据,物联网,移动商务,信息安全等是目前IT热点,这些都与存储系统密切相关。本文从数据类型特点与存储策略的角度探讨图书馆存储系统建设问题,在解决图书馆存储需求与资金投入的矛盾是一个有益的尝试,具有较高针对性和实用参考价值。

相关论文

数据存储策略研究图书馆
浅谈乡村振兴战略的基层公共图书馆建
课程思政融入“保险学”教学的路径及
试论企业文化与企业战略的协同管理策
辅导员视角下新闻传播学类专业学生就
人事档案管理信息化建设创新路径研究
浅析“四色文化”背景下江西省旅游商
河南打造具有国际影响力的黄河文化旅
后疫情时期文旅产业发展策略——以黑
数字媒体时代辽宁老字号企业品牌运营
大数据时代拼多多盈利模式研究