一是数字图书馆由数字对象构成,它们存储在仓储中,用句柄来标识。
二是存储在数字对象中的信息称为内容,内容被分成数据。
三是关于数据的信息叫做属性或称为元数据。
(2)在数字图书馆中,信息以数字对象作为基本实体进行存储、访问、发送和管理。
一是分布式数字对象服务框架,按照一定的命名规则来标识和定位数字对象。
二是提供使用数字对象名字来定位和发送对象的服务,并提供有关的访问协议与要求。
(3)应将材料放人数字对象。
一是在分布式数字对象系统的体系结构中,一个拥有数字材料的用户要使该材料供系统使用,首先应将材料放人数字对象。一个数字对象是一个数据结构,它主要包括:数字材料或数据,以及句柄,它是该材料的惟一标识符。
二是用户请求从授权的句柄生成器获得一个句柄,随后,将数字对象存入一个或多个仓储中,从而该数字对象可为他人所用。把数字对象存入仓储时,应将其句柄和仓储名向一个全局的句柄注册系统注册。
三是用户向句柄服务器提交一个句柄可获得存放相应数字对象的网络名或仓储地址。
2.仓储服务系统。仓储是一种可通过网络访问的存储系统,其中存储的数字对象可被存取和检索。仓储具有一个正式的、惟一的名称,由一个全局命名授权分配和批准。仓储除了包含数字对象,也包含了其他相关信息、服务和管理信息。
(1)仓储的实现。仓储系统采用三层结构。
一是仓储外壳。它是仓储与外界的接口部分,它实现了仓储访问协议(RAP),实现了数字对象的内外格式转换,并管理用户权限和访问许可。
二是对象管理层。它在永久存储层所提供的服务和仓储外壳层所要求的面向对象功能之间提供一种接口,并提供数字对象及其所在位置之间的映射。
三是永久存储层。仓储中的信息保存在永久存储层。永久存储层的实现对外界是完全透明的。仓储外壳的设计可适应各种永久存储层。仓储访问协议是每个仓储都必须支持的。
(2)仓储服务。目前支持存放数字对象,通过句柄访问数字对象并提供下列仓储服务:
一是在一个仓储中存入一个数字对象,从一个仓储中删除一个数字对象。
二是确认仓储中已存有一个带有特定句柄的数字对象,访问一个仓储的数字对象,访问一个指定数字对象的元数据。
三是修改仓储中的一个数字对象的元数据,修改仓储中的一个数字对象的数据。
四是确认一个句柄已在句柄系统中注册,访问仓储元数据。
3.索引服务系统。索引服务系统是数字图书馆信息基础结构的一个重要组成部分。其任务是进行资源发现,从而使用户能够方便地从馆藏中寻找和发现所需的对象。
(1)索引服务系统的工作原理。
索引服务器收集关于数字对象的信息,这些信息可以是数字对象的替代信息如传统图书馆的编目记录。
(2)查询请求的响应。
一是这些替代信息被组织成结构化的索引,使搜索引擎在响应查询请求时能保证查准率、查全率和检索效率。
二是查询请求的响应是一个结果集。结果集中的每一条检索结果都是与查询请求相匹配的数字对象的替代信息,替代信息的简略形式是数字对象的惟一标识符,并且通过名录服务系统解析该标识,就可以访问相应的数字对象。
(三)数字图书馆的体系结构理论
体系结构是数字图书馆建设的中枢,它关系到系统的信息组织,即数字对象的存储及检索方式的正常运行能力。
1.影响数字图书馆体系结构的因素
(1)影响数字图书馆体系结构的因素有社会、人文、法律、思想观念等构成的社会环境因素。
(2)通讯基础设施和网络技术、软件工程、硬软件环境、系统安全、访问权限、数字对象类型和数量等方面的信息技术因素。
2.数字图书馆体系结构理论研究,提出了建设数字图书馆的八项原则,并得到了学术界的普遍认同。这八项原则是:
(1)数字图书馆概念的统一理解。
一是数字图书馆中的对象称为数字对象,它们存储在仓储,用句柄来标识。
二是存储在数字对象中的信息称为内容,内容被分为数据,关于数据的信息称为属性或元数据。
(2)数字图书馆的技术框架存在于法律和社会的框架之内。由于社会网络进程的不断加快,数字图书馆将存在于一个广泛的经济、社会和法律框架内。这就意味着:
一是法律体系必须根据迅速变化的经济和社会框架制定新的法律,包括知识产权、通讯法、国际法等。
二是数字图书馆的体系结构必须能够保护著者和所有者的权利,考虑所涉及的经济、社会和法律问题。
(3)基础的体系结构要与保存在数字图书馆中的信息相分离。数字图书馆中的内容是多种多样的,可以是文本、图片、动画、音频资料、计算机程序、模型设计或多种类型构成的复合资料。
一是存储在数字图书馆中的这些信息内容往往和数字图书馆的体系结构相分离,适合于各种资料类型的特征是由体系结构规定的。
二是这种特征通常包括适用于某类资料的特定的格式、协议和权限管理等。
(4)名字和标识符是数字图书馆的基本建构模块。名字用于标识数字对象,登记数字对象中的知识产权,记录所有权的变化,在引用、检索和对象链接中不可缺少。.
一是名字是唯一的,长期保持;句柄系统用于标识数字对象。
二是用于标识用的字符串称为标识符。
(5)数字图书馆不仅仅是二进制数位的集合。在数字图书馆中信息存储为数字对象,不能简单地把数字对象看成是二进制数位的集合。数字对象可由两部分构成:内容和元数据。
一是一个数字对象可含有多种类型的内容如文字、图像、声频等。复杂的数据类型可由简单类型构成。
二是元数据包括句柄、权限、访问方式、数字签名、交易日志等。
(6)数字图书馆对象使用时和存储时的形态的不一致性。
一是数字对象在使用时的形态和存储形态可能完全不同,如图像可以小波形态存储,使用时利用小波生成图像。
二是音乐作品可以曲谱的形式直接传送给用户,也可在仓储中用合成器演奏后将声频信号传给用户。
三是数字图书馆的体系结构必须仔细区分生成的原始数字对象、存储在仓储中的数字对象和提交用户的数字图像。
(7)仓储应保管好所存储的信息。数字对象包含有价值的知识产权,仓储中的数字对象含有是否允许其在特定的经济和社会框架中被存储的信息。
一是仓储必须妥善管理,提供参考引用、安全控制等措施,以确保对数字对象的操作的合法性。
二是用户通过仓储访问协议与仓储交互,以屏蔽仓储的内部结构和数字对象的存储形式。
(8)用户需要的是供人利用的知识作品,而非仅仅供机器处理的数字对象。数字对象是数字图书馆的基本元素,但用户需要的往往是更为抽象的数据项。
一是报告、程序、音乐作品等通常是指组合在一起成为一个有机整体的数字对象组。
二是数字图书馆的体系结构必须提供组合数字对象的方法和相应的检索机制。
二、数字图书馆的主要架构模式
(一)数字存取的Web模式
目前,图书馆用来处理数字存取的主要模式是以网络为中心的用户机/服务器(C/S)模式和由此而演化来的Web为中心的浏览器,Web服务器数据库(BSD)模式,后者也称为Web模式。
世界上已运行的数字图书馆系统大多采用这两种模式。
1.用户机/服务器(C/S)模式。
2.Web模式。Web模式中,系统的主要工作由服务器承担。在这种结构中,传统的服务器被分成两部分,即Web服务器和数据库服务器。
(1)Web服务器负责Web页面的管理、组织传递和数据库查询请求的提出,而数据库服务器则负责接受Web服务器的查询请求并提供运算处理结果。
(2)在这种模式中,客户机的任务比较轻松,只要配备操作系统、网络协议和浏览器等软件即可。浏览器的作用只是从Web服务器下载Web页面。
(3)Web模式在资源配置、系统安全等方面比简单的客户机服务器模式要好得多。
(二)数字化图书馆主要架构模式
数字图书馆作为一种数字化、网络化和系统化的图书馆的发展模式,应主要包含以下几个层面。
1.基础层面。数字图书馆应拥有规模宏大的相对独立的馆藏数字化文献信息资源,它是实现信息资源共享的基础。
2.技术层面。数字图书馆必须集成计算机技术、网络技术、通信技术、数据库技术和多媒体技术等多种技术,以计算机为主的各种硬件设备作为管理文献信息资源的基本手段,拥有一套先进的制作、存储、发布和维护数字化文献信息资源的软件系统。
3.结构层面。数字图书馆应拥有分布式信息资源库群,具有有序化组织和结构化存储信息的能力,通过网络系统有效地连接用户与各个图书馆、信息服务中心和数据库等,实现信息资源传递的网络化和存取的自由化。
4.目标层面。数字图书馆要通过因特网和国家骨干通信网,实施全方位、多元化和高效能的数字化信息服务,实现对全国及全球的数字图书馆访问、检索和利用。
5.性质层面。数字图书馆是搜集、整理、存储和传递各种知识信息的重要社会设施,是国家信息基础的核心,一个国家乃至整个人类社会的信息平台、文化平台、教育平台和数字信息资源中心。 数字图书馆中的新型技术
数字图书馆是以用户为中心的一个独立的实体,是一个国家的数字教育平台及一个国家的数字资源中心。由现代计算机技术和海量数字数据共同组成的信息服务系统,是一项技术性很强、覆盖面很广的系统工程,它的研发已成为数字化时代的主要内容,并且已经取得了很大的成就。
一、数字图书馆中的新型技术
数字图书馆咨询人员根据用户的请求,利用数字图书馆丰富的数字资源数据库进行分析和信息的整合,向数字图书馆预约信息或分析报告,发送信息请求;也通过新型技术平台与其他用户进行点对点的信息交流,获取全面而权威的相关信息资源,避免自己在筛选信息上花费过多的时间。并通过E—science平台将收集到的信息推送给发送请求的用户。
(一)新型技术——E—science
数字图书馆的理论与技术的研究正日新月异,E—science科研平台作为数字图书馆信息的接收与发送端口及交流的平台,将极大地改变我们从事科研活动的方式和方法,将提高科学研究的开放性,提高科研信息共享的程度,促进科研协作。
1.网格(GRID)技术。当前,对于什么是网格,还没有明确的解释,网格技术尚处于萌芽时期,还处在科学家的实验室阶段。
(1)网格(GRID)技术的产生。美国计算网格项目的领导人伊安·福斯特(Ian Foster),在他题为《网格:21世纪信息技术基础设施的蓝图》的著述中描述道:网格是构筑在因特网上的一组新兴技术,他将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通老百姓提供更多的资源、功能和交互性。充分说明了网格的强大功能。
(2)因特网主要为人们提供电子邮件、网页浏览等通信功能,而网格功能更多更强,能让人们透明地使用计算、存储等其它功能。
(3)网格主要由网格节点、宽带网络系统、可视化设备、资源管理和任务调度工具以及监测工具等六个部分组成,并且紧密联系集合成了一个强大的管理与交互的功能体系。
2.新型技术的概念。
(1)新型技术E—science的概念是由英国人最先提出的。
一是指在重要的科学领域中的全球性合作,以及使这种合作成为可能的下一代基础设施。
二是建立在新一代网络技术和广域分布式高性能计算环境网格(GRID)基础上的全新科学研究模式,以互联网技术和网格技术为基础,实现跨越地理界限的全球大规模数据采集、高速计算和高性能可视化;将互联网应用、高性能科学计算及资源共享提高到一个全新的层次。
三是核心思想就是通过网格计算技术,最终将全球计算机可用资源整合成一个虚拟的超级计算机,实现与地理分布无关的计算资源、数据资源、存贮资源的全球自动配置和共享。
(2)国外E—science的形成与现状。
一是美国从20世纪90年代初就开始进行国家高性能计算环境(网格)的研究。美国政府用于网格技术的研究经费高达5亿美元,美国自然科学基金会(NSF)的信息部拿出1500万美元,支持高能物理学家发展GRID。
二是欧盟于2000年和2001年分别投资1000万和2000万欧元,启动了欧洲网格计划(Euro Grid)和数据网格计划(Data Grid),并使GRID在近期内对一些重要研究领域,如生物医药、高能物理、天文学等实现具体应用。英国剑桥大学基于高性能计算机网格“通路网格”(Access Grid)实施远程学术交流,已经能够将科研会议和试验报告实时在英国的十个E—science研究网格间进行讨论交流,非常便捷,图像、声音非常清晰。
三是英国曼彻斯特大学的生物信息学数据和计算网格“我的网格”(My Grid)为研究人员提供了一个基于网格的实验环境,研究者可以方便地经由互联网进入该系统,使用系统专有的果蝇和酵母数据库和基因组功能注释平台。
(3)我国的E—science的发展。
我国“九五”期间国家IT“863”计划已经启动网格计算环境研究重大项目,中国科学院、清华大学、北京大学、西安交通大学等科研机构承担了一系列国家高性能计算机环境和国家信息网格系统建设攻关项目。
(二)图书馆数字化进程中的E—science
1.新型技术E—science的架构平台。新型技在数字图书馆的交互服务中起着中间桥梁的作用,目前,E—science已经融入图书馆数字化进程中的。