(2)跨网关检索系统。Z39.50属于专用的M2M (Machine T0Machine)协议,不能方便地嵌入Web环境,尤其是用户Web浏览器, 所以在数字图书馆建设中并没有成为主流。考虑到这种限制,ZIG开始探索适应开放环境的Z39.50检索技术,包括基于XML的Z39.50编码方式和基于HTTP的ZNG机制。许多分布检索体系还采用或实验了其他机制,例如X500/IDAP、WHOIS++以及SDLIP和STARTS等和CrossR OADS、IMESH等跨网关检索系统。
2.开放检索机制的应用。
(1)从2000年起,OAI作为一种开放检索机制开始得到广泛重视和应用。它的渊源可追溯到NC STRAL及其Dienst协议和Handle命名体系,最后以OAMHP协议来具体实现。
(2)要求数字资源系统能够用DC元数据描述数字对象,并提供这些元数据的开放搜寻。目前NSDL通过OAMHP来建立它的核心集成系统,通过由此生成的元数据库来支持对多个数字资源系统的检索,欧洲各国也开始研究和推动OAI机制的应用。
(四)数据应用条件的标准规范
为了支持通用用户系统,如通用浏览器对数据内容的方便处理,有关系统正探索多种方式,包括建立共享插件登记系统和在元数据中描述所需系统软件及其链接信息,使得用户可以在调用使用数据对象时可调用相应的处理软件。
1.数据应用条件。主要涉及用户系统能否方便有效地使用所检索的数据内容,这可以通过采用标准数据格式在一定程度上解决。但是许多数据内容例如GIS数据、计算数据、统计数据、虚拟现实数据等由于产生方式、内容构成、用途和管理要求等方面的原因,往往要求有必要的软件模块、浏览器插件来进行处理。
2.作为数字图书馆领域整体,目前的解决方案还在研发改制中,W3C等机构正探索用XML开放标记语言来描述这些复杂的数据内容,如、SVG、SMIL、SSML(Speech Synthesis Markup Language)VRML(Virtual Reality Modeling Language)等,支持基于XML的用户系统对各种复杂数据内容的处理。
(五)分布数字对象机制的标准规范
数字图书馆界面对开放和分布的数字信息服务环境,一直在探索基于分布对象机制的数字图书馆体系,建立标准的界面定义机制,对它们的界面、功能、数据流、传输协议等进行规范描述,然后通过开放的搜寻和调用机制来实现对分布、异构和变化的数字信息系统的发现、调用和配置。
1.将各种数字资源系统或服务系统视为一个数字对象。
(1)最初的努力倾向于建立在CORBA、J2EE、DCOM等方式上。
(2)现在的趋势正走向Web Services方式。利用XML对数字信息系统进行规范描述,利用登记系统实现这些描述信息的公共登记和开放搜寻,通过开放协议支持基于规范描述的信息系统调用、配置和利用。正在建立的这方面的标准规范包括WSDL、WSFL、UDDI。
2.“开放数字图书馆”对象机制的标准规范。
(1)通过Web Services机制来更灵活地实现各种数字信息系统的互操作,保障各种系统在整个网络空间的可使用性。
(2)随着信息的“有序性”管理目标、方式的确立,要求必须要在实行项目管理中,形成标准、规范的管理体系。要求利用标准规范来约束数字资源系统的服务机制,以保障系统服务在网络空间的可使用性和系统之间的互操作性。
二、关于数字资源长期保护的标准规范
数字文献的长期保护问题,已成为重点研发任务。目前,已有的成果主要集中于数字信息长期保护所涉及的数字比特流、信息格式、信息处理环境、信息内容验证管理机制、信息组织机制等相关内容和机制。同时,也提出针对上述问题的数字资源长期保护的标准规范问题。
(一)数字图书馆关于数字资源长期保护任务的提出
图书馆界及档案、博物等领域,已开始提出了一系列数字资源长期保护的标准规范框架和规范,重要成果包括:
1.开放档案信息系统参考模型。
(1)美国空间数据系统咨询委员会提出了开放档案信息系统参考模型(OAIS),已被普遍接受为数字信息长期保存系统基本构架,并已作为ISO标准草案。
(2)模型提供了一个功能框架和一个信息框架,前者包括摄取模块、长期存储模块、数据管理模块、检索传递模块和系统管理模块,后者包括通过摄取模块获得的存交信息单元(SIP)、经过处理后用以存储的存储信息单元(AIP)、检索时提交的传递信息单元(DIP)。
(3)该模型已在众多图书馆的数字信息保存项目中得到应用。
2.数字资源长期保护的问题框架。美国RLG提出了数字资源长期保护的问题框架,比较全面地对存在问题、研究方向、可能技术和管理措施等进行了描述,并建立了长期保存责任框架。
3.数字存储库的属性要求。美国RLG/OCLC联合提出了可信赖数字存储库的属性要求,界定了符合OAIS要求的数字信息长期保存系统应该具备的基本条件和责任体系。
4.内容信息元数据的建议。许多研究或试验项目提出了专门支持数字信息长期保护的元数据格式,例如CEDARS、PANDORA/NLA、NEDLIB格式,RLG/0CLC也根据OAIS模型和这些格式提出了由内容信息、保护描述信息和封装信息组成的长期保护元数据结构。并且提出了自己的内容信息元数据的建议。
(二)各国建设数字资源长期保护的标准规范
1.世界先进国家都十分重视数字资源长期保护的规范标准问题,尤其是大范围合作项目,都在项目启动初期致力于建立数字信息资源建设的标准规范描述体系,指导、协调和约束参与项目建设的各个单元对标准规范的选择和采用。
2.我国也应参照这一成功经验,对我国的实际标准规范应用环境和制定程序进行认真分析,建立适应我国数字图书馆建设所需要的标准规范描述体系。
三、关于数字对象描述元数据的标准规范
元数据作为描述数字对象的数据,是所有数字信息资源建设项目的重要基础。需要规定描述数字对象的原则和基本方法,或者在具体范围内规定实际应用的元数据标准与规范。
(一)元数据的应用原则
元数据已经成为目前为止数字信息录制与存储的最有效方式,许多描述体系都专门论述了元数据的应用原则,并形成共识:
1.元数据的应用原则。
(1)可靠服务的数字信息资源系统。提供公共、长期和可靠服务的数字信息资源系统,都应该编制关于数字对象的元数据:如果因为特殊原因没有或暂时没有编制数字对象的元数据,也应该提供关于资源集合的元数据。
(2)保障内容描述方式的标准化和描述内容的可交换。元数据内容描述应使用标准的内容编码体系,包括主题或分类词表、资源类型、语种、国别或地区、日期或时期等,从而保障内容描述方式的标准化和描述内容的可交换。
(3)采用标准的或业界通用的元数据格式。是目前数字资源系统创建的自己的元数据格式,是采用标准的或业界通用的元数据格式。
2.元数据包括的重要内容。
(1)技术元数据。关于数字对象创建、使用等的技术条件的数据,从而支持所描述的数字对象的长期保存及可能的仿真或迁移处理。
(2)管理元数据。关于数字对象使用过程中的存取权限、知识产权、保存控制等的数据,从而支持对数字对象的有效管理。
描述性、技术性和管理性元数据,也应通过开放链接方式组织在一起,以适应元数据交换、复用和动态定制等方面的要求。
3.资源类型和应用要求。
(1)所选择应用的元数据格式应适用于具体的资源类型和应用要求。在美国,由于各个领域都存在各自的元数据格式,如TEI、GILS、FGDC/CS DcM、EAD、VRA、IEEELOM等;甚至关于同类对象也有不同格式,例如MARC与0NIX……,这些格式虽然针对不同的需要,但是也给资源的开发、开放、共享,带来了极大的不方便。
(2)应用要求。IMLS鼓励各数字资源建设单位选择适合自己资源类型和应用任务的标准的或通用的元数据格式。与美国不同,欧洲和加拿大在承认各个建设单位应选择适用的元数据格式的同时,往往建议或要求采用某一元数据格式作为核心集。
4.元数据格式应支持互操作。
(1)元数据格式定义应该是公开的。
一是体现在形成由格式定义、语义定义、概念集定义、标记语言定义、内容编码体系定义、应用规范(Application Pro iles)定义等组成的定义链。
二是意味着所有定义应该是公开、基于开放标准和开放语言的。
(2)元数据格式的规范转换机制。要求元数据格式提供与其它通用格式的规范转换机制,尤其当所选用的格式不是标准格式时。
5.元数据应该提供相应的验证机制。
(1)元数据本身也是数字对象,因此可唯一标识和长期保存,也有它自己的管理数据。
(2)应该提供相应的验证机制。
(二)元数据标准描述体系的元数据标准
元数据标准的描述体系的建立,目的是对元数据标准格式的选定及规范化。
1.元数据标准的描述体系有三类:
(1)描述体系会根据不同资源类型分别规定不同的格式。
(2)会按照统一的检索和交换需要来规定统一的核心格式及其扩展方式。
(3)只是制定元数据格式选择原则,并不具体规定元数据格式。
2.部分描述体系允许使用多种元数据格式,根据不同的资源类型推荐多个格式。
(1)Ohio LINK对它的Digital Media Center的资源格式规定。
(2)一般科学与技术资料采用DC,人文科学、档案资料、音乐资料采用DC,生命科学和医学资源采用基于DC的扩展格式。
(3)地理信息资源采用FGDC/CSDGM格式。
(4)艺术与建筑资源采用VRACore格式。
3.许多描述体系或系统推荐使用一种元数据格式作为核心格式,允许在核心格式基础上按规范方式进行扩展。
4.制定元数据格式选择原则,并不具体规定元数据格式,而是一种引导。
四、数字内容创建的标隹规范
在数字资源建设中,数字内容包括二类:一类由传统载体——印本、图片、录音录像等数字化而形成的数字对象,另一类是原生数字形态的内容对象直接的数字文本、数字摄像或数字录音文件等。
数字内容创建的标准规范涉及内容编码、内容对象格式、内容对象标识等方面。
(一)数据内容编码
内容编码涉及具体数据内容的计算机编码形式和标记形式,是制约数字信息可使用性乃至可持续性的最基本条件。数字图书馆项目通常会要求资源内容在编码层次遵循基本的标准:
1.基本编码标准。
(1)国际上普遍要求遵循ISO/ECl0646/UNICODE编码标准。
(2)我国环境主要有:GB2312—1980、GB13000—1993和GB18030—2000标准,其中GB18030在GB2312基础上进行扩充,在技术上是GBK的超集,是国家强制性标准。GB13000—1993是s0106461的等同标准,GB18030—2000与它在字汇上兼容,通过代码映射表可以进行自由转换。
2.特殊信息编码。
涉及数学符号和公式、化学符号、地理坐标、矢量信息等的编码,基于XML的开放标记语言。如:SVG(Scalable’Vector Graphics)、SMIL(Synchronized Multimedia Integration Language)、MathML(Mathematical Markup Language)、GML(Geography Markup Language)、CML(Chemical Markup Language)等。
3.数字文献结构编码。
涉及如何定义文献结构,普遍要求采用XMLDTD/XMLs ehema来定义文献结构,而且相关的文献模式定义应经过XML语法验证(validmed)。
(二)数据格式
数据格式涉及图像、文本、音频、视频、多媒体等数据内容,需要解决的问题包括格式体系和格式标准。
1.格式体系指数字内容创建中需要多种承担不同责任的数据格式,通常包括:
(1)保存格式。作为长期保存格式或称原版格式,要求保存原始数据形式,如图像、录音、录像等的内容及其表现,采取非压缩格式。
(2)浏览格式。作为正常存储和显示的格式,要求保证视觉质量且降低传输成本。可从保存格式中派生,可采用压缩格式。
(3)预览格式。作为预览信息,提供粗略内容表现,可从保存格式或服务格式中派生,可采用大压缩比的格式。
以上格式体系主要针对数字图像而言,根据不同用途来建立多种相互关联格式,对音频、视频内容等都有着实际意义。
2.文本数据的格式。文本数据的格式标准涉及两种类型,作为文本文件或作为图像文件。
(1)描述体系格式。作为文本文件时,描述体系要求采用HTML、HTMlL、XML,早期还包括SGML格式。其中XML格式的定义须是经过验证的XMLDTD或XML, Schema,用XML标记的文本数据在交换时应可用HTML/HTML格式表现。
(2)文本专门格式。在不能有效处理HTML/XML环境下,应采用纯ASCII格式或CSV格式。如果文本资源本身是专门格式文本,如doc、rtf、ps等,在保证应用软件可获得性的同时,应提供将这些格式文本转换纯文本文件或HTML/ML格式文本的公开方法,形成可靠的数据迁移机制(Data Migration),以保证未来能把专用格式文本转换为开放格式文本。
(3)事实标准格式。有些领域规定或采用某种专门文本格式,形成该领域的事实格式标准,如数学和工程计算领域的TeX/LaTeX格式。
3.图像数据的格式标准涉及格式类型和分辨率。分辨率根据保存、浏览或预览格式而有不同要求。
(1)对保存格式多数描述体系都要求用非压缩的TIFF格式,分辨率往往要求600dpi,但CCOP允许使用NG。
(2)对浏览格式可采用JPEG或SPIFF格式。
(3)对预览格式可采用GIF格式。
(4)对线图图像可采用PNG或CIF。
4.视频数据的格式标准。