|
数字方志建设与思考
王荟 肖禹
提要:本文从数字方志总体结构、资源组织结构和资源库结构的设计与思考等方面,论述了如何按照数字图书馆的建设要求,将数字方志建设成具有开放性、可交换性,可扩展性的、有序化、系统化、标准化的知识网络。
关键词:地方志数字方志
“数字方志”项目是采用数字图书馆的模式整理、加工地方志(旧志)资源的古籍数字化项目。不同于以往影像或全文为核心的古籍数字化项目,它是一个知识网络,核心在于依据统一的标准对方志内容进行深度挖掘与整合,强调重组后的信息资源的有序化和关联性,而非简单地改变方志的载体形态。“数字方志”的建设为古籍数字化开辟了一条崭新的道路,丰富了中国数字图书馆建设的实践。
一 地方志文献特征
地方志文献具有鲜明的地域性、资料性、综合性和延续性特征。包罗万象的内容和新、旧志书之间从形式到内容的继承关系又使它有别于其他地方性文献。地方志记载一个地区自然、社会、人文的历史和现状的各个方面。从天文地理、名胜古迹、物产资源、民族宗教、方言俗语、金石碑刻到政治经济、科学文化、典章制度、著名人物、重大事件等等,只要在当地有影响的人、事、物,统统属于它的记述范围。同时由于社会发展,地方的情况不断变化更新,使这种更新,不是另起炉灶,新编志书与旧志之间从内容到形式都存在继承关系。他们纵向揭示历史演变的连续性,横向反映各个门目的联系性。每一部地方志都以记述最近一段时间本地区的情况为主,同时又将前次修志的重要成果予以继承,并更正前次修志的错误。这样,地方志除了具有上述特征外,它在涵盖的地域和记述的内容上还具有交叉性,另外,地方志在其几百年的流传、收藏过程中,又形成了许多新的知识信息(例如批注、序、跋等),地方志的上述特点决定了每种地方志内容既自成体系,又彼此关联。
为了充分揭示地方志地域性、综合性、资料性、连续性、交叉性,数字方志设计的总体思路是遵循数字图书馆的建设要求,以地方志文献提供为基础,实现知识提供与文献提供相结合。
二 数字方志的总体结构
数字方志采用什么样的结构模式,是建设之初首先遇到的问题。我们一改传统的文献开发是围绕确定的题目组织文献的观念,将数字方志资源库定位于将方志的内容部分或全部迁移到资源库内,再进行合理的组织。
传统图书馆的理论与方法辅以计算机和网络技术,使得图书馆的文献提供能力和水平已经有了很大的提高,数字方志应充分利用现有的技术优势,同时开拓创新,尝试以知识提供为目标,建设数字方志。基于以上思考,数字方志由文献提供和知识提供两部分组成,文献提供部分由影像库、全文库和书目库组成,在影像库用户可以阅读志书原文,进行版本校勘等,在全文库用户可以进行全文检索,而在书目库由于标引到篇目,因此可以实现书目和篇目检索。影像库、全文库、书目库和书目检索、全文检索最大限度地实现文献提供。同时,为了多角度地对地方志中包含的信息进行重新组织,将资源库内的数据作为基础知识单元,通过数据之间的相互链接构成多维的知识网络。我们根据地方志的特点和对用户群体的调研,抽取了地方志中的基础信息,如人、事、物,设计了人物资源库、事件资源库、地名资源库、景观资源库、文献资源库、插图资源库、民俗资源库、物产资源库共8个专题资源库。
从可实现性考虑,文献提供部分(包括影像库、全文库、书目库和书目检索、全文检索)建设周期较短,实现难度较小,有大量的标准和案例可供参考借鉴;而知识提供部分(包括8个专题资源库和资源库检索、语义网络、智能检索)建设周期长,实现难度大,缺少可供参考借鉴的标准和案例,需要较长时间的摸索。同时考虑到知识提供必须以文献提供为基础,而文献提供也必将向知识提供方向转化。因此,数字方志建设也是分步实施的。首期要完成影像库、全文库、书目库和书目检索、全文检索,实现文献提供;在此基础上,积累经验,制定标准,进行专题资源库建设,最终实现知识提供的目的。
(一)影像库建设数字方志资源库的第一步是建设好数字方志影像库。影像是运用计算机保持与反映古籍原貌的最佳方式,同时也是制作全文文本库的基础和专题资源库的重要知识源。我们从国家图书馆分馆所藏的1949年前纂修约6000多种线装古旧地方志书中精选了跨越明、清、民国3代,覆盖全国14个省市的2864种各类志书,选取图像分辨率为300dpiI,图像模式为RGB模式(24位真彩),对所选志书逐页进行全文扫描。分别选择TIFF格式用于保存,JP2格式用于网络传输。为保护知识产权,我们还利用水印技术,对数字化后的影像进行了处理。为了方便用户阅读,我们本着准确、客观、实用的总原则,编制了包括志书的书名、卷册名和篇目名的三级目录,用户可以通过目录的指引,直接翻检到所需卷册或篇目。在影像库用户除了阅读原书,还可以做多幅影像的比较即版本较勘。
(二)全文库通过人工录入或OCR(Optical Character Recognition)将全文影像库中的志书影像转换成文本存人计算机,再配合相应的检索引擎实现全文检索。由于旧志书内容包罗万象,无法进行OCR识别,所以,数字方志全文转换采用的是人工录入的方法。在全文转换过程中,虽然可以在一定程度上进行文字规范,但是对于志书中出现的人名、地名、乐谱、图例,金石和方言用字,GBK或GBl8030--2000无法满足要求。因此,数字方志采用ISO/IEC 10646—1:2000(Unicode 3.0),支持7.1万汉字,并按认同标准在不造成原文歧义的情况下,对部分集外字进行了认同规范,对出现在人名、地名、金石、方言等集外字或暂时无法确认字意的集外字,都做自造汉字(占用自定义码位)处理,无法识别的字用“口”代替。地方志在其长期的流传过程中,形成了版本类型多样、版式情况复杂(包括各种不规则表格、图文混排等)的特点,各种删改、批注、点校也很难处理。数字方志采用有限版式还原,尽可能保持原有版式。
(三)专题资源库的建库原则是以原书内容为基础,按照元数据标准进行规范化处理,多角度、多途径地丰富、补充、扩展原书内容,将原来分散或不完整的方志信息集合起来,形成地方志知识网络。专题资源库彼此相连,并且都与影像库和全文库相链接。专题资源库的检索条件可以单独使用,也可以多个检索条件组配,进行复合检索。在专题资源库,用户根据需要,从一个知识点人手检索,就可以方便、快捷地跳转到影像库、全文库或不同的专题资源库,检索到与人口知识点相关的各种信息,从而为用户节省大量的精力和时间。随着资源库内数据的累积,数据间链接的增加,整个知识空间也将不断扩大,知识提供的能力会逐步增加。
三 数字方志的资源组织结构
从资源组织的角度观察,志书本身可以看作是一个实体容器,地方志的资源信息就是这个容器的内容。而这个内容的组织不是无序的,是志书编纂者依据志书的组织结构(体例)精心组织在一起,它的基础单元是志书的篇目。如果从知识提供的角度观察,将数字方志资源库或某一个专题资源库也视为一个概念容器,它的基础单元又是什么?或者说资源库内每条数据的内容是什么呢?
传统的文献开发是围绕确定的题目组织文献,而我们既然将数字方志资源库定位于将方志的内容部分或全部迁移到资源库内,再进行合理的组织,那么,基础单元的选择就显得尤为重要。该资源库不宜太大,也不能太小。如果资源库设计的可以容纳多类资源,其库结构就一定要有良好的通用性,适应各类资源,这样的库结构要么相当庞大,对每类资源只有部分适用,无法体现每类资源的特性。如果资源库设计太小,只能容纳很小一类,必然导致资源库数量的膨胀,势必产生大量的库与库之间的链接,使得检索效率下降,带来严重的‘‘迷路问题”,另一方面也会加大资源设计的难度和复杂性,增加不必要的建设成本。根据地方志资源的特点,它所有的内容都围绕地、人、事、物展开,因此,我们初步选择了人物、事件、地名、景观、文献、插图、民俗、物产作为8类基础单元,组成专题资源库。
例如:在方志中查找与旅游资源开发相关的信息,可以以景观库数据为核心,与相关的人物、事件、文献、插图、民俗、物产库数据相结合,就能够较为全面地反映旅游资源的全貌,以及与之相关的信息。再比如方志中的艺文志是专门记载本地区历代的有影响、有价值的著作、文章的年代、作者、卷目和内容提要,记载金石的年代、作者、文字、形状,也有专门编辑诗文的,它在地方志中是一个专门的门类,但在数字方志资源库中,艺文志中的信息资源将按其所属的基础单元分别归人书目库、人物库、文献库、景观库等专题资源库。
理想的资源库的结构还应体现资源的多方面属性,依据资源库的一个或几个字段可以向下划分为多个库,因为这些资源库是动态生成的,并没有实体的库存在,称之为虚拟库。这些虚拟库能够再依据等于中规则进行组合生成新的虚拟库。例如,需要得到法律虚拟库,首先从人物库、事件库、文献库分别依据关键词向下划分得到法律人物虚拟库、法律事件虚拟库、法律文献虚拟库,再将这三个虚拟库进行组合,得到法律虚拟库,对用户而言,依据他们的要求生成的虚拟库才是他们真正需要的,即用户自定义(自定制)资源库。同时,如果这些虚拟库是有一定价值或能够多次复用,只要记录其生成规则就能够再次获得,能够很好地支持虚拟参考咨询,而且会随着资源库的完善而同步更新。
四 数字方志的资源库结构
资源库的库结构设计既要体现资源的多方面属性,又要考虑资源库的加工效率与可实现性。从资源和数据管理的角度考虑,库结构包括以下5类字段:
基础字段:记录的是被著录资源客观的、原始的特征,其著录的内容是被著录对象的自然属性,既没有打上流传领域的烙印,也不掺杂著录者的主观判断和评价。基础字段是结构化数据,包括字符、日期、数值等,具有有限长度或固定格式。
分类字段:是著录者依据一定标准,对被著录资源内容的学科属性或其它特征进行的分门别类的揭示。该类字段由分类号和非控主题词组成。
描述字段:包括两个方面,一种是客观描述,是对基础字段结构化数据内容的补充、解释说明,例如书目库中的版本描述、目次描述等,立足于对事情本身进行客观说明。另一种是著录者对资源内容的介绍、评价性文字。例如提要、小传、简介等。描述字段是非结构化数据,也叫全又数据,这些数据都是以不定长、非固定格式保存的字符型数据。
链接字段:记录与被著录资源相关联的信息。
管理信息字段:记录了资源加工、发布、保存、更新过程中产生的信息。包括数据创建者、刨建时间、数据审校者、审校时间等。
以人物库为例,基础字段包括姓名、字号、又名、性别、民族、宗教、籍贯、出生地、主要活动地、生卒年、主要活动年、国籍、职官、科举、亲属关系;分类字段包括2~3级关键词;描述字段包括著述和人物小传;链接字段包括人物肖像、出处、相关人物、相关事件、相关文献、相关插图、相关地名、相关景观、相关民俗、相关物产;管理信息字段包括数据创建者、数据审校者、数据发布者、数据创建时间、数据审校时间、数据发布时间。数字方志资源库的资源内容可能涉及到一本或几本地方志,只有将这些信息组织起来才是一条完整的数据。对于同一事件,可能波及到很多地区,在当地的志书中都会有记载,例如较大的灾疫或农民起义。
同一种地方志可能会有一个或多个版本,可能是刻本、印本,也可能是抄本、写本;同一种地方志也可能经过一次或多次续修、增补。这样,对于同一个人或同一件事的描述可能相同,也可能有所出入。
地方志本身所具有的资源的交叉性和连续性,给数字方志资源库知识整合带来了极大的困难。要想在网络环境、多人同时参与资源加工的情况下,在一条数据记录中将分散在不同文献中的I司一个数据对象的所有信息既要收集完整,又不能造成重复,几乎是不可能的,考虑到地方志尊特点与资源加工的实际,我们将专题资源库分为交换信息库和客观信息库。交换信息库内著录资源对象的最基本的特征信息,在不同志书中这些特征信息是相对不变的,客观信息库从更多层面、更多角度、更细微、更全面的记述资源对象的个性化信息。这些信息在不同的志书中会有不l司的表达方式。即交换信息库内的数据A1对应客观信息库内的数据A1.n(n:1,2,……).A1和n个A1.n共同构成一条完整的数据。8个专题资源库我们都采用了这种结构。
对于书目资源库,一方面为了完整表现地方志书的三层目录结构,使用户更多地了解志书内章,另一方面为了更好地揭示地方志的复本信息,即地方志在流传和收藏过程中产生的信息和变化,我们对地方志书目库采用了不同于其他8个专题资源库的库结构,书目库由志书目次库、卷次库和复本库组成。
五 小结
在数字方志建设中,我们从应对信息时代图书馆面临的新环境,新挑战出发,尝试着改变传统的文献组织、开发、管理方式,实现在数字图书馆总体框架内文献资源的保存与利用。为此,我们在资源总体结构、资源组织结构和专题资源库结构的设计上凸显知识整合与提供的理念,同时为了符合数字图书馆的建设要求,我们对数字方志资源库从建设标准到资源加工、发布方案也都进行了一些有益的探索。例如:在综合考虑了几种元数据的利弊后,考虑到DC元数据能较好地解决数据的结构问题,具有较好的开放性和可扩展性,同时又是当前世界上较通行的数字资源加工标准,因此,在认真分析元数据定义的各个元素及其修饰词的应用范围的基础上,根据地方志各专题库资源对象的特征,分别进行了元素的纵向扩展和横向扩展,制定了符合数字方志要求的地方志专门元数据。
数字方志将会在实践中不断完善、发展、壮大,我们希望把它建设成为“保存产,传承文明,定位精品,开拓创新”的文化精品工稗。
|