抄写本方志古籍数字化整理实践# 胡以涛1,惠富平2** 基金项目:高等学校博士学科点专项科研基金(20090097110033);中央高校基本科研业务费专项资金、南京农业大学人文社会科学重大招标项目资助(SKZD201202) 作者简介:胡以涛(1980-),男,馆员,主要研究方向:信息组织,科学技术史 通信联系人:惠富平(1963-),男,教授,主要研究方向:农业史、科技史. E-mail: hfping@njau.edu.cn (1. 南京农业大学图书馆,南京 210095; 2. 南京农业大学人文社会科学学院,南京 210095) 5 摘要:以当前古籍数字化整理工作的成果为基础,重新审视整理方法和思路,针对抄写本地方志古籍的形制特点,提出一种既能数字化复原保存地方志,又可全面适应资源应用的整理模式,即“图文对照+文档附件”的模式。通过高质量扫描、人工录入校对、图像压缩、繁简转化等技术,确保一次数字化加工,满足纸质图文存档出版、数字化图文出版发布、繁简10 对照检索等多种应用需要。从而避免重复建设,减少书籍损耗破坏,实现整理工作的高效率、高质量、最优化。本研究可为我国类似古籍整理工作提供借鉴。 关键词:古籍数字化;地方志;抄写本;整理 中图分类号:G255.1 15 the Digitalization of Ancient Books Collation Practice of Manuscript Local Chronicles HU Yitao1, HUI Fuping2 (1. Library of Nanjing Agricultural University,Nanjing 210095; 2. College of Humanities and Social Sciences of Nanjing Agricultural University,Nanjing 210095) 20 Abstract: Based on the result of the work of the ancient books digitization collation,and re-examine the methods and ideas of collation,we propose a collation mode which can not only restore and preserve the local chronicles by the digitized way, but also can suit for resource applications all around. That is a "Corresponding to graphics and text+Document attachments" mode.Through high-quality scanning, manual entry proofreading, image compression, simplified 25 conversion technologies which can ensure once digital processing, it can meet the paper photo archive published, digitized graphics published release, simplified control retrieval and other applications require. So we can avoid duplication and reduce the destruction of books loss, and achieve the high efficiency, high quality, and optimization of the collation work. This study can provide a reference for similar ancient collation work in China. 30 Key words: digitalization of ancient books;local chronicles;manuscript;Collation 0 引言 随着信息技术的发展,古籍数字化整理成为古籍保存利用的一个重要手段,得到了古籍整理研究界的重视。由于古籍本身版本、形制、词汇等差异性较大,在整理时应根据古籍的35 特点,制定相应的整理方法。 地方志,即地方之志,古称地志、地记、图经、方志等,是记载一定地区(或行政区划)自然和社会各个方面的历史和现状的综合性著述和资料性文献[1]。 地方志是我国特有的地方文献,内容十分广泛,举凡一地的建置、沿革、疆域、山川、津梁、关隘、名胜、资源、物产、气候、天文、灾异、人物、文化、教育、民族、风俗等等40 情况,皆包罗在内。中国地方志反映了我国各族人民在不同历史时期的社会生活状况,记载了我国各个历史时期的思想文化、自然开发、科技文化等方面的成就,既是概括一地自然、 社会和人文发展过程的地方史书,又是汇集一方基本知识和系统资料的地方百科全书,是一方之全史[2]。 上个世纪五六十年代,著名农史学家、中国农业遗产研究室(现中华农业文明研究院)45 创始人万国鼎教授组织专业研究人员60多名,分赴全国40 多个城市、100多个文史单位,从8000 多部方志中摘抄了3600多万字的农史资料。该方志资料内容涉及到农业生产的各个方面,而以动植物品种资源和相关的种植饲养技术为主,具有极高的科技、经济和史料价值,成为世界唯一一套明清方志古籍农业资料,受到国内外相关学者的高度重视。据不完全统计,前来查阅该文献的英、美、日、韩以及国内各地的学者已达近千人次,观者无不叹服,50 纷纷给予高度评价。 然而,时过境迁,由于这套保存于线装书文库的孤本农业资料全由手工抄写而成,随着时间的推移,纸质日渐脆破,字迹逐渐模糊,亟待加强保护和抢救。开展抄写本地方志数字化整理工作,能扩大农业科技古籍的共享范围,提高公共服务水平,对于弘扬我国传统文化,为现代农业的可持续发展服务具有重要意义,是一项十分迫切的工作。 55 近年来,研究院在各级项目的支持下,从事过一部分地方志的数字化整理工作,已有一定的研究与实践基础,如博士生衡中青关于地方志的研究,完成了《方志物产.广东》信息系统的设计和构建。包括全文数据库、物产索引子系统和引书挖掘及索引子系统等功能模块[3]。 本文在整理前人研究的基础上,参考古籍数字化整理的一般方法,如曹玲博士关于古籍60 数字化工作过程及相关元数据、建库技术等介绍[4],结合南京农业大学明清方志农业物产数据库建设项目的具体实施实践,进一步梳理了地方志数字化整理的过程及要注意的关键问题。 1 整理模式 本文所指的抄写本地方志,主要指人工摘抄的明清时期地方志资料,按历史资料分期,65 其应属于古籍整理范畴。按照毛建军关于古籍数字化的定义,古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作[5]。 目前国内主要采取三种整理模式:分别为图像版、文字(全文)版、图文版。这三种模式70 各有优劣。 图像版全文数字化古籍是指将古籍书页进行原文图像扫描,存储在光盘或计算机硬盘等介质上,从而为读者提供文字图像信息服务。图像版数字化古籍的优势是:技术实现容易,运行成本低廉,可以保存古籍原貌;其缺陷是:占据空间大,不能检索。文字版数字化古籍是指将古籍书页转换成文本字符的形式,存储在光盘或计算机硬盘等介质上,并附加全文检75 索和链接系统等功能,从而为读者提供全文阅读或全文检索服务。文字版数字化古籍可以利用计算机进行多角度、多范围的检索、排序、分析数据,并可进行编辑、打印,使用起来非常方便。文字版数字化古籍的优势是:储存空间小,具备全文检索功能,可以支持学术研究。全文检索版数字化古籍的缺陷是:文字输入难度较大,开发成本高,不能保持古籍原貌。图文版数字化古籍就是图像版与文字版的结合。图文版数字化古籍将数据库中加入了原文图80 像,将全文检索数据和底本图像页面版式相互对照,研究者可根据需要随时参考原文图像。显然,图文版数字化古籍是最理想的数字化古籍开发模式。 然而,由于古籍文本一般是繁体中文,并且非常用字较多。尽管目前已开发了中文超大字符集,如统一码(Unicode)3.1版已于2001年发表,除了Unicode 3.0 版中的49194个字符,又增加了44946个新字符,其中42711个为汉字字符。UNICODE 的 CJK、CJK-ExtA、85 CJK- ExtB包括7万余汉字通用Unicode字体支持[5]。目前超大字符集对古籍中的大部分汉字支持已没有问题,但古籍文字的录入与显示依然很困难。因为要使最终用户能看到这些文字,需要打通多个环节。后面在文字录入中再详细介绍。 针对上述问题,在抄写本地方志整理中,提出了改进版的图文版整理模式。即采用原始扫描图像+简体中文文本+繁体中文文档相结合的模式,既能实现图文对照,又可以适应简90 体中文检索,最终还能充分利用繁体中文文档,如表1列出了本模式生成的主要材料及获取方法。其具体整理过程在后面进一步介绍。 表1 数字化整理后形成素材类型及目的 材料类型 获取方法 备注 高质量原文图像 扫描 采用300dpi扫描,满足出版印刷书籍需要,同时作为底本原始图像存档 网页版原文图像 图像处理 采用photoshop进行图像批处理,压缩成网页版发布需要,降低图像大小,便于查看传输,根据发布系统需要定制 繁体文本 人工录入 对原文采用人工打字的方法录入成word文档,并经2次审核校对,形成原始文档,方便采用计算机研究及出版使用 简体文本 工具转换 采用工具转换,如BacthDoc5.9,由繁体文本转换而来,用于在线检索需要 2 整理过程 抄写本地方志的数字化整理主要包括下列四个过程。在整个数字化过程中,通过对地方95 志纸本材料的分析,并结合整理利用的需要,选定合适的整理模式,在此基础上制定加工整理具体流程。具体流程图如下: 图1.地方志数字化流程 2.1 准备阶段 100 准备阶段需详细了解地方志古籍的数量、纸质情况、内容体例、类型分布等,并根据共享使用的需要选择合适的数字化整理模式。为了实现一次加工,多次使用,避免重复建设, 地方志分析 整理模式选择 ①准备 ②加工 ③建库 ④共享 图像扫描处理 文字录入校对 系统选择 分类建库 标引入库 网络 单机光盘 选择了改进型的图文对照模式,即采用“图文对照+文档附件”的模式进行整理,该模式能保证整个整理过程的高效率、最优化,降低各种损耗,并确保资源的可用性。 2.2 加工阶段 105 加工阶段是数字化整理的基础工作,只有通过对抄写本纸质地方志的高质量图像与文字的数字化转化,才能为后期建库共享打下良好基础。 (1)图像扫描处理。其中图像扫描处理环节需建立一定的规则。如为了便于归档整理,本次整理按照抄写本地方志的省份建立一级文件夹,按照书籍的原始数字编号建立二级文件夹,然后扫描文件依次采用扫描软件自动流水生成,名称为file0001.jpg~file9999.jpg,即可110 容纳超过1万页文本,一般三位数字即可,为了后期更正需要设置为四位数,其中左起第一位数字用于补充或更正遗漏书页。扫描分辨率设置为300dpi,真彩模式,保存为jpg文件,每页原始文件大约在4M左右。这样一本书扫描完成后,扫描图像数据可以直接用来原始存档,可适用图像打印、印刷出版等。后期为了网上发布的需要,需要压缩成适宜网页发布的小尺寸图片。采用photoshop的批处理功能,把每本书的扫描图像文件夹批量生成小图片,115 依次命名为sfile0001.jpg~sfile9999.jpg。 (2)文字录入校对。考虑到手抄本方志及繁体中文的特点,采用OCR文字识别效果不好,文字录入校对工作主要采用人工手动完成。为防止录入时文件名与页面不对应,提高录入质量,保证录入后文件中的复杂繁体中文的正常查看显示,设计了计算机自动生成书页图像对应文档的批处理应用程序。程序代码如图2,建一个空word文档templete.doc,通过批120 处理程序CreatDco,按照文件夹,根据扫描完成的原始数据图像文件名,批量生成与原图像文件同名的Word文档。然后把生成的文档一起发给录入人员,录入人员可以在空白word文里录入相应繁体中文,确保了文档与图像的正确对照。 学术论文网Tag:代写硕士论文 代写论文 代写代发论文 代发论文 |