一、 项目概述
地情数据中心是关于地方经济和社会发展情况的资料征集、存储及利用的信息系统。内容涉及自然、政治、经济、文化及社会等方面,以旧志、年鉴等为静态数据来源,以年度征集到的资料及报刊内容为动态资料来源,以数据库及检索等信息技术为支撑。地情数据中心可为地方志书编纂、文化传播、资政研究等提供资料支撑,同时,也是抢救性地保存、传承非物质文化的必要手段。
二、 必要性和紧迫性
(一) 建立地情数据中心,完成市政府下派的任务
《<全国地方志事业发展规划纲要(2015—2020年)》,提出了“打造地情信息数字资源库,逐步推进地方志工作数字化... ”、 “建立地方志资料保障机制…建立地方志资料库,为修志编鉴和地情开发服务”等两项任务。地情数据中心建设需要经过系统建设、数据收集、机制建立等过程,当下,应着手地情数据中心建设,确保2020年完成该项任务,同时,为三轮修志提供资料筹备。
(二) 建设地情数据中心,提升志办效能,服务好全市方志工作
修志是方志办的主业。志书作为资料性性图书,完整、详实的资料,对提升志书质量和编纂效率起到关键性作用,同时,资料也为高效编制各类文化专题读物提供支撑。
县级志书编纂普遍需要8年左右,如何缩短编纂时间,提升编纂效率是一个问题。通过购买信息化服务,快速从方志、档案、报社等部门收集资料,可有效为各区资料搜集提供支持,为按时完成修志任务创造条件。
(三) 迫切需要抓住文化保护、继承和发展时间窗口
近40年,我国从农业社会快速走到了后工业社会,原生态的乡土文化快速消失,中华文化与外来文化、传统文化与商业文化之间的交锋更加频繁,中央于2017年1月,出台了《关于实施中华优秀传统文化传承发展工程的意见》,指出了文化建设的迫切性,提出要厘清中华文化的历史渊源、发展脉络、基本走向,实现民族和谐及文化自信,并提出了包含“做好地方史志编纂工作…挖掘和保护乡土文化资源,提升乡土文化内涵…”在内的各项任务。
乡村振兴及全面小康社会建设战略,都对文化创造性转化、创新性利用提出了明确的目标,为此,迫切需要通过信息技术,提升资料征集、管理及利用的效率。
三、 总体思路
内容定位:地情数据中心以成果库及资料征集库为两大子库,以存储、检索及用户利用为三大软件子系统。成果库以已出版的文献及实物、录音、录像、图片等为主要内容;资料库以收集到的一手资料为内容。
价值定位:为本区域历史文化保存、编纂、传播等提供素材,促进基于史实及文化的各类决策,为文化自信提供事实支撑。
建设定位:以地方志事业十三五规划为指导,确保地情库与编纂系统、利用系统等具有良好的集成,并具有可扩展性、可维护性和健壮性。
管理定位:以利用为导向促进系统规划优化,以内部人员及协作单位为队伍支撑,以数据共享节约投资成本,以管理体系为机制保障,确保地情库数据内容、质量及价值持续增长。
四、 项目可行性分析
政策可行性。国家、省地方志发展规划纲要,明确提出了地方志等文化资源开发及利用的要求。
技术可行性。广东等省实施了地情资料征集实施管理办法,力争在2018年前完成地情库及志书编纂系统建设,为第三轮修志做好信息化准备;浙江省方志办于2016年开通了浙江地情库,先期导入了《(雍正)浙江通志》和《(民国)浙江通志稿》),并为《浙江通志》编纂人员及全省方志人提供了资料检索服务。特别值得一提的是,当前基于时(历史纪年)空(历史地名追溯)及相关性组合(如农业、水利、灾异等组合)这一具有史志行业特色的检索技术,已经基本成熟,为地情数据中心建设提供了有益的借鉴。
经济可行性。地情库建设费用,由地情数据库软件购置费,书报数据版权授权和数据采集等费用构成,数据加工及导入等三个方面的费用。其中数据购置及加工费用,依照数据量来计费。为此,可以采用市、区县、街道等共建的策略,即上级负责软件系统的购置(开发)及市本级数据的导入,区(县)负责本级数据的导入,并获得区级地情库。及采用共享共建的策略,在确保技术一致性的基础上,还可以减少单个单位的建设投入费用。
实施可行性。地情库项目实施,基于检索技术的软件部分的个性化适配及安装,可由专业软件企业去承担。占据工作量最大部分的数据购置、采集及录入等数据开发工作,可采用志办领导监督、报社负责、大专院校师生参与的模式,协同做好数据规划、实施方案设计、任务分工、数据采集、数据考订、验收、入库等工作,以克服市、县(区)、乡(镇、街道)等机构缺乏如人员不足的矛盾。
五、 项目目标
(一) 2017年,完成地情库及检索系统建设,创新存史及利用功能
以成熟的系统原型为基础,完成地情库的内容结构规划,明确系统应满足的用户类型及其需求,完成系统的开发及部署,并通过验收。
(二) 2018年前后,实现成果数据入库,为区志编纂提供资料支持
在地情库总体结构下建立志书、年鉴等分库,分库以专题(如《杭州年鉴2017》)为最小库单位,完成已出版志书、旧志、年鉴等成果的入库,建立与内容特征一致的索引库,为全市志书编纂及研究人员,提供追溯事物发端、查证历史脉络等支持,提升方志编研效率。
同时,建立报刊数据子库,字库下开设社会、经济、文化等专题,让编研人员利用报刊数据,准确把握时代特征,查证地方及行业特色。
(三) 2018年后,建设资料征集子系统,为各类志书及读物编纂做好准备
资料征集是为了对已经发生的事物、事件,进行及时地记录、补充或纠错,征集子系统以专题为单位(如2016年的地情年报),明确专题的内容范围、用途、收集渠道、收集人等信息,为今后的综合志书及专题志书(如西湖龙井茶叶志、钱塘乡村志、运河志)及读物编纂提供资料支撑。
六、 地情数据中心功能概述
地情数据中心,依照其使用对象不同,分成五大子系统。
(一) 成果库子系统
成果子系统是由数据导入(录入)人员使用的子系统,其数据是将已经出版的志书、年鉴、报刊等内容,采用统一格式的PDF文件(图片及文字双层格式),经技术人员分页、数据清洗及关键词提取等处理之后,形成可供用户检索及引用的数据源。成果库具有库结构管理功能,以提高资料的可利用性。
(二) 检索利用子系统
检索利用子系统是供读者使用的子系统,读者通过模糊检索、分库高级检索等手段,从成果库中检索到需要的资料内容。
围绕用户搜索时的关键词,系统具有自动向用户推荐关联词汇、热点词汇的能力,并通过算法将检索结果,按照与用户意图的紧密程度进行排序。系统考虑到方志编纂及研究等人员对资料引用需要,检索结果可显示资料的出处。下图是志库检索系统检索结果列表界面图。
今后,还可以面向借阅管理需要,在系统中扩展读者管理等功能。
(三) 资料征集子系统
征集子系统是满足资料征集(采集)人员,依照征集方案协同开展资料收集的子系统。主要功能有面向征集负责人的专题开设、人员分工、绩效统计等功能;面向资料供稿人员的数据录入、数据审核等功能。征集子系统满足对文本、音频、视频、图片等不同介质类型数据的录入,同时,满足报刊、书籍、档案、口碑等不同来源途径的著录登记。规范的数字格式,可满足专业人员对资料正确性及完整性的需要。右图是资料卡片类型。
(四) 仓库及安全子系统
仓库及安全子系统,是面向数据中心技术管理人员使用的子系统。用户可以对既有的成果及资料,依照内容发生时间、行政区域及内容性质等条件,从总库中抽取数据建立专题库(如滨江2001~2005),以满足不同利用的需要。也可以面向社会(如学生爱家乡)、政府(“五水共治”)等需要建立专题库。右图是地方志资料库一级目录图。
安全管理模块,具有数据备份、数据接口授权等功能,以提升数据及系统的安全性。
(五) 系统管理子系统
系统管理子系统,是面向技术维护人员的,以提升系统的可扩展性及可维护性。主要功能有,对系统著录字段、历史纪年、地名等元数据进行管理,提升数据的规范性及可利用性;对系统角色权限、用户帐号等进行管理,以提升系统权限安全性。
七、 项目实施方案
项目实施方法有多种形式可选。一种是自顶而下(瀑布法),即依照全面规划、需求设计、架构设计和实现的顺序执行,这种方法适合系统重构性质的项目,这种方法的优点是问题考虑全面,缺点是进度慢;另一种是迭代法,即系统先上线部分功能,之后再依照用户需求,持续、增加发布系统的功能,优点是速度快,缺点是对开发团队人员素质要求高。
鉴于志编纂人员对资料需求的迫切性,可以采用迭代法,即利用当前成熟可用的方志资料(成果)检索系统,快速部署并导入数据,满足用户的部分需要,之后,再开启增加、扩展、优化功能。
下面的实施方案,可以依次顺序执行,也可以交替迭代执行。
(一) 成果库子系统实施方案
第一步:设计成果库数据拓扑结构。即拟定地情数据所有资料的分类方法,便于今后资料归类及利用。
第二步:部署及优化成果库系统。 将检索系统部署在甲方指定的运行环境中,在志库公司史志成果库系统功能基础上,依照甲方的专题管理、数据统计需要,对系统进行个性化二次开发。
(二) 成果库数据导入(录入)及系统初始化实施方案
第三步:成果数据导入。将不同格式的方志、年鉴、报刊等数据,以书籍自然页或报纸自然版面为单位,将数据转化为PDF文档。首批导入的数据以市级志书、年鉴及报刊的部分或全部。
第四步:文档切割及清洗。利用成果库中的文档分页切割工具,将整个文档切割成以书的自然页或报刊的自然版面,并对页面标注出处属性,对数据格式进行清洗,确保数据格式与检索系统运行环境要求相一致,为检索系统提供干净的数据源。
第五步:建立索引库。依照方志内容及本区域地理人文特点,提取内容中的索引关键词,并将志库公司积累的方志关键词导入检索系统中,依照关键词建立索引。
(三) 征集子系统建设实施方案
征集子系统可以与成果库子系统的用户有一定的交集,故两个系统可以集成为统一平台;考虑到资料数据的安全性,最佳策略是资料库独立运行,再依据需要人工将资料库迁移到成果库中,使成果库可以检索到新征集到的资料。
第一步:编制并确定技术解决方案。技术解决方案包含资料征集的总体职能、流程及人员组织等业务架构,依照业务架构设计系统功能及界面,甲方对该方案进行评审。
第二步:开发征集子系统。在志库公司志书编纂信息系统的资料卡片模块功能基础上,进行资料征集系统的开发、测试及部署。
第三步:运行征集子系统。依照甲方资料征集工作安排,建立一个资料专题并明确征集分工,相关用户协同在系统中征集资料,管理人员监控整个过程。在系统运行过程中,培养队伍的IT应用能力,并为系统优化提供需求。
(四) 系统及数据维护实施方案
地情数据中心之下的成果库、资料库,其数据价值非常之高,资料利用用户数量大,用户对系统的稳定性要求高,因此,需要建立运维解决方案,确保应用系统及数据的安全,并确保系统稳定运行。
第一步:建立地情数据中心维护方案。明确所维护对象(网络、数据、系统),依照维护对象分别建立安全策略、应急措施及绩效监管等运维方案。
第二步:评维护方案。邀请地情业务、网络安全等相关专家,对维护方案进行评审。