FS71_Cover_chn Icon

張衡. 浙江通志 :50卷, 卷首 : 1卷. [中国], 康熙23 [1684]. 哈佛燕京图书馆, https://nrs.harvard.edu/urn-3:FHCL:14265319.X.

N° 71

地方志研究工具集(LoGaRT):一项研究中国历史的数字资源

張衡. 浙江通志 :50卷, 卷首 : 1卷. [中国], 康熙23 [1684]. 哈佛燕京图书馆, https://nrs.harvard.edu/urn-3:FHCL:14265319.X.

 

Nov 25, 2020  I  王修恩(Sean Wang)  I  Dept. III  I  LoGaRT: Local Gazetteers Research Tools

 

自十世纪以来,中国官员根据中央行政部门的指导方针,开始定期收集各省、府、州、县关于地理、社会和经济状况的数据。这些信息被编纂到地方志中,继而成为了我们现今研究中国地方历史的主要原始资料。虽然许多地方志已经遗失,但是现存的方志仍有8000多种,时间跨度从十世纪到二十世纪,几乎覆盖了中国历史上所有人口稠密的地区。这些地方志记载的主题不仅限于地理景观,还包括动植物、地方物产、祠庙、学校、职官、人物传记、地方文化及风俗习惯等等。除了为历史学家提供大量丰富的信息外,其一致的、且类似数据库的结构也使中国地方志尤其适合于进行数字人文研究。

因此,马普所的地方志工作组自2013年起开始对中国地方志进行研究,致力于将印刷资料转换成增强型学术数据库,以进行新型的数字历史分析。尽管此前已有很多关于地方志的研究,但地方志中蕴含的信息量之大,对学者来说既是一种独特的挑战,也是一种机遇。因此,我们充分发挥了数字人文学科的潜力,以实现这一文体在解决中国历史上大规模关键问题方面的作用。这项工作的核心则是开发一套名为“地方志研究工具集—Local Gazetteers Research Tools(LoGaRT)”的数字工具。

什么是地方志研究工具集(LoGaRT)?

LoGaRT是一款从数字化的中国地方志中搜索、分析和收集数据的软件。通过全文检索、地理可视化、文本标记和提取等分析功能,LoGaRT为学者们提供了研究地方志集合的整体概观,而不仅止于单独浏览和阅读。其背后的理念是将所有可用的数字化方志作为一个概念性的历史查询数据库,因而允许学者们提出更大规模的问题,这些问题可以不受地理空间、时间或单个方志的限制。基于这一理念及研究目的,LoGaRT提供了一组数字工具:(1)跨越空间和时间的地方志索引检索;(2)可视化的检索结果;(3)收集数据,并通过标记对文本和图像的含义进行编码。

FS71_LoGaRT_image1_online_CHN

LoGaRT的图像转盘,让学者们方便搜寻地方志里的图像。

开放访问的数字化

数字人文学科的进步(包括LoGaRT在内等工具)虽然改变了学者们的研究工作流程,但研究机会仍然取决于原始资料的可用性。与历史学家必须在获得许可之后才能从单个的档案馆获得资源一样,使用数字研究工具进行分析同样依赖于现有的、具有许可证的数字化资源。遗憾的是,市面上的数字化地方志大多出自于营利性出版商所出售的数据库,其价格十分昂贵。这种情况无疑阻碍了数字工具更广泛的使用以及更公平地获取数字化资源。因此,在开发LoGaRT技术的同时,我们采取了相应的策略,以扩展开放式数字化方志的可行性。

在马克斯-普朗克学会(Max Planck Society)与蒋经国国际学术交流基金会的资助下,我们与拥有大量珍稀地方志的哈佛燕京图书馆展开合作,在两年时间里精心挑选了400多部珍稀的地方志,并将其数字化,使之开放。这些高质量的藏书在极大的补充了马普所内部学者所能接触到的商业性藏书的同时,也促使我们能够将LoGaRT以及这些开放存取的方志一起向公众开放。

技术开发与历史研究之间的反馈回路

作为一种跨度超过九个世纪的长篇体裁,地方志成为对广泛主题进行历史研究的基础,让学者们重建中国过去的文学景观、多样的地方风俗以及产品和材料标准术语的发展等等。几个世纪以来,地方志不断的被复制、重新编辑和收集,它们以文字的形式演绎了一地的社会、政治以及物质的构成:该地区的景观、历史、动植物、税收、产品、祠庙、学校、职官、名人、当地的节日、习俗、天气记录和灾害都被记录在其中。随着LoGaRT技术能力的日趋成熟,马普所的地方志工作组还吸引了一批学者,这些学者的个人研究兴趣共同反映了地方志中所记录的各种主题,同时他们的研究需求也为LoGaRT的技术改进和革新提供了素材。

学者们主要通过三种方式使用LoGaRT进行研究。首先,许多学者利用全文搜索来确定关键术语,以作为某物品或现象在历史上存在或不存在的替代。例如,Jeffrey Snyder-Reinke考察了地方志中关于婴冢和寄子楼的描述,以此作为历史上中国传统社会对于婴儿死亡率态度转变的证据。其次,学者们利用LoGaRT的章节搜索功能,在多个地方志中分离出同一主题章节,这使得他们能够跨地理空间及时间提取有关特定主题的信息。在某些情况下,特定方志中某些主题部分的存在或缺失也表明了大规模的格局或历史变化。例如,Ian Matthew Miller的研究着眼于社会与环境变化之间的长期相互作用,他通过搜集方志中关于“木政”章节的信息,绘制了管理伐木业及其相关税收的行政结构的发展图。第三,学者们通过使用LoGaRT的提取界面,对多个地方志的文本进行了标记,以整理和汇编成独立的、具有“数字一致性”的数据集,以供重复使用和进一步研究。例如,戴思哲(Joseph Dennis),其研究重点是中国印刷文化、法律和社会史,他通过将地方志中与学校图书馆藏书相关的信息进行标记,从而绘制出相应的书籍和知识在各种教育单位之间流通的情况。

FS71_LoGaRT_image2_online_CHN

張衡. 浙江通志 :50卷, 卷首 : 1卷. [中国], 康熙23 [1684]. 哈佛燕京图书馆, https://nrs.harvard.edu/urn-3:FHCL:14265319.X.

研究人员使用LoGaRT进行合作

为了积极营造历史学家和数字工具开发者能够并肩工作和丰富彼此工作的环境,该工作组的一项关键策略还包括围绕特定主题举办密集的研讨会。例如,LoGaRT基于图像的功能是在一系列关于地方志的视觉材料的研讨会上,结合并响应学术界的反馈而开发的。此类技术和研究进展无疑证明了数字人文科学具有产生互利和创新研究成果的潜力。借由LoGaRT的进一步发展,我们致力于在科学、技术和医学史学科中推广这一实践,并向全球历史学家开放原始资源。

LoGaRT的意义并不仅仅停留于中国地方志中,其更是指出了数字人文如何从根本上和方法上改变历史研究。除此之外,LoGaRT的分析功能鼓励学者在仔细阅读原始资料-——无论是印刷品还是数字资料——的基础上,以更长远、更广阔的视角来关注特定的文体结构和历史背景。这种结合为数字人文科学创造了一种更具通用性的研究工作流程,尤其是将数字方法应用于个别文体。例如,我们现在正在将LoGaRT背后的数字研究方法和研究工具开发过程扩展到中国历史上另一种名为“日用类书”的结构化文本类型中。我们还将把从LoGaRT, 这一针对特定类型文本的离散工具的开发过程中获得的见解应用到更广泛的数字基础架构中,这将使学者们能够在他们选择的任何工具中重用或使用文本(如中国地方志)。通过逐步将特定的文本和工具组合脱钩,并促进文本和工具之间的互操作性,我们力图确保数字研究产品即使在其积极发展结束后,仍然能够在整个数字人文科学科领域中发挥作用。

 

FS71_LoGaRT_image3_online_CHN

地方志图像研究团队在2018年工作坊的合影。摄影:马普所第三部门