首页 >> 社科评价 >> 文献计量
文献编目:从数字化到数据化
2020年03月16日 11:43 来源:《中国图书馆学报》(京)2019年第3期 作者:胡小菁 字号
关键词:文献编目/关联数据/数字化/数据化

内容摘要:

关键词:文献编目/关联数据/数字化/数据化

作者简介:

  内容提要:近十年来,文献编目领域从理论模型、标准规范到实践应用,均发生了自机读目录问世以来的最大变化。这个变化与关联数据技术的应用直接相关,可以概括为从数字化到数据化,也就是书目数据由机器可读走向机器可操作,进而融入互联网全球数据库。在此过程中,编目界经历了观念上的重要变更(从记录到数据),厘清了混淆的概念(实体及其名称与描述),重新对书目数据建模,并展开了一系列实践。其中,作为应用的重要组成部分,数据基础设施在数据化中发挥着重要作用。

  关 键 词:文献编目/关联数据/数字化/数据化

  作者简介:胡小菁,通信作者,ORCID:0000-0002-1703-9724,华东师范大学图书馆研究馆员,。上海 200062

  进入21世纪,以美国国会图书馆副馆长Marcum在2004年所做报告“编目的未来”[1]为重要标志,编目工作发生了自机读目录(MARC)问世以来最大的变化,笔者曾总结为四大发展趋势,即编目格式简单化、编目外包普遍化、数据来源多样化及联合目录本地化[2]。十年后回头再看,这四个方面仍反映国际编目工作的发展方向,联合目录本地化更是以基于云的图书馆自动化系统的方式产生着显著影响。但是,这个总结也存在一个根本性的不足:没有触及编目工作最底层的书目数据格式。编目的彻底变革必然涉及书目数据格式,这需要理论指导、标准支撑。而在当时,21世纪最重要的编目标准规范都还没有发布:或尚在研制中,如《资源描述与检索》(RDA);或还未酝酿,如《国际图联图书馆参考模型》(IFLA-LRM,简称LRM)和书目框架(BIBFRAME)。书目数据格式的变革,则以2002年Tennant “MARC必须死”一文为象征[3],而真正的标志则是2008年瑞典国家图书馆率先以关联数据发布其联合目录Libris[4]。随后前述编目领域的指导性文件和主要标准陆续问世,编目理念正经历着根本性变化,与之相应的编目工作必将随之而变。这种变化,可以概括为从数字化到数据化。

  数字化是广为大家熟知的概念,指将信息转为计算机可读的数字格式的过程[5]。图书馆界从1960年代就开始了图书馆目录的计算机可读过程,其成果机读目录(MARC)成为信息数字化的先行者,MARC格式用于书目信息及相关的规范信息等,至今已逾半个世纪。数据化即把信息变为数据,“指一种把现象转变为可制表分析的量化形式的过程”[6]。数据化实践有很长历史,但此概念直到2013年才由迈尔-舍恩伯格和库克耶在《大数据时代》一书中总结提出,所谓“可制表”指对信息进行结构化标识,让数据从不可能的地方提取出来。如《大数据时代》所述,“数据代表着对某件事物的描述,数据可以记录、分析和重组”[6]。机读目录作为结构化数据,既是数字化成果,也天然具有数据化属性,不仅记录书目、规范等信息,也可用以进行一定的量化分析。但因为受MARC格式限制,书目信息以“记录”形式作为一个整体存在,机读目录中的单个“数据”不具有重组能力,因而离真正的数据化还有不小的距离。

  为摆脱MARC格式的束缚,国际图书馆学界在新兴的互联网技术中选择了关联数据,力图使图书馆的书目数据由机器可读(machine-readable)走向机器可操作或可执行(machine-actionable),从而融入互联网全球数据库。关联数据2006年由Tim Berners-Lee提出,是一种在万维网(Web)上发布结构化数据的方法,以便通过语义查询将其相互链接并变得更有用,不仅为人类读者提供网页阅读,而且可由计算机通过自动读取方式共享信息[7]。关联数据是适合书目信息数据化的技术,其在书目信息或编目领域的应用,经历了转换现有书目数据、以关联数据形式发布的最初尝试,最终确定从底层书目数据制作开始改变。虽然前行过程中也曾伴随一些质疑甚至否定,但目前图书馆编目领域的关联数据应用经历了开发、试验,正面临实践推广的最后阶段,书目信息的数据化成为可见的发展方向。

  1 记录与数据

  一直以来,图书馆目录基本以条目为单位,一件在编文献(如一本或一套书)对应一个条目或书目著录(Bibliographic Description),在MARC格式中就是一条“记录”。MARC(2709格式)以记录为基本单位,记录是不可分割的整体,一条记录中保存书目数据内容的“数据区”,只在有“头标区”以及“目次区”配合使用的情况下才有意义。对于书目信息,数据化的要求,就是由“记录”细化到记录中包含的“数据”或书目数据,此处书目数据指“描述并提供对书目资源检索的数据元素”[8]。

  1.1 从记录到数据

  数据(或数据元素)原本存在于记录中。在编目领域,关注点从记录到数据的转变,发生在21世纪的前十年,在国际图联(IFLA)“功能需求”系列概念模型的发展过程中,可以清晰地看到这种变化。1997年发布系列第一种《书目记录的功能需求》(FRBR)后,IFLA在1999年和2005年先后准备编制《规范记录的功能需求与编号》(FRANAR)和《主题规范记录的功能需求》(FRSAR),从题名可知,3个模型的中心都是“记录”。但此后确定模型将“着重于数据本身,不注重如何打包数据”[9]为记录,最终2个报告在发布时题名分别改为《规范数据的功能需求》(FRAD)和《主题规范数据的功能需求》(FRSAD)。

  实际应用中,新ISSN门户采用基于BIBFRAME的应用配置文件,其发布的关联数据以“ISSN资源”为中心,而不是围绕“ISSN记录”[10],也是着重点从记录到数据的体现。国际性的合作编目项目(PCC)在《2018—2021年战略方向》中更直接地将应用关联数据后的状况称为“无记录环境”[11]。

  1.2 记录从完整到可选

  从关注记录到关注数据的这种变化,也体现在编目标准最近的更新上。一直以来,编目条例、著录规则都强调记录的完整性,著录详简级次也是评价书目数据质量的重要指标,如《中国文献编目规则》[12]和《英美编目条例(第2版)》(AACR2)都规定了由简到详的第一、二、三级著录,就是典型例证。FRBR的研发初衷之一,是在因经济压力需要降低编目成本的环境下,为合作编目提出基本或核心级记录标准[13],也就是“基本级国家书目记录”。2011年发布的《国际标准书目著录》(ISBD)统一版,依据FRBR的基本级国家书目记录,在“ISBD概要”部分标记了各著录单元的必备状态[14]。

  然而,2017年发布成为IFLA标准的《国际图联图书馆参考模型》(LRM),不再有与FRBR中“国家书目记录基本需求”对应的内容,并声称“尽管实体作品、内容表达、载体表现和单项之间的结构关系是模型的核心,但在实施中不需要模型中声明的这些属性和其他关系。假设特定应用中因不需要而省略某些属性或关系,生成的系统仍可被视为IFLA LRM的实现”[15]。

  最新编目规则RDA在2010年发布时仍延续传统,强调核心元素,也就是一条记录中的必备元素。然而,自2017年起历经一年多修订于2018年发布的测试版(被称为“新RDA”)中,RDA遵循LRM、放弃核心元素概念,也就是说在规则中所有元素都是可选的,这是“数据化”在编目规则中的首次体现。对新RDA来说,它只关心每一个数据,甚至数据形式也不强求统一,可以用不同方式表达,它规定了具有普适性的4种元素记录方法,被称为4路径(4-fold path),即记录非结构化描述、结构化描述、标识符和IRI(国际资源标识符)①。至于如何选择记录方法、如何集成数据形成一条“记录”,则由数据制作机构通过应用配置文件来决定。

  1.3 数据从混同到明确

  传统编目规则在关注记录的同时,也注重对数据元素给予充分揭示。但在具体应用中,有时会受制于元数据格式而不能得到明确标识。以公认数据元素最丰富的MARC格式为例,在编目规则中明确的某些数据元素,有可能会混在同一个子字段中不予区分,典型的如“其他形态细节”即MARC21的300$b子字段或UNIMARC的215$c子字段,包含图书的插图及其颜色,影音资料的色彩、播放速度、凹槽特征、有声无声、声道、放映格式,实物的材质等诸多不同特征的数据。

  数据化要求明确区分不同数据元素,给予不同标识,在元数据格式中必须予以体现。为此,RDA依据规则为上述特征注册了不同的元素,BIBFRAME词表也采用了不同的类和属性,比如实物不同部位所用材料分别为baseMaterial(基底材料)、appliedMaterial(应用材料)和mount(底座)等。

  上述从关注记录到关注数据的变化,都契合应用关联数据的背景。可以说,国际上编目相关的模型、规则和格式,伴随着近年图书馆相关领域关联数据应用的探索,在21世纪的第2个十年,已经为数据化升级做好了准备。

作者简介

姓名:胡小菁 工作单位:华东师范大学图书馆

转载请注明来源:中国社会科学网 (责编:赛音)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们