一、术语和定义

1、 图片元数据

CNKI学术图片知识库所包含用来表述图片信息的15个数据项,包括图片中文标题、图片英文标题、图片说明、图片关键词、图词、一级分类、二级分类、图片尺寸、图片大小、图片清晰度。

2、 抽取字段

对于所有图片元数据项中,由程序从原文献中抽取出来的信息为抽取字段,例如图片标题等。

3、 标引字段

对于所有图片元数据项中,由程序或人工标引,用于进一步描述图片信息的字段,例如图片关键词等。

4、 抽取错误率

某抽取字段,数据项抽取错误的数据项数量与该数据项总数量的比率。

抽取项错误率=(抽取错误的数据项数量/数据项数量)×100%

抽取错误包括文字、范围、数据计算、完整性等方面的错误,只要与原文不相符合的信息即视为抽取错误。数据项内容为单值的,计为一项;数据项内容为多值的,则按值的数量计算项数,例如,一张图片有4张同文图片,则计为4 项。

5、 抽取信息有效率

某抽取字段,信息有效的数据项与该数据项总数量的比率。

抽取信息有效率=(抽取信息有效的数据项数量/数据项数量)×100%

有些抽取出来的数据项,虽然抽取正确,但是未能很好地反映图片内容,或图片内容本身质量不好,对于用户来说价值不大,可以定义为该数据项信息有效性较低,对这种数据项进行统计,可计算该数据项的信息有效率。

6、 标引正确率

某标引字段,数据项标引正确的数据项数量和数据项数量的比率。

标引错误率=(标引错误的数据项数量/数据项数量)×100%

标引数据项项基本反映图片主题,无原则性错误,则计为标引正确。数据项内容为单值的,计为一项;数据项内容为多值的,则按值的数量计算项数,例如,一张图片有4 个关键词,则计为4 项。

7、 标引一致度

某标引字段,数据项标引一致的数据项数量与数据项数量的比率。

标引一致度=(元数据标引一致的数据项数量/数据项数量)×100%

标引一致度反映同类别图片标引一致的程度。同类别的图片,被标引的关键词、类别等数据项应保持一致。

二、数据项及其定义

1、《CNKI学术图片知识库》共包含三类数据字段:

1) 图片基本信息字段

图片ID、图片中文标题、图片英文标题、图片说明、图片关键词、图词、一级分类、二级分类、图片页码、图片地址、图片尺寸、图片大小、图片清晰度;

2) 图片关系信息字段

同文图片ID、语义相关图片ID、读者推荐图片ID;

3) 文献信息关联字段

篇名、作者、中文刊名、拼音刊名、年、期、文件名、页、页数、出版日期、来源数据库表名、机构、中文关键词、中文摘要、英文篇名、英文作者、英文摘要、英文关键词、专题代码、子栏目代码、专题名称、专题子栏目代码、 下载频次、被引频次、文献标识码、期刊标识码、来源标识码、作者代码、机构代码;

2、图片基本信息字段和图片关系信息字段又可按数据来源划分为抽取字段和标引字段:

1) 抽取字段

图片中文标题、图片英文标题、图片说明、图片尺寸、图片大小、图片页码、同文图片ID、参考文献图片ID、引证文献图片ID

2) 标引字段

图片ID、一级分类、二级分类、图词、图片地址、语义相关图片ID、图片关键词、图片清晰度

3、各字段定义如下表所示:

CNKI类别 元素名称 字段名称 标签 定义
图片基本信息 图片ID 图片ID ID 人工标引的图片地址。
标题 图片中文标题 图片中文标题 图片特征的中文描述。
图片英文标题 图片英文标题 图片特征的英文描述。
图片说明 图片说明 图片说明 对图片内容的说明性描述。
图片关键词 图片关键词 图片关键词 描述图片内容的一个或多个规范词。
图词 图词 图词 描述图片视觉基本特征的关键词。
分类 一级分类 一级分类 将图片按特征分为若干类, 描述图片最基本特征的类别,即为一级分类。例如:曲线图中的曲线就是图片的最基本特征。
二级分类 二级分类 一级分类的子类别。例如:心电图即为曲线图的二级分类。
图片尺寸 图片尺寸 图片尺寸 图片的横宽像素描述。
图片大小 图片大小 图片大小 图片所占的面积大小。
图片清晰度 图片清晰度 图片清晰度 图片清晰度等级。
图片页码 图片页码 图片页码 图片在文献中所处的位置。
图片地址 图片地址 图片地址 图片的物理存储地址。
图片关系信息 同文图片 同文图片 同文图片ID 在同一篇文献中其他图片的人工标引地址。
语义相关图片 语义相关图片 语义相关图片ID 与图片关键词相关的图片的人工标引地址。
读者推荐图片 读者推荐图片 读者推荐图片ID 由读者推荐的认为和该图片有关联的其他文献或期刊中的图片的人工标引地址。

三、各数据项规则及其质量要求

1、抽取数据项

1) 抽取和筛选要求

图片抽取数据项要求抽取信息正确,符合原文,并能通过筛选,提高数据项包含信息的有效率,满足用户检索需求,给用户带来最大价值。

2) 质量指标

抽取数据项的质量指标包括两种类型:抽取错误率,抽取信息有效率。

3) 质量指标要求

各项数据的质量指标及指标值见下表:

数据名称 质量指标 指标描述 指标值
图片标题 抽取错误率 反映图片标题抽取错误的程度(包括文字错误、抽取不完整、抽取过多) ≤0.5%
抽取信息有效率 反映图片标题有效描述图片内容的程度(要求图片标题能见名知义) ≥95%
图片说明 抽取错误率 反映图片说明抽取错误的程度(包括文字错误和抽取范围上的错误) ≤0.5%
取信息有效率 反映图片说明有效反映图片内容的程度(要求通过阅读说明,用户能基本获取需要的信息) ≥95%
图片页码 抽取错误率 反映图片页码抽取错误的程度 ≤0.1%
同文图片 抽取错误率 反映同文图片抽取错误的程度 ≤0.1%
参考文献图片 抽取错误率 反映参考文献图片抽取错误的程度 ≤0.1%

2、标引数据项

1) 标引要求

图片标引数据项要求标引信息能基本反映和表达图片内容信息,满足用户检索需求,给用户带来最大价值。

2) 质量指标

标引数据项的质量指标一般用标引正确率和标引一致率来反映。

3) 质量指标要求

各项数据的质量指标及指标值见下表:

数据名称 质量指标 指标描述 指标值
ID 标引正确率 图片ID是人工标引的图片的唯一标识,要求全部标引正确。 =100%
图片关键词 标引正确率 图片关键词是用户检索的主要查询字段,要求关键词能表达图片的主要内容。 ≥95%
标引一致度 反映同主题或同类别的图片,其关键词标引保持一致的程度。 ≥90%
图词 标引正确率 反映图词正确描述图片视觉特征的程度。 ≥95%
一级分类 标引正确率 反映对图片正确分类的程度。 ≥95%
标引一致度 反映同类别的图片,其分类标引保持一致的程度。 ≥90%
二级分类 标引正确率 同上。 ≥95%
标引一致度 同上。 ≥90%
图片地址 标引正确率 图片地址是图片物理存储的路径,要求绝大部分标引正确,不影响用户获取图片。 ≥99%
语义相关图片 标引正确率 反映语义相关图片标引的正确程度。 ≥95%
标引一致度 反映语义相关图片互相标引一致的程度。 ≥90%

3、图片内容数据项

图片本身内容的质量是影响本产品所提供的服务质量最为重要的因素,因此对其单独讨论质量标准。

图片内容各数据项的质量指标和指标要求如下表所示:

项目 质量指标 指标描述 指标值
图片内容(图片所包含的信息) 图片抽取错误率 抽取不完整、或抽取范围太大的图片所占比例。 ≤0.5%
图片内容清晰率 内容信息对于用户来说清晰可见的图片所占比例。 ≥95%
图片内容有效率 抽取正确的图片中,内容信息有效的图片所占比例。 ≥95%
图片尺寸 抽取错误率 反映图片尺寸计算错误的程度。 ≤0.1%
抽取信息有效率 图片尺寸能满足用户需求的图片所占比例(主要是针对太小的图片,可能影响图片的清晰度) ≥95%
图片大小 抽取错误率 放映图片大小计算错误的程度。 ≤0.1%
抽取信息有效率 图片大小能满足用户需求的图片所占比例(主要是针对太小的图片,可能影响图片的清晰度) ≥95%
图片清晰度 标引错误率 反映图片清晰度标引错误的程度。 ≤0.5%

注:文献信息关联字段是由文献数据库导入,其数据质量标准请参见《《中国学术期刊网络出版总库》系列标准主要质量指标及系统功能汇编》,本文仅讨论图片基本信息字段和关联推荐图片字段的质量标准。

京 ICP 证 040431 号  网络出版服务许可证 (总)网出证(京)字第 271 号 经营性网站备案信息
京公网安备 11010802020460 号
《中国学术期刊(光盘版)》电子杂志社有限公司
KDN 平台基础技术由 KBASE 11.0 提供. © 1998-2017 中国知网(CNKI)
可信网站 诚信网站