一、产品简介
图片知识元数据库是国家知识资源总库的一部分,图形图像作为重要的知识载体,随着印刷技术和数字出版技术的发展,计算机图文一体化排版技术的出现,数据大量增加,所占人类知识储存载体的比例大幅提高,发展趋势前所未有。互联网技术和图像处理技术的发展,使图片实现了无障碍传输,可以更好的从内容上整合这些数据,使得散落在各处的图像数据有机的关联在一起,线性阅读转化为非线性阅读。
图片具有信息量大学习效率高、展现空间关系、降低了文化传播的门槛、增强学习中形象思维的作用、简洁直观、信息完整度高无具体事物到文字的信息丢失现象、是重要的研究成果载体、新的研究方法研究手段、逻辑关系的形象化解读、抽象概念的具体化表述等特点。
CNKI学术图片知识库是我国第一个学术类图片的知识库产品,采用同方知网自主研发的智能挖掘技术,从各类学术文献中提取出千万量级的图形、图像等内容,加以规范化编辑整理,提供相似图表的检索、对比和分析功能等知识发现功能,将大大提高学术文献知识传播和应用效果。该产品根据图片语义和视觉信息,使用户可以准确方便的检索到所需要的图像素材,进而快速获取到相关的知识与信息,其结果按照科学合理的方式进行分类和组织并提供丰富图片的知网节信息,进而实现“同类图片比较,相关图片参考”等帮助用户提高学习和研究效率的功能。
二、数据收录情况
CNKI学术图片知识库所有图片资源均来源于CNKI中国文献资源总库,主要包括中国学术期刊网络出版总库、中国优秀硕士学位论文全文数据库、中国博士学位论文全文数据库、中国重要会议论文全文数据库、中国工具书网络出版总库、中国专利全文数据库。图片知识库是通过对上述资源的分析,挑选其中最有价值的学术类图片整合而成的知识库,现有图片2600万余张,预计2013之后每年新增图片150万余张。
其中图片收录的分布情况如下。
1、《中国学术期刊网络出版总库》(2012.3.15日前上线)
《中国学术期刊网络出版总库》是世界上最大的连续动态更新的中国学术期刊。截止至2011年12月,收录全文文献总量3398 万余篇;其中超过63%的文献中有规范的图片,平均每篇文献有图片4张左右。
2、《中国优秀硕士学位论文全文数据库》(2012年8月中旬上线)
《中国优秀硕士学位论文全文数据库》是国内内容最全、质量最高、出版周期最短、数据最规范、最实用的硕士学位论文全文数据库。截止至2011年12月,收录优秀硕士学位论文134万余篇,其中超过80%的优秀硕士论文中有图片,平均每篇论文中有图片40张左右。
3、《中国博士学位论文全文数据库》(2012年8月中旬上线)
《中国博士学位论文全文数据库》是国内内容最全、质量最高、出版周期最短、数据最规范、最实用的博士学位论文全文数据库。截止至2011年12月,收录博士学位论文17万余篇,其中超过80%的博士论文中有图片,平均每篇论文中有图片50张左右。
4、《中国重要会议论文全文数据库》(2012.3.15日前上线)
《中国重要会议论文全文数据库》是由国内外会议主办单位或论文汇编单位书面授权并推荐出版的重要会议论文。截止至2011年12月,已收录文献总量 165万余篇,其中超过63%的重要会议论文中有图片,平均每篇有图片4张左右。
5、《中国工具书网络出版总库》(2012年8月中旬上线)
《中国工具书网络出版总库》简称《知网工具书库》,集成了近200家知名出版社的近4000余部工具书, 其中医学图谱226部,图录图鉴355部。
6、《中国专利全文数据库》(2012年8月中旬上线)
《中国专利全文数据库》包含国内各类的专利信息,准确地反映中国最新的专利发明,其中超过63%的专利中有图片,平均每个专利的文献中有8张左右图片。
四、内容分类标准与类别定义
1、 分类原则
整合国家各类制图规范和标准,以及规范的出版物中对图片类型的定义与描述,制定出一套图片内容分类体系是本产品做为知识库产品的独有特点之一。
2、 编辑原则
1) 以CNKI中国知识资源总库文献中提取的图片为分类元数据;
2) 保证图片样例样图的清晰,内容完整,知识点表达明确;
3) 根据提取的图片图词与图片特征相结合的方式进行图片分类;以图片特征与关键词信息作为提取分类的图片载体;
4) 将图片和关键词信息按照特征分类、科学定义、关键词提取、样例样图查找的顺序进行分类;
5) 图词关键词的甄选过程保证图片关键词及其定义的规范性、权威性、科学性;
6) 图片特征与图词标题含义表达一致;图片特征的专业划分接近其图词所属学科;
7) 图片图词类别应尽量接近其所在基础学科;图词标引应与中国图书馆图书分类法相一致;
8) 此分类标准适用于CNKI学术图片知识库为用户提供的图片检索和相似性图片检索的服务。
《CNKI学术图片知识库》对于图片内容的分类说明详见《CNKI学术图片知识库图片内容分类说明》。