0 引言
数据可视化从计算机图形学发展而来,它是一个不断演变的概念,和信息图形、科学可
25 视化、信息可视化以及统计图形等概念密切相关[1]。一切借助于图形化手段,清晰有效地传
达与沟通信息的方法均可称为数据可视化[2]。
在图书馆馆藏领域,对馆藏资源的统计,传统的方式是采用表格的形式统计图书的种数、
册数,表格繁杂、冗长,不能详尽的表现馆藏的结构信息,对馆藏出版社,书商,学科分类
等信息的统计不够完善,更没有对馆藏利用率、覆盖率、读者兴趣、热门文献等内容的分析。
30 这不仅有碍于图书管理者的工作效率,更不能给借阅者提供人性化的图书推荐。本文通过对
图书馆藏数据库的分析,构建馆藏资源可视化展示的多维数据模型,借用多种可视化工具,
搭建馆藏资源可视化平台,实现丰富多彩的可视化效果,清晰展示图书馆藏结构,馆藏资源
的利用率,馆藏覆盖率;建立读者兴趣标签,分析图书文献的关联关系,为图书文献借阅提
供有力依据。
35 1 馆藏资源的多维数据模型
在图书馆藏领域,对馆藏资源的评估往往涉及馆藏数量和馆藏质量两个方面[3]。“满屋
子的书也许不过是一堆废物,而仅仅一架书却可以构成一个图书馆”[4],在馆藏资源数量和
质量的统一对立关系中包含了多维的统计数据模型:
1.1 馆藏结构的多维统计数据模型
40 对于馆藏资源的结构分析,涉及的统计维度如下表1,涉及的数据模型有图书种数、册
数、种数比例、册数比例、人均种数比例、人均册数比例。
表1 馆藏结构的多维数据模型
统计维度 统计数据模型意义
时间 按照时间分布的统计数据
出版社 按照出版社分布的统计数据
学科分类 按照学科分类的统计数据
书商 按照书商分布的统计数据
时间-出版社 按照时间和出版社两个维度的统计数据
时间-学科分类 按照时间和学科分类两个维度的统计数据
时间-书商 按时时间和书商两个维度的统计数据
注:其中,种数比例、册数比例、人均种数比例、人均册数比例的计算如下:种数(册数)比例是指某维
45 度某指定项的种数(册数)和某维度所有项总种数(册数)之比;人均种数(册数)比例是某校年入学人
数和某维度所有项总种数(册数)之比。
1.2 馆藏利用率的多维统计数据模型
关于馆藏资源的利用率,对应于每个统计维度有以下数据模型:
50 藏书流通率指借出总数和总种数之比,藏书利用率指借出册数和总册数之比,读者满足
率指读者预约册数和借阅总册数之比。
除此之外,还有藏书保障率、藏书拒借率等数据模型方面反映馆藏利用率情况。
1.3 馆藏覆盖率的多维统计数据模型
馆藏资源覆盖率的数据模型包括:新书率,对出版社的覆盖率,对优秀作者的覆盖率,
55 对学科的覆盖率;对同类院校的覆盖率等内容,模型如:
对出版社的覆盖率指馆藏某出版社的总量对某出版社出版书目总量之比。
对优秀作者的覆盖率指馆藏优秀作者书目总量和优秀作者出版书目总量之比。
对同类院校覆盖率指我馆某维度馆藏总量对同类院校对应维度馆藏总量之比。
1.4 读者兴趣与文献热度数据模型
60 对馆藏资源中读者借阅情况进行分析,可以得到读者的兴趣点,并进一步的挖掘出读者
潜在的兴趣图书,向目标读者进行推荐。
对馆藏资源中图书文献的被借阅次数进行分析,可以得到馆藏中热门的图书文献,并进
一步挖掘出文献之间的潜在关联关系,为图书推荐提供依据。
2 多维数据可视化
65 针对以上不同的多维数据模型,可以实现不同的可视化效果。在可视化研究领域多维可
视化技术多样,它包括基于几何的技术、面向像素的技术、基于图标的技术、基于层次的技
术、基于图形的技术以及基于降维映射的技术[6]。具体内容见下表2:
表2 多维可视化技术比较
技术分类 实现手段 说明
基于几何的技术 平行坐标法、放射坐标法等 以几何画法或几何映射的方式将
高维数据映射到低维空间,适用
于数据量不大但维度较多的数据
集
基于像素的技术 VisDB、图形分段技术 按照数据的维度将高维空间划分
为多个子窗口,每个窗口对应一
堆数据,使用于大型数据集
基于图标的技术 Chernoff 面法、星绘法 使用具有多个可视化特征的图标
表达多维信息,适用于维度不多
但维度含有特别含义的数据集
基于层次的技术 嵌套坐标系法 将多维空间划分为若干子空间,
对子空间以层次结构的方式组织
并以图形表示,适用各变元之间
具有层次关系的数据集
基于降维映射到技术 自组织映射法 将多维数据看作是同维空间的
点,将数据点映射到低维空间中,
保持数据点间关系不变,适用于
展现高维数据的整体分布和结构
75
针对不同的馆藏数据模型,选择不同的可视化方法,实现馆藏资源的可视化。
2.1 馆藏结构、覆盖率及利用率低可视化
馆藏资源结构、覆盖率及利用率部分,维度繁多,如时间维度、出版社维度、时间-学
科分类维度等,每种维度又对应多种数据模型的展示,综合比较多维可视化技术,对此部分
80 的可视化,可采用基于几何的技术中的平行坐标法。
设定X 轴为固定的维度,比如时间顺序,学科分类学科名称等,设定两个Y 轴,分别
代表数量和比例,具体内容的展示或使用柱状图,或使用曲线图,并实现较好的图例及鼠标
交互。如下图:
85 图 1. 馆藏结构可视化——时间维度
图 2. 馆藏结构可视化——时间,学科分类维度
从上图可以看出,此类可视化效果对馆藏资源的结构、覆盖率及利用率给出了清晰的说
90 明;不仅如此,交互的动作、颜色的搭配使得可视化达到了界面友好的效果。
2.2 读者兴趣可视化
对读者兴趣的可视化使用兴趣标签和兴趣搜索的形式呈现,如下图3.
图 3. 馆藏资源可视化——读者兴趣分析
95
上述可视化效果使用Processing 编程语言,实现读者兴趣标签的可视化,通过读者兴趣
强度控制字体的大小以及标签的位置,加载效果生动活泼。用户还可以通过输入学号,查看
系统为自己推荐的图书。
此外,系统还针对读者性别挖掘了其兴趣特点,分析了我校专业和馆藏特点。
2.3 热门图书及关联的可视化
对图书文献关联关系的可视化使用网状关系图和关联文献搜索的形式呈现,如下图4.
图 4. 馆藏资源可视化——图书文献关联关系
105 网状关系图的可视化效果表现了图书文献之间的关联关系,从中可以得知图书文献之间
潜在的关联,比如不同学科之间通过某种图书文献存在有关联关系。另外,该可视化效果还
有鼠标拖拽,点击释放,颜色变化等效果。
3 结论
数据可视化作为一个新兴的研究领域,通过将各种复杂数据转换成为直观地图形图像,
110 帮助使用者了解数据,发现数据的潜在信息。它同时也是一门与应用领域紧密结合的学科,
在可预见的将来,可视化将会越来越广泛被各个领域熟悉、了解和使用[5]。
本馆藏资源可视化平台通过对图书馆藏资源各多维数据模型的分析,结合具体数据模型
使用不同的多维数据可视化技术,使得馆藏资源清晰可见,潜在馆藏信息得到挖掘,对图书
馆藏管理者和图书借阅者均有指导意义。
115
[参考文献] (References)
[1] Pak Chung Wong, Han-Wei Shen, Christopher R Johnson, Chaomei Chen, Robert B Ross. The Top 10
Chanllenges in Extreme-Scale Analytic[R]. IEEE CG&A, 2012
[2] Thonas Ertl. Futher Trends in Visualization. University of Stuttgart[R], 2012.
120 [3] Frits H.Post, Gregory M.Nielson, Georges-Pierre Bonneau. Data Visualization:The State of the Art Research
paper TU delft[R], 2012
[4] 赵元章. 谈谈图书馆藏书的质量评价问题[J]. 情报杂志,2005,24(2):20-22.
[5] D.Hand.H Mannila, P.Smyth. Principles of Data Mining[M]. MIT Press,Cambridge, MA.
学术论文网Tag: |