澳门太阳城注册

您所在位置网站澳门太阳城注册 > 海量文档  > 计算机 > 数据结构与算法

基于文献聚类的数据挖掘模型设计与实现.doc 38页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 百度一下本文档

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
基于文献聚类的数据挖掘模型设计与实现 参赛队员: 指导老师: (南京人口管理干部学院 江苏 ) 摘要:聚类分析是统计学中的一项重要技术。通过聚类可以发现隐藏在海量数据背后知识。本文首先建立空间向量模型,改进了传统相似度的计算模型,提出了一种基于摘要词对关键词加权贡献的相似度模型,使得文献的空间向量更加精确。数据来源于05年CSSCI文献数据库图书情报学的3千多条文献数据,并通过中知网查询相关文献的摘要。通过数据清洗、去噪声、降维、规格化处理、样本抽样等一系列步骤,得到最终用于聚类的681篇文献和108个学科特征原子词。利用Matlab软件编程实现了FCM算法的文献聚类。将聚类的结果通过基于学科原子特征词的学科交叉表来表示,统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对结果进行了检验,检验结果表明该统计模型是科学的、有意义的。 关键词:聚类; 交叉学科; 关键词; 摘要; 相似度; FCM 一、引言 1.研究背景 聚类分析(Clustering Analysis)是统计、模式识别和数据挖掘等领域中一个非常重要的技术,文献聚类就是依据文献之间的相似度按照一定的算法准则,挖掘隐藏在海量文献数据背后的有用知识:如学科交叉、研究热点和新的研究方向。科学研究需要创新。科学技术的发展为每个学科的发展带来新的机遇的同时,也带来更为严峻的挑战。目前,文、理、工、管等学科之间相互渗透、交叉、融合已经成为一种潮流和趋势,其深度和广度正在进一步深化。众所周知,近代科学发展特别是科学上的重大发现和国计民生中的重大社会问题的解决,常常涉及不同学科的相互交充满和相互渗透。学科交叉逐渐形成一批交叉学科,如化学与物理学的交叉形成了物理化学和化学物理学,化学与生物学的交叉形成了生物化学和化学生物学,物理学与生物学交叉形成了生物物理学等。这些交叉学科的不断发展大大地推动了科学进步,因此学科交叉研究(interdisciplinary research)体现了科学向综合性发展的趋势。科学上的新理论、新发明的产生,新的工程技术的出现,经常是在学科的边缘或交叉点上,重视交叉学科将使科学本身向着更深层次和更高水平发展,这是符合自然界存在的客观规律的。由于现有的学科是人为划分的,而科学问题是客观存在的,根据人们的认识水平,过去只有天文学、地理(地质)、生物、数学、物理、化学六个一级学科;而经过20世纪科学的发展和交叉研究,又逐渐形成了新的交叉学科,如生命科学、材料科学、环境科学等。因此研究学科交叉可以反映学科的研究的热点和发展趋势。本次统计建模正是基于以上的研究背景,通过文献聚类来研究学科交叉,其意义在于:(1)通过对文献数据的聚类分析,挖掘学科交叉点,使研究者了解本学科目前的研究现状,如学科发展前沿与热点问题等,以提高研究者的创新意识和创新动力,为科学研究提供决策支持;(2)为管理者和研究机构提供决策支持,如交叉学科的政策支持、研究经费投入、人才培养方向等;(3)通过学科交叉的比较,使学科本身获得动力,提升学科竞争力,使学科能更好地适应社会和经济的发展,更好地服务社会。 2.国内外研究现状 不同的数据库,对其文献进行分类有不同的方法,没有一种方法能对所有数据库的文献分类都具有高效率、高精确率。对于科学文献的分类,目前主要采用的方法有[1]: (1)引文分析法:引文分析是指通过对文献中所附的参考引文进行计量统计分析,从而揭示科学技术发展的历史及现状。其目的是寻找文献之间的联系来研究文献内在联系和科学结构的一种方法。 (2)关键词分析法:关键词分析就是通过对反映文献主题内容的词进行关联性或相异性定量分析,研究文献内在联系和科学结构的一种方法。 (3)聚类分析法:聚类分析是指根据分析对象彼此之间的相关程度把文献分成类群,使群内尽量相似,群间尽量相异,然后进行分析研究的过程。 (4)因素分析法:因素分析的概念是英美心理统计学者们最早提出的,因素分析法是从试验所得的m×n个数据文献中概括和提取出较少量的关键因素,它们能反映和解释所得的大量观测事实,从而建立起最简洁、最基本的概念系统,揭示出事物间最本质的联系。 (5)关键词分析与共引聚类分析相结合研究法。目前国内研究的主要热点集中在第一方面,而国外在该领域的最新研究是通过关键词分析和共引聚类分析相结合,以揭示文献的主题结构。 3.文本挖掘中的分词技术 中文文本挖掘技术成败的关键在于文本中词汇切分的成功与否。由于汉语语言的特殊性和复杂性,使中文词汇的切分成为一个很伤脑筋的问题。而如果不进行分词,中文信息处理的其它很多研究就无法进行。 分词技术中基于词库的算法目前使用较广,也较为成熟,如正向、逆向最大匹配法、逐词遍历法。这类算法分

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556