中文网页自动分类技术模型设计
中文网页自动分类技术模型设计
1. 引言
本论文从网页分类方面对万维网上的数据处理技术进行了研究。对中文网页自动分类技术这一
具有重要理论意义和广阔应用前景的课题进行了研究和探索。研究内容主要包括:设计了一种
中文网页自动分类技术模型,应用该模型设计的中文网页分类器能够满足处理大规模中文网页
的要求。
2. 技术模型架构
为了能够有效地组织和分析海量的 Web 信息资源,帮助用户迅速地获取其所需要的知识和信
息,人们希望能够按照其内容实现对网页的自动分类。
每一个网页分类系统都是建立在一定的文档分类方法基础之上。准确、高效的文档属性选择和
文档分类方法通常会不断出现,因此,一个文档分类系统应该具备功能和性能上的可扩展性,
这就要求文档分类系统建立在模块化、可扩展的体系结构基础之上。图 1所示为我们设计的中
文Web 网页自动分类技术的体系结构。【图 1】
3. 数据库部件和功能模块组成
整个技术的主要功能由下列数据库部件和功能模块组成:
(1)分类模型库基于机器学习的分类通常由训练和分类两个阶段组成,在训练阶段,从训练
文本学习分类知识,建立分类器;在分类阶段,根据分类器将输入文本分到最可能的类别中。
根据训练样本集中的文本数据和具体的属性选择方法与分类方法,计算得到的分类模型数据,
都存于该库中。将属性选择方法和分类方法的任何一种组合都作为一个分类模型。
(2)未标记网页库保存大量的未标记网页数据。当训练集中的样本数量较少时,可以通过未
标记网页的利用方法从该库中选取一定的未标记网页加入到小规模的训练集中,从而弥补训练
样本的不足,减少人工标记大量网页的需要。
标签: #设计
摘要:
展开>>
收起<<
中文网页自动分类技术模型设计1.引言本论文从网页分类方面对万维网上的数据处理技术进行了研究。对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索。研究内容主要包括:设计了一种中文网页自动分类技术模型,应用该模型设计的中文网页分类器能够满足处理大规模中文网页的要求。2.技术模型架构为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取其所需要的知识和信息,人们希望能够按照其内容实现对网页的自动分类。每一个网页分类系统都是建立在一定的文档分类方法基础之上。准确、高效的文档属性选择和文档分类方法通常会不断出现,因此,一个文档分类系统应该具备功能和性能上的可扩展性,...
相关推荐
-
CA6140车床滤油器体工艺及夹具设计(CAD图纸+说明书)
2022-10-10 429 -
齿轮轴的加工工艺与工装夹具的设计(滚齿及铣键槽夹具设计+PROE三维+说明书)
2022-10-13 374 -
阀盖零件的机械加工工艺规程及4-Φ14H8工艺装备设计(机械毕业设计+说明书+CAD)
2022-11-02 174 -
钻孔组合机床设计(机械毕业设计+说明书+全套CAD)
2022-11-10 315 -
Z3032摇臂钻床壳体工艺路线拟定及夹具设计(机械毕业设计+说明书+全套CAD)
2022-12-15 240 -
主轴箱加工工艺及专用夹具设计(机械毕业设计+说明书+全套CAD)
2023-02-03 323 -
转速器盘零件机械加工工艺规程及机床夹具设计(机械毕业设计+说明书+全套CAD)
2023-02-03 324 -
机床主轴箱齿轮加工工艺及夹具设计机械毕业设计
2023-02-06 393 -
+工艺-“填料箱盖”零件的工艺规程及钻孔夹具设计
2023-07-19 161 -
CA6140车床后托架加工工艺及夹具设计
2023-07-19 184
作者:闻远设计
分类:其它行业资料
价格:免费
属性:3 页
大小:50.85KB
格式:DOCX
时间:2024-03-09

