基于文本分类应用的贝叶斯算法的优化

3.0 闻远设计 2024-03-17 86 4 13.45KB 2 页 免费
侵权投诉
基于文本分类应用的贝叶斯算法的优化
1 研究背景
伴随着信息技术的飞速发展, 在人类的生活中, 通信、网络和计算机相关技术可以说是已经
无处不在, 大量的 信息 通过电子文本形式存储, 而且数量急剧增长;新闻、用户评论、电
子邮件等等, 这些都是以电子文本的形式存储在网络, 但是面对如此庞大的信息量, 通常人
们需要的仅仅只是其中的一小部分, 那么如何从海量的电子文本中挖掘出自己感兴趣或者说是
有价值的信息, 这是我们所面临的严重挑战。文本玩家技术就是为处理这类问题而诞生的一种
重要的信息处理技术, 文本挖掘技术是从文本中识别有效信息的一个过程。而文本挖掘又包
含:文本分类, 文本挖掘, 文本聚类分析等多个方向。而文本挖掘是指从海量的电子文本数
据中分离抽取出事先不知, 可理解, 而最终可用的知识的过程, 而运用这些知识可以更好的
组织信息帮助人们进行预测或判断以及计划调整与优化。
2 研究现状
文本挖掘在国外的研究开展较早, 50 年代, H.P.Luhn 在文本挖掘领域进行了开创性的研究,
他提出了词频统计以及自动分类。众多学者在这一领域进行了研究工作。而研究的范围主要有
文本挖掘模型、文本特征提取、文本挖掘算法、文本挖掘工具等。
我国引入文本挖掘概念并开展中文的文本挖掘只是从最近几年才开始的。目前我国文本挖掘研
究还处于对国外相关理论和技术的实验和论证阶段, 文本挖掘理论实际应用和适合中文的文本
挖掘技术及算法研究都处于初步阶段。目前还没有形成完整的或成体系的适合针对中文信息处
理的文本挖掘理论与技术框架。
3 文本挖掘
文本挖掘包含三个过程:文本预处理、特征信息提取以及数据挖掘。
1 ) 文本预处理。文本信息资源最初是各种不同来源的原始数据类型, 而需要对原始数据进
行过滤和鉴别。根据数据来源的不同几数据类型的特征, 可以分为:结构化信息数据和非结构
化信息数据。数据过滤需要对不同类型的数据提供不同的文本过滤方案。结构化信息需要通过
预处理, 将不同形式的文本资源转换成新的相同 (或相似) 的形式;而对于非结构化稳定,
则需要通过文本预处理将非结构化信息文本转化为可以通过算法分析的形式, 转化为能够进行
特征信息提取的文本式。
2 ) 特征信息提取。特征信息提取是将非结构化数据转换成能够在数据中存储的结构化数
据, 作为一步文本挖掘处理的数据入。特征提取主要是识别出文本中有特点业务价值特征
的词。天气的特征词多数是信息文本中表示的概念, 而这些概念包含了重要的业务信息,
此在信息提取前就需要根据实际的业务识别出那些信息是需要提取以及对于的提取策略
3 ) 数据挖掘。通过预处理几信息提取, 就可以对文本进行挖掘分析了, 而常用的挖掘分
析技术有:文本结构分析、文本分类、文本聚类以及文本关分析、趋势预测等等。
4 基于文本分类应用的贝叶斯算法的优化
1 ) 文本分类。文本分类是用计算机技术对文本信息按照特定的业务分类体系或标准进行
自动分类标记于一种分类体系的自动分类, 是朴素贝叶斯分类方法。
2 贝叶斯算法优化应用。贝叶斯算法主要关稳定类别归属的概。文本的类别归属
=个分类词于对于类别的概表达式。我们可以用这个词在对应分类文本中出
数来粗略统计, 这就体了词频统计的计算成为可行。
朴素贝叶斯算法式有多。先要计算分类本中个统计原始的先验概然后需要计算
个文本对于个分类的概, 而其中概值最的分类才会被作为有效分类被收纳
摘要:

基于文本分类应用的贝叶斯算法的优化1研究背景伴随着信息技术的飞速发展,在人类的生活中,通信、网络和计算机相关技术可以说是已经“”无处不在,大量的信息通过电子文本形式存储,而且数量急剧增长;新闻、用户评论、电子邮件等等,这些都是以电子文本的形式存储在网络,但是面对如此庞大的信息量,通常人们需要的仅仅只是其中的一小部分,那么如何从海量的电子文本中挖掘出自己感兴趣或者说是有价值的信息,这是我们所面临的严重挑战。文本玩家技术就是为处理这类问题而诞生的一种重要的信息处理技术,文本挖掘技术是从文本中识别有效信息的一个过程。而文本挖掘又包含:文本分类,文本挖掘,文本聚类分析等多个方向。而文本挖掘是指从海量的...

展开>> 收起<<
基于文本分类应用的贝叶斯算法的优化.docx

共2页,预览1页

还剩页未读, 继续阅读

相关推荐

作者:闻远设计 分类:其它行业资料 价格:免费 属性:2 页 大小:13.45KB 格式:DOCX 时间:2024-03-17

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 2
客服
关注