关联规则算法下电商商品推荐系统开发分析
关联规则算法下电商商品推荐系统开发分析
Abstract: The Internet era has brought convenience to people's consumption activities, but a
wide range of goods has also brought difficulties for users to choose. In the absence of clear demand,
how to recommend goods with potential business opportunities to consumers is an urgent problem for
e-commerce. In order to improve the accuracy of the recommendation, this paper designs an electronic
commerce recommendation system based on association rules algorithm, optimizes the algorithm of
FPGrowth. This paper proposes a more efficient mining algorithm of CTE-MARM, constructs library
association rules, by associating with the user interest commodity chains analysis. The algorithm has
strong correlation of goods in accordance with the user interest degree of discretion, provides TOP-N
recommendations. Through tests, it is verified that the actual percentage is higher, enhances the
analysis efficiency, also provides powerful data for merchants subsequent marketing decision support.
Keyword: data mining; association rules; CTE-MARM algorithm;
0 、引言
随着信息技术的发展,人们在享受科技带来便利的同时也受到了信息过载的困扰,对于电
子商务领域同样如此。如何帮助用户获得满意商品是电商企业获取利润和提升自身信誉的关
键,电子商务商品推荐系统应运而生,将数据挖掘技术应用于用户日常购物活动的场景之中,
利用关联挖掘算法分析历史数据来实现潜在商机预测,既为用户节约了寻找感兴趣商品的时
间,也为商家提升了销量及用户忠诚度。
1 、需求分析
1.1 、 功能需求
电子商务的商品推荐系统主要是根据收集的用户浏览行为以及历史消费记录分析其兴趣偏
好、挖掘预测潜在购买商机进行推荐。其中最关键的是个性化以及实时性。系统的主要功能体
现在以下几个方面。
(1) 数据采集:
提取相关记录及行为数据。
(2) 数据预处理:
剔除无用数据、确保数据完整。
(3) 用户兴趣分析:
构建用户兴趣模型,分析积累用户兴趣商品库。
(4) 关联规则库:
根据挖掘算法构建关联规则库。
(5) 商品推荐:
推荐用户感兴趣的商品。
1.2 、关键参数
(1) 置信度:
“ ”降低关联规则中 规则爆炸 情况,提升算法精准率。
(2) 时效度:
在实际场景中,人们的购物习惯是在不断变化的,距现在时间越近的相关浏览记录或购买
记录越能代表当前的需求偏重点。
(3) 兴趣度:
在电子商务领域可以反映用户兴趣的因素有很多,包括购买、浏览、收藏、评分、评论
等。兴趣度体现为将多种商务行为经过算法策略得出的兴趣程度的权值[1,2]。
2 、相关技术
2.1 、数据挖掘
数据挖掘是一门新兴的技术,是多学科综合形成的产物,指的是从海量不完整的、存在脏
数据的、比较模糊的数据集中抽取出未知的有潜在价值的、有意义的模式或规律的计算过程,
主要包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、数据评估及数据展示。
(1) 清洗与集成:
数据质量是保证挖掘出来的知识可靠性的基础,需要清除重复数据、不完整数据、脏数
据,并将多个数据源的数据集成到一起完成后续操作。
(2) 选择与转换:
选择将进行数据挖掘的目标,针对不同数据类型进行统一化处理,消减特征维数,降低不
必要的计算。
(3) 挖掘与评估:
运用相关的聚类、分类算法进行数据计算,从挖掘结果中根据一定的评估标准选出有意义
的知识。
2.2 、关联规则
关联反映的其实是事物之间的依赖关系,其中两个或多个属性之间的取值如果呈现规律,
则认为有关联关系,根据其中一项属性值即可预测其他属性值。在数据挖掘领域中基于关联规
则挖掘的研究是其中的重要研究方向。关联规则挖掘的基本概念如下。
(1) 数据项与数据项集:
设I={i1,i2,…im)是m个不同项的集合,则每个ik(k=1,2,…,m)代表数据项,I为数据项集。
(2) 事务:
事务T是数据项集的非空子集,每个事务与唯一标识符对应,记为 TID。多个事务构成事
务集 D。
(3) 支持度:
假设 X为数据项集,A为事务集 D中所有事务数量之和;B为D中包含X的数量之和,则
X的支持度为 support(X)=BA。
(4) 关联规则:
X?Y 用的形式表示,其中 X?I,Y?I 且X∩Y=?,表示如果X项集在某一事务中出现,则 Y也
会出现。
(5) 关联规则置信度:
置信度指的是包含X和Y的事务数与包含X的事务数的比值,置信度越高,关联规则的
可靠性越好。计算式为式(1)。
confidence(X?Y)=|{T:X Y?T,T D}|/?????????(1)|{T:X?T,T D}|∪ ∈ ∈
(6) 最小支持度和最小置信度:
最小支持度用来过滤出现频率低的项集,最小置信度用来剔除可靠性低的关联规则。
3 、关键算法
3.1 、FP_Growth 算法
FP_Growth 算法采用模式增长的方式来发现频繁项集,首先建立一棵频繁模式数 FP_tree,
存放事务集的所有频繁项集,然后将树中压缩后的事务集划分为一组条件事务集,每个事务集
关联一个频繁项,分别挖掘每个条件事务集。该算法可以明显压缩被搜索的事务集[3,4]。
3.2 、CTE-MARM 算法
由于FP_tree 频繁项集查找时存在节点多、递归调用次数多等问题,本文针对电子商务商
品推荐的个性化应用性问题,对 FP_Growth 算法做出优化与改进,提出一种基于FP_Growth 算
法的约束事务扩展多层关联规则挖掘算法 CTE-MARM(Constraint Transaction Extension―Multi-
level Association Rule Mining),以此提升挖掘效率、减少冗余规则。主要改进项如下。
(1) 对每条事务基于K层次约束扩充,将每个事务项的前 k-1 个祖先项添加到当前事务,之
后剔除重复项,既约束数量的扩展又可以保证发现关联规则。
(2) 创建FP_tree 时对每个节点添加两个域:ConditionMemory 用来存放结点前缀路径上的
结点、IsVisited 用来判断当前结点是否被遍历,避免多次回溯。
(3) 增加风险度阈值指标,确保事务约束扩展层次 k选值合理。
4 、用户兴趣模型
用户兴趣模型是电子商务商品推荐系统的核心,是确保推荐质量的关键模块。首先,构建
商品-用户行为特征矩阵。
摘要:
展开>>
收起<<
关联规则算法下电商商品推荐系统开发分析 Abstract: The Internet era has brought convenience to people's consumption activities, but a wide range of goods has also brought difficulties for users to choose. In the absence of clear demand, how to recommend goods with potential business opportunities to consumers is an urg...
相关推荐
-
真空泵三维建模设计及CAD图纸
2023-01-10 316 -
人性化垃圾桶建模及二维图-机械创新设计
2023-01-10 281 -
自动包装机(V带传动说明书+三维+CAD)
2023-05-19 297 -
芋头清洗机(说明书+CAD图纸)
2023-05-19 230 -
手推式电动花生播种机设计[CAD图纸+设计说明书]
2023-05-19 352 -
一种立式机床主轴工作台结构设计8张CAD图纸
2023-05-26 133 -
M7130型卧轴矩台平面磨床-CAD全套图纸
2023-10-03 197 -
机床主轴箱展开图-侧面剖视图-机械毕业设计资料
2023-10-10 80 -
航空管道矫直机送料系统设计-CAD大全-机械毕业设计资料
2023-10-12 162 -
分类垃圾箱CAD图+SW三维设计
2023-10-24 164
作者:闻远设计
分类:社科文学类资料
价格:免费
属性:8 页
大小:372.05KB
格式:DOCX
时间:2024-02-28

