-
1.决策树分类器提供了一组属性,这些属性通过根据属性集做出一系列决策来对数据进行分类。 这个过程类似于通过植物的特征来识别植物。
这样的分类器可以用来确定某人的信誉,例如,决策树可能会得出结论,“一个人有一个家庭,拥有一辆价值在 10,000 美元到 10,000 美元之间的汽车,并且有两个孩子”具有良好的信用。 决策树生成器从“训练集”生成决策树。 SGI 的数据挖掘工具 Mineset 提供了一个可视化工具,它使用树形图来显示决策树分类器的结构,其中每个决策都由树中的一个节点表示。
图形表示可以帮助用户了解分类算法,并提供对数据的宝贵见解。 生成的分类器可用于对数据进行分类。 2.
选择树分类器 选择树分类器使用与决策树分类器类似的技术对数据进行分类。 与决策树不同,选择树包含特殊的选择节点,这些节点具有多个分支。 例如,选择树中用于区分汽车原产地的选择节点可以选择马力、气缸数或车辆重量作为信息属性。
在决策树中,节点一次最多可以选择一个属性进行考虑。 在选择树中进行分类时,可以考虑各种情况。 选择树通常比决策树更准确,但它们也要大得多。
选择树生成器使用与决策树生成器相同的算法从训练集生成决策树。 Mineset 的可视化工具使用选择树图来显示选择树。 树形图可以帮助用户了解分类器,并发现哪个属性在确定标签属性的值时更重要。
这同样可用于对数据进行分类。 3.证据分类器 证据分类器通过检查特定结果基于给定属性发生的可能性来对数据进行分类。
例如,它可能会得出结论,拥有价值 10,000 美元到 10,000 美元之间的汽车的人有 70% 的信用良好,30% 的信用非常差。 分类器使用最大概率值根据简单的概率模型对数据进行分类**。 与决策树分类器类似,生成器从训练集生成证据分类器。
Mineset 的可视化工具使用证据图来显示分类器,该分类器由一系列描述不同概率值的饼图组成。 证据图可以帮助用户理解分类算法,提供对数据的深入见解,并帮助用户感觉像“假设”。 如何?
这同样可用于对数据进行分类。
-
基于规则的分类器包括决策树、随机森林和先验。
决策树是一种决策分析方法,利用概率分析直观地利用概率分析,根据已知的各种情况发生的概率形成决策树,得到净现值期望值大于等于零的概率,评估项目风险,判断其可行性。
在机器学习中,随机森林是包含多个决策树的分类器,它输出的类由单个树输出的类模式决定。
关联规则挖掘领域最经典的算法是 Apriori,它的致命缺点是需要对事务数据库进行多次扫描。
-
分类器的构建和实现一般经过以下几个步骤:选择样本(包括正负样本),并将所有样本分为训练样本和测试样本两部分。 在训练样本上执行分类器算法以生成分类模型。
在测试样本上执行分类模型以生成 ** 结果。 根据结果,计算出必要的评价指标,以评价分类模型的性能。
-
分类是数据挖掘的一种非常重要的方法。 分类的概念是学习一个分类函数或基于现有数据构建一个分类模型(即我们通常所说的分类器)。 通过将数据库中的数据记录映射到给定类别,可以将此函数或模型应用于数据。
简而言之,分类器是数据挖掘中用于对样本进行分类的方法的总称,包括决策树、逻辑回归、朴素贝叶斯、神经网络和其他算法。