数据挖掘笔记
数据挖掘笔记
习题课
- 盒图:五数概括不用判定离群点,盒图要判定离群点
- 中位数概括宽度不用+1
- OLAP基础操作 专有名词
- 15选择(1分)+5填空(2分)+4大题
- upd:20-21春学期期末
- 大题考了用基尼系数做朴素贝叶斯概率、频繁模式挖掘、k近邻聚类、神经网络参数计算(求导大法)。确实都是作业出现过的题型,但是数不好算,聚类和基尼系数要按的计算器太多了。老师最后开始频繁催“算不出来数没关系,写对公式就给绝大部分分;写不出来公式写算法,至少写点东西好给分”。
- 前几章的计算只考了小题,比如算卡方、选正确的盒图。
- 小题里有概念题,比如写出三种集成学习算法。
- 不挂人但是也不保B+,作业/PJ/期末考三部分占比未知
第一章 引论
数据挖掘/KDD:从大量数据中挖掘有趣模式和知识的过程,通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估、知识表示。
挖掘的对象
- 关系数据库:表的汇集,有实体-联系(ER)等数据模型
- 数据仓库:从多个数据源收集的信息存储库,存放在一致的模式下,通常驻留在单个站点上。围绕主题组织,从历史的角度提供信息,通常是汇总的。用数据立方体建模。
- 事务数据:挖掘频繁项集
数据挖掘功能
- 类/概念描述:特征化与区分
- 挖掘频繁模式、关联和相关性
- 用于预测分析的分类与回归
- 聚类分析
- 离群点分析
第二章 认识数据
属性
- 数据对象用属性描述;属性表示数据对象的一个特征,同义词有属性(数据挖掘、数据库)、特征(机器学习)、变量(统计学)、维(数据仓库)。
- 标称属性:意味着“与名称相关”,值是一些符号或事物的名称,是分类的、枚举的、不定量、无序的。只有众数,没有其他数学运算(eg:颜色、编号、职业)。
- 二元/布尔属性:01的标称属性。若两种状态有同等价值且权重相同,称为对称的(eg:性别);否则称为非对称的(eg:病毒阳性),一般将重要结果用1编码。
- 序数属性:可能的值之间具有意义的序或秩评定,但是相继值之间的差是未知的(eg:饮料大小杯、成绩等级、职位)。记录不能客观度量的主观质量评估,或通过把数值属性离散化得到。有众数和中位数,没有平均值。
- 数值属性:定量的可度量的量。区间标度属性用相等的单位尺度度量,可以做差,但是由于没有真正的零不能做商(eg:华氏温度、日期);比率标度属性是具有固定零点的数值属性,可以做差和商(eg:开式温标、文档字数、速度)。数值属性都可以求众数、中位数、平均值。
- 总结:无序的只有众数、有序的可以求中位数、数值的可以做差和平均值、有零点的可以做商。
- 离散属性具有有限或无限可数个值(eg:头发颜色、顾客编号、邮政编码);不离散的属性是连续属性(可与数值属性互换使用),一般用浮点变量表示。
数据的基本统计描述
- 中心趋势度量
- 均值/mean:算术均值/加权均值(对极端值很敏感)、截尾均值(丢弃高低极端值之后的均值)
- 中位数/median(对倾斜、非对称数据描述更好):数据个数为偶数时,中位数不唯一,取中间两个值和它们之间的任意值;对于数值属性,约定取中间两个值的平均值。中位数的近似值。
- 众数/mode:根据众数个数将数据集合分为单峰的、双峰的、三峰的、多峰的(两个或更多个峰),N峰也称为N模。每个数据值只出现一次,则没有众数。
- 对于适度倾斜的单峰数值数据,有经验关系:$mean-mode \approx 3(mean-median)$
- 中列数/midrange:数据集最大和最小值的平均值。
- 完全对称的单峰频率曲线中,均值、中位数、众数都是相同的中心值。
- 正倾斜:众数小于中位数。反之则为负倾斜。
- 数据散布度量
- 极差/range:最大值与最小值之差
- 分位数/quantile:把数据划分成基本上大小相等的连贯集合,有$q-1$个q-分位数,第$k$个q-分位数是值$x$,小于$x$的数据值最多为$k/q$,大于$x$的数据值最多为$(q-k)/q$。2-分位数是中位数,四分位数依次为$Q_1$、$Q_2$、$Q_3$,又常用百分位数。
- 四分位数极差:$IQR=Q_3-Q_1$,给出被数据的中间一半覆盖的范围。
- 五数概括:最小观测值、$Q_1$、中位数、$Q_3$、最大观测值。
- 盒图:端点在四分位数上,长度是IQR,中位数用盒内的线标记,胡须延伸到最大最小观测值。若最大最小观测值距四分位数超过1.5IQR,胡须在距四分位数1.5IQR内最极端的观测值处终止,剩下的情况个别绘出。
- 方差:到均值距离的平方和的均值,或$(\frac{1}{N}\sum_{i=1}^{n}x_{i}^2)^2-\bar{x}^2$。标准差:方差的平方根,度量关于均值的发散。一个观测一般不会远离均值超过标准差的数倍,最少$(1-\frac{1}{k^2})*100%$的观测值离均值不超过k个标准差。
- 基本统计描述的图形显示
- 分位数图(观察单变量数据分布):横轴为f值(i-0.5)/N,纵轴为观测值。
- 分位数-分位数图(观察两个分布之间是否有漂移):横轴为一个观测值,纵轴为另一个观测值,每个点在两个数据集离对应的分位数相同。若两个观测集数据个数不同,以小的为准,需要在大的观测集里插值。
- 直方图:标称属性的直方图常被称为条形图。数值属性的直方图横轴为不相交的连续子域(桶/箱),通常是等宽的,纵轴为子域内数据的计数。
- 散点图(确定两个数值变量之间是否存在联系):每个值对视为一个代数坐标对,作为一个点画在平面上。左下-右上暗示正相关,左上-右下暗示负相关。
数据可视化
- 基于像素的可视化技术:对每一维创建一个窗口。线性填充、空间填充曲线,圆弓分割技术。
- 几何投影可视化技术:散点图矩阵(随着维数增加变得不太有效)、平行坐标(视觉上的簇和重叠导致不能有效地显示具有很多记录的数据集)
- 基于图符的可视化技术:切尔诺夫脸(容易被用户消化,在表示多重联系的能力方面存在局限性,最多18维,眼睛大小和眉毛的歪斜是重要的)、非对称的切尔诺夫脸(达到36维)、人物线条画(两个维映射到显示轴,其他维映射到人物线条画,数据关于两个显示维相对稠密则结果显示纹理模式)。
- 层次可视化技术:世界中的世界(将部分维固定为选定的值,以这个值为原点绘制内世界三维图,在外世界三维图中改变原点位置观察内世界变化)、树图
- 可视化复杂对象和关系:标签云(用大小表示次数)、图
度量数据的差异性和相似性
数据矩阵/二模矩阵:对象-属性结构,n*p。每行对应一个对象,又称数据样本/特征向量。
相异性矩阵/单模矩阵:对象-对象结构,n*n,存放对象两两之间的邻近度,对称矩阵。对于标称数据,$sim(i,j)=1-d(i,j)$
标称属性的邻近性度量:$d(i,j)=\frac{p-m}{p}$,m可加权
二元属性的邻近性度量
- 对称的二元相异性$d(i,j)=\frac{r+s}{q+r+s+t}$
- 非对称的二元相异性$d(i,j)=\frac{r+s}{q+r+s}$
- 非对称的二元相似性$sim(i,j)=\frac{q}{q+r+s}$,称为Jaccard系数。
数值属性的相异性
- 先对数据规范化,如变换到$[-1,1]$或$[0,1]$
- 欧几里得距离,加权的欧几里得距离
- 曼哈顿距离
- 度量:满足非负性、同一性、对称性、三角不等式
- 闵可夫斯基距离/$L_p$范数:各维距离的p次方之和,开p次方,p是不小于1的实数。$L_1$范数为曼哈顿距离,$L_2$范数为欧几里得距离。
- 上确界距离/$L_{max}$/$L_{∞}$范数/一致范数/切比雪夫距离:各维距离的最大值
序数属性的邻近性度量:对于第$i$个对象,用对应排位$r_{if}$取代序数属性组$x_{if}$,将每个属性的值域映射到$[0,1]$,$z_{if}=\frac{r_{if}-1}{M_f-1}$,再对$z$使用数值属性的距离度量计算相异性
混合类型属性的相异性
- 计算两者均不缺失的所有属性相异性并取平均数
- 数值属性$d_{ij}^{(f)}=\frac{|x_{if}-x_{jf}|}{max_hx_{hf}-min_hx_{hf}}$
- 序数属性计算$z$后按数值属性处理
- 标称属性$d$即为是否相等
余弦相似性
- 处理很长的、稀疏的向量,数据往往高度非对称(eg:信息检索、生物学分类)
- $sim(x,y)=\frac{x*y}{||x||||y||}$,分母为两个向量欧几里得范数(即长度)之积
- 0代表两个向量正交,余弦值越小向量之间的匹配越大
- 不遵守度量测度性质,被称为非度量测度
- 二值属性的余弦相似性可以用共享特征或属性解释,分子是共同具有的属性数,分母是两个向量具有的属性数的几何均值,sim成为公共属性相对拥有的一种度量,$sim(i,j)=\frac{xy}{xx+yy-xy}$,称为Tanimoto系数或Tanimoto距离
第三章 数据预处理
概述
数据质量的三个要素:准确性、完整性、一致性
影响数据质量的要素:时效性、可解释性、可信性
主要步骤:数据清理、数据集成、数据归约、数据变换
数据清理
- 缺失值
- 噪声数据:分箱、回归、离群点分析
- 偏差检测,数据变换两步的迭代过程
- 数据清洗工具,数据审计工具,数据迁移工具,ETL工具
数据集成
- 实体识别问题:使用元数据
- 冗余和相关分析
- 标称数据的卡方检验:相依表中$o_{ij}$为联合事件观测频度,$e_{ij}$为期望频度,可用$e_{ij}=\frac{count(A=a_i)count(B=b_j)}{n}$计算,卡方=$\sum_{i=1}^c\sum_{j=1}^r\frac{(o_{ij}-e_{ij})^2}{e_{ij}}$,对卡方贡献越大的单元实际计数与期望计数越不符。卡方检验假设A和B是独立的,具有自由度$(r-1)(c-1)$,自由度和置信水平决定拒绝假设的值
- 数值数据的相关系数/Pearson积矩系数:$r_{A,B}=\frac{\sum_{i=1}^n(a_i-\bar A)(b_i-\bar B)}{n\sigma_A\sigma_B}=\frac{\sum_{i=1}^n(a_ib_i)-n\bar A\bar B}{n\sigma_A\sigma_B}$;r越接近1,正相关越强;越接近-1,负相关越强;r为0,A和B独立。相关性不蕴涵因果关系
- 数值数据的协方差:$Cov(A,B)=E((A-\bar A)(B-\bar B))=\frac{\sum_{i=1}^n(a_i-\bar A)(b_i-\bar B)}{n}=E(A*B)-\bar A\bar B=r_{A,B}\sigma_A\sigma_B$;协方差为正表示正相关,协方差为负表示负相关;A和B独立时协方差一定为0,但A和B不独立协方差也可能为0,只有当数据满足多元正态分布等限制条件时协方差为0才充分说明数据独立。方差是属性和自身的协方差
- 元组重复
- 数据值冲突的检测与处理
数据归约
- 维归约:小波变换、主成分分析、属性子集选择、属性创建
- 数量归约:参数方法(回归、对数-线性模型)、非参数方法(直方图、聚类、抽样、数据立方体聚集)
- 数据压缩:有损的、无损的
- 离散小波变换(DWT)
- 将数据向量X变换成不同的数值小波系数向量X’,变换后数据可以截短,仅存放一部分最强的小波系数,消除噪声
- 有损压缩,比DFT更准确,空间局部性好,对稀疏或倾斜数据和具有有序属性的数据效果好
- 层次金字塔算法:每次迭代数据减半,先后使用光滑和加权差分函数,得到两个长度为L/2的数据集,分别代表光滑后的版本或低频版本和它的高频内容
- 有若干族DWT,小波名后的数是小波的消失瞬间
- 将矩阵乘法用于输入数据,所用的矩阵必须是标准正交的
- 处理多维数据,首先将变换用于第一个维,然后第二个,复杂度关于立方体中单元的个数是线性的
- 主成分分析/PCA
- 搜索k个最能代表数据的n维正交向量,k<=n
- 对输入数据规范化,计算k个标准正交向量(主成分),对主成分按重要性或强度降序排列,主成分本质上充当新坐标系,通过去掉较弱的成分(方差较小的那些)来规约数据
- 可用于有序和无序的属性,可以处理稀疏和倾斜数据,可以用做多元回归和聚类分析的输入
- 多于二维的多维数据可以通过将问题归约为二维问题来处理
- 小波变换更适合高维数据,PCA能够更好处理稀疏数据
- 属性子集选择
- 删除不相关或冗余属性,目标是找出最小属性集,使数据类的概率分布尽可能接近原分布
- 压缩搜索空间的启发式算法:贪心,取局部最优解
- 确定”最好/差的“属性:统计显著性检验/信息增益度量
- 具体技术:逐步向前选择、逐步向后删除、逐步向前选择和逐步向后删除的组合、决策树归纳
- 回归和对数线性模型
- 参数化数据归约
- 线性回归(最小二乘法求解回归系数)、多元回归
- 对数线性模型:近似离散的多维概率分布,基于维组合的一个较小子集估计多维空间中每个点的概率
- 都可以用于稀疏数据。回归对倾斜数据可望更好,对数线性模型对高维数据伸缩性好,可达10维
- 直方图
- 等宽直方图,等频/等深直方图
- 对于近似稀疏和稠密数据,以及高倾斜和均匀的数据,都是非常有效的
- 多维直方图可以表现属性间的依赖,能有效近似多达5个属性的数据
- 对于存放具有高频率的离群点,单值桶是有用的
- 聚类
- 直径:簇中两个对象的最大距离
- 形心距离:簇中每个对象到簇形心(平均对象/空间中的平均点)的平均距离
- 数据归约中用簇代表替换实际数据,对于能够组织成不同的簇的数据较为有用
- 抽样
- s个样本的无放回简单随机抽样(SRSWOR)
- s个样本的有放回简单随机抽样(SRSWR)
- 簇抽样:每次抽取一个簇
- 分层抽样:数据倾斜时可以帮助确保样本的代表性
- 得到样本的花费正比例于样本集的大小s,而不是数据集的大小N,因此复杂度亚线性于数据大小,仅根据数据的维数n线性增加
- 常用来估计聚集查询的回答,通过简单的增加样本大小可以进一步求精
- 数据立方体聚集
- 每个属性都可能存在概念分层,允许在多个抽象层进行数据分析
- 数据立方体提供对与计算的汇总数据进行快速访问,适合联机数据分析和数据挖掘
- 在最低抽象层创建的立方体称为基本方体,应当对应于感兴趣的个体实体
- 最高抽象层的立方体称为顶点方体
- 不同层创建的数据立方体称为方体,数据立方体可以看作方体的格
- 回答询问时使用与给定任务相关的最小可用方体
数据变换与数据离散化
- 光滑:去掉数据中的噪声,包括分箱、回归和聚类
- 属性构造/特征构造:由给定属性创造新属性
- 聚集:一般用来维多个抽象层的数据分析构造数据立方体
- 规范化/标准化:把属性数据按比例缩放到特定小区间
- 最小-最大规范化:$v_i’=\frac{v_i-min_A}{max_A-min_A}(max_A’-min_A’)+min_A’$,保持原始数据之间的联系,但新输入落在原始数据值域外可能越界
- z分数规范化/z-score规范化/零均值规范化:$v_i’=\frac{v_i-\bar A}{\sigma_A}$,实际最大最小值未知或离群点左右了最小-最大规范化时是有用的。标准差可用均值绝对偏差$s_A$替换,对离群点更鲁棒
- 小数定标规范化:通过移动属性A的小数点位置进行规范化,$v_i’=\frac{v_i}{10^j}$,j是使得$max(|v_i’|)<1$的最小整数
- 有必要保留规范化参数,以便将来的数据可以用一致的方式规范化
- 离散化:将数值属性原始值用区间标签或概念标签替换
- 监督的离散化和非监督的离散化:是否使用类信息
- 自顶向下离散化/分裂,自底向上离散化/合并
- 分箱离散化:等宽/等频分箱,用箱均值/中位数替换箱中的每个值,是非监督的离散化技术,对用户指定的箱个数和离群点很敏感
- 直方图离散化:非监督,可以递归地用于每个分区,自动产生多级概念分层,用预设概念层数或最小区间长度控制递归过程
- 聚类
- 决策树:监督的离散化,选择最小化熵的值作为划分点
- 相关分析离散化:监督的离散化,ChiMerge,自底向上递归找出具有最小卡方值的相邻区间并合并(对于精确的离散化,相对类频率在一个区间内应当完全一致)
- 由标称数据产生概念分层:利用模式和属性值计数信息
第四章 数据仓库与联机分析处理
基本概念
- 主要特征:面向主题的、集成的、时变的、非易失的
- 使用更新驱动而非查询驱动方法
- 操作数据库与数据仓库分离,OLTP和OLAP分离
- OLAP系统面向市场(而非面向顾客),管理大量历史数据(而非当前数据),采用星形或雪花模型和面向主题的数据库设计(而非ER模型和面向应用的数据库设计),常常跨越数据库模式的多个版本,存放在多个存储介质上,大部分是只读操作
- 三层体系结构:底层是仓库数据库服务器,中间层是OLAP服务器,顶层是前端客户层
- 数据仓库模型:企业仓库,数据集市和虚拟仓库
- 数据提取、变换和装入
- 元数据库:关于数据的数据,应当持久存放和管理(即存放在磁盘上)
数据立方体与OLAP
- 数据立方体由维和事实定义,是n维的
- 数据立方体称作方体。给定维的集合,可以对给定诸维的每个子集产生一个方体,结果形成方体的格,称作数据立方体。存放最低层汇总的方体称作基本方体,最高层汇总的方体称作顶点方体。
- 多维数据模型
- 星形模式:一个事实表+一组维表
- 雪花模式:在星形模式的基础上将某些维表规范化
- 星系模式/事实星座:多个事实表共享维表
- 数据仓库通常使用事实星座模式,数据集市流行采用星形或雪花模式
- 概念分层
- 模式分层:形成数据库模式中属性的全序或偏序的概念分层
- 集合分组分层:将给定维或属性的值离散化或分组
- 度量的分类和计算
- 数据立方体度量是一个数值函数,可以对数据立方体空间的每个点求值,通过对给定点的各维-值对聚集数据,计算该点的度量值
- 度量分类:分布的(可以划分计算,eg:sum、count、min)、代数的(可以由多个划分计算的结果得到,eg:avg、min_N)、整体的(描述子聚集所需的存储没有常数界,eg:median、mode、rank)
- 典型的OLAP操作
- 上卷(roll-up)/上钻(drill-up):通过沿一个维的概念分层向上攀升,泛化
- 下钻(drill-down):通过沿一个维的概念分层向下或引入附加的维,特殊化
- 切片(slice):在一个维进行选择
- 切块(dice):在两个或多个维进行选择
- 转轴(pivot)/旋转(rotate):转动数据视角
- 钻过(drill-across):执行涉及多个事实表的查询
- 钻透(drill-through):使用关系SQL机制钻透到后端关系表
- 星网模型:由从中心点发出的射线组成,其中每一条射线代表一个维的概念分层,概念分层上的每个”抽象级“称为一个足迹,代表 OLAP操作可用的粒度
数据仓库的设计与使用
- 商务分析框架:自顶向下视图、数据源视图、数据仓库视图、商务查询视图
- 开发方法:瀑布式方法、螺旋式方法
- 数据仓库应用:信息处理、分析处理、数据挖掘
- 多维数据挖掘/探索式多维数据挖掘/联机分析挖掘/OLAM
数据仓库的实现
- compute cube:在操作指定的维的所有子集上计算聚集
- 维灾难:n维方体总数=$\prod_{i=1}^n(L_i+1)$
- 不物化、完全物化、部分物化
- 冰山立方体:只存放聚集值大于某个最小支持度阈值的立方体单元
- 外壳立方体
- 位图索引,连接索引,复合连接索引,位图连接索引
- 关系OLAP(ROLAP)服务器:伸缩性好,映射到关系操作;多维OLAP(MOLAP)服务器:适用稠密子立方体,映射到数组结构;混合OLAP(HOLAP)服务器;特殊的SQL服务器
数据泛化:面向属性的归纳
- 属性删除:某个属性有大量不同值但没有泛化操作符,或较高层概念用其他属性表示
- 属性泛化:某个属性有大量不同值且存在泛化操作符
- 属性泛化控制:属性泛化阈值控制、广义关系阈值控制
- 面向属性归纳:关系查询-收集初始关系上的统计量-导出主关系P
- 类比较:数据收集-维相关分析-同步泛化-导出比较的表示
第五章 数据立方体技术
基本概念
- 基本方体的单元是基本单元,非基本方体的单元是聚集单元
- 祖先和后代单元,父母和子女单元
- 闭覆盖:一个单元c是闭单元,如果不存在后代d与c有相同的度量值;闭立方体是只由闭单元组成的数据立方体
- 立方体外壳,外壳片段
- 优化技术:散列、排序、分组、同时聚集和缓存中间结果、由最小的子女聚集、先验剪枝
数据立方体计算方法
- 多路数组聚集(MultiWay):扫描顺序决定保持二维平面在块内存中的最小内存需求量;适合维的基数乘积适中且数据不是太稀疏的情况,但是不能先验剪枝
- BUC:自顶向下,容易受维的次序和倾斜数据的影响,理想情况下应先处理最有区分能力的维,应当以维的基数减序处理
- Star-Cubing
- 共享维剪枝
- 方体树,星树
- 计算完全立方体,稠密时接近MultiWay,比BUC快;稀疏时比MultiWay快很多,大部分情况下比BUC快
- 计算冰山立方体,比BUC快
- 计算外壳片段:倒排索引,Frag-Shells
- 点查询,子立方体查询
高级查询
- 抽样立方体
- 置信区间$\bar x ±t_c\sigma_{\bar x}$,$t_c$与置信水平相关,$\sigma_{\bar x}=\frac{s}{\sqrt l}$是均值的估计标准误差,自由度为$l-1$,$l$为样本数
- 提升小样本置信度:方体内查询扩展、方体间查询扩展
- 排序立方体
多维数据分析
- 预测立方体
- 多特征立方体:多粒度上多个依赖的聚集的复杂查询
- 基于异常的、发现驱动的立方体空间探查
- SelfExp,InExp,PathExp
- 给定单元的值和它的期望值之间的差称为残差,残差越大越异常,要对残差定标
第六章 挖掘频繁模式、关联和相关性:基本概念和方法
基本概念
- 频繁模式:频繁出现在数据集中的模式,如频繁项集、频繁序列模式
- 有趣的关联规则:满足最小支持度阈值和最小置信度阈值
- 支持度support(A->B)=P(A$\cup$B)
- 置信度confidence(A->B)=P(B|A)=support(A$\cup$B)/support(A)
- 闭频繁项集:不存在频繁项集X的真超集Y,使得Y与X在D中支持度相同
- 极大频繁项集:不存在频繁项集X的超集Y,使得Y在D中是频繁的
频繁项集挖掘方法
Apriori(先验)算法
- 先验性质,属于反单调性
- 连接步,剪枝步
- 由频繁项集枚举子集,产生关联规则
- 优化方法:散列技术、事务压缩、划分、抽样、动态项集计数
FP-growth(频繁模式增长)算法
- 导出频繁项的集合,构造FP树
- 从表后端的后缀模式开始构造条件模式基
使用垂直数据格式挖掘频繁项集
不需要扫描数据库来确定k+1项集的支持度
差集技术:数据集稠密和包含长模式时,可以显著降低总开销
挖掘闭模式和极大模式
- 项合并
- 子项集剪枝
- 项跳过
模式评估方法
- 提升度:$lift(A,B)=\frac{P(A\cup B)}{P(A)P(B)}=\frac{P(B|A)}{P(B)}=\frac{conf(A->B)}{sup(B)}$,小于1为负相关,大于1为正相关,等于1为独立
- 全置信度:min{P(A|B),P(B|A)}
- 最大置信度:max{P(A|B),P(B|A)}
- Kulczynski(Kulc)度量:0.5(P(A|B)+P(B|A))
- 余弦度量:$\sqrt{P(A|B)+P(B|A)}$
- 不平衡比:$IR(A,B)=\frac{|sup(A)-sup(B)|}{sup(A)+sup(B)-sup(A\cup B)}$
- 全置信度、最大置信度、Kulc和余弦是零不变的,推荐Kulc和IR配合使用
第七章 高级模式挖掘
多层、多维空间中的模式挖掘
- 挖掘多层关联规则
- 检查多层关联规则的冗余性:根据规则的祖先,它的支持度和置信度都接近于期望值
- 挖掘多维关联规则
- 挖掘量化关联规则
- 挖掘稀有模式和负模式
- 稀有模式支持度远低于用户指定的最小支持度阈值
- 负相关:X和Y都是频繁的,但很少一起出现
- 直接用sup定义的强负相关并不是零不变的
- 零不变的强负相关定义:Kulc度量小于负模式阈值
基于约束的频繁模式挖掘
- 用模式剪枝约束对模式空间剪枝
- 反单调的
- 单调的
- 简洁的
- 可转变的
- 不可转变的
- 用数据剪枝约束对数据空间剪枝
- 数据简洁
- 数据反单调
挖掘高维数据和巨型模式
- 通过模式融合挖掘巨型模式
- 核模式(核后代)、核比率
- 鲁棒
- 模式距离
- 池初始化-迭代的模式融合
挖掘压缩或近似模式
- 通过模式聚类挖掘压缩模式:模式距离
- 提取感知冗余的top-k模式
- 显著性度量S
- S(p,q)联合显著性,S(p|q)=S(p,q)-S(q)相对显著性
- 冗余性R(p,q)=S(p)+S(q)-S(p,q),所以S(p|q)=S(p)-R(p,q)
- 可以用模式间的距离近似冗余度
模式探索与应用
- 频繁模式的语义注解:互信息
- 模式挖掘的应用
第八章 分类:基本概念
决策树归纳
- 属性选择度量
- 信息增益:信息需求$Info(D)=-\sum_{i=1}^mp_ilog_2(p_i)$,$p_i$用$|C_{i,D}|/|D|$估计;$Info_A(D)=\sum_{j=1}^v\frac{|D_j|}{D}*Info(D_j)$,$Info_A(D)$越小,分区纯度越高;信息增益$Gain(A)=Info(D)-Info_A(D)$
- 增益率:分裂信息$SplitInfo_A(D)=-\sum_{j=1}^v\frac{|D_j|}{D}*log_2(\frac{|D_j|}{|D|})$,增益率$GRianRate(A)=\frac{Gain(A)}{SplitInfo_A(D)}$
- 基尼系数:$Gini(D)=1-\sum_{i=1}^mp_i^2$度量数据分区或训练元组集D的不纯度;考虑二元划分裂时,计算每个结果分区不纯度加权和;对连续值属性,最大化不纯度降低
- 基于最小描述长度原理的属性
- 树剪枝:先剪枝,后剪枝(代价复杂度剪枝算法,应用剪枝集)
- 可伸缩性与决策树归纳:雨林(在每个结点维护每个属性的AVC-集),树构造的自助乐观算法(BOAT)
- 决策树归纳的可视化挖掘:基于感知的分类(PBC)
贝叶斯分类方法
- 贝叶斯定理
- 后验概率P(H|X)
- P(H|X)=P(X|H)P(H)/P(X)
- 朴素贝叶斯分类
- 预测X属于在X条件下有最高后验概率的类
- 等价于最大化P(X|Ci)P(Ci)
- 若P(Ci)未知则假定等概率,否则用Ci/D估计
- 类条件独立的朴素假定:P(X|Ci)=P(x1|Ci)P(x2|Ci)……P(xn|Ci)
- 连续值属性的概率用高斯分布定义
- 拉普拉斯校准/拉普拉斯估计法
基于规则的分类
- 规则:规则前件/前提IF,规则结论THEN
- 覆盖率$coverage(R)=n_{covers}/|D|$
- 准确率$accuracy(R)=n_{correct}/n_{covers}$
- 规模序:优先最苛刻的规则,即前件规模最大、激活具有最多属性测试的被触发的规则
- 规则序:预定规则的优先次序
- 由决策树提取规则:规则是互斥的和穷举的
- 使用顺序覆盖算法的规则归纳
- 贪心的深度优先策略
- 用于规则学习的称为正元组pos,其余称为负元组neg
- 信息增益$FOIL-Gain=pos’*(log_2\frac{pos’}{pos’+neg’}-log_2\frac{pos}{pos+neg})$;似然率统计量$Likelihood-Ratio=2\sum_{i=1}^mf_ilog(\frac{f_i}{e_i})$,似然率越高正确预测数与随机猜测差越显著
- 规则剪枝$FOIL-Prune(R)=\frac{pos-neg}{pos+neg}$
模型评估与选择
- 混淆矩阵——真阳性:TP;真阴性:TN;假阳性:FP;假阴性:FN
- 准确率/总体识别率:$accuracy=\frac{TP+TN}{P+N}$
- 错误率:1-accuracy
- 灵敏性/召回率:$sensitivity=\frac{TP}{P}=\frac{TP}{TP+FN}=recall$
- 特效性:$specificity=\frac{TN}{N}$
- 精度:$precision=\frac{TP}{TP+FP}$
- $F_x$分数:$F_x=\frac{(1+x^2)precisionrecall}{x^2*precision+recall}$,x为1时称为F度量/F分数
- 保持方法和随机二次抽样
- 交叉验证
- k-折交叉验证:初始数据随机划分成k个互不相交的子集D,训练和检验进行k次,每次留下一个D检验
- 留一:每次只给检验集留出一个样本
- 分层交叉验证
- 建议用分层10-折交叉验证估计准确率
- 自助法:有放回,.632,$Acc(M)=\sum_{i=1}^k(0.632Acc(M_i)_{test-set}+0.368Acc(M_i)train-set)$
- 统计显著性:t-test,显著水平sig,置信界z=sig/2
- $t=\frac{\bar {err}(M_1)-\bar {err}(M_2)}{\sqrt{var(M_1-M_2)/k}}$,var为模型差的方差,若有两个检验集,方差估计为$\sqrt{var(M_1)/k_1+var(M_2)/k_2}$
- 成本效益
- ROC曲线
- 真正例率TPR=TP/P
- 假正例率TFR=FP/N
- 概率从高到低排序,真正例TP增加,假正例FP增加
- 用当前混淆矩阵计算(FPR,TPR)并将点绘在图中
- ROC曲线越接近随机猜测,模型准确率越低
提高分类准确率的技术
- 组合分类方法
- 装袋:有放回抽样,多数表决
- 提升和AdaBoost:给不正确分类的元组加权,不同分类器的表决权重也取决于错误率
- 随机森林
- 提高类不平衡数据的分类准确率:过抽样、欠抽样、阈值移动、组合技术
第九章 分类:高级方法
贝叶斯信念网络
- 计算梯度
- 沿梯度方向前进一小步
- 重新规格化权重
用后向传播分类
- 多层前馈神经网络
- 后向传播:初始化权重,向前传播输入,向后传播误差
- 可增强可解释性
支持向量机
- 对线性和非线性数据进行分类
- SVM搜索最大边缘超平面(MMH)
- 支持向量:最难分类的元组,给出最多支持信息
使用频繁模式分类
惰性学习法(近邻学习)
- 距离最近的k个中取最多
- 训练元组趋于无穷,k=1,错误率不超过贝叶斯错误率的2倍;k趋于无穷,错误率趋向于贝叶斯错误率
- 基于案例的推理
其他分类方法
- 遗传算法
- 粗糙集算法
- 模糊集算法
- 多类分类
- 半监督分类
- 主动学习
- 迁移学习
第十章 聚类分析:基本概念和方法
- 划分方法:k-均值,k-中心点
- 层次方法
- 基于密度的方法
- 基于网格的方法
- 簇的形心、半径、直径
- 聚类评估
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!