数据挖掘笔记

习题课

盒图：五数概括不用判定离群点，盒图要判定离群点
中位数概括宽度不用+1
OLAP基础操作专有名词
15选择（1分）+5填空（2分）+4大题
upd：20-21春学期期末
- 大题考了用基尼系数做朴素贝叶斯概率、频繁模式挖掘、k近邻聚类、神经网络参数计算（求导大法）。确实都是作业出现过的题型，但是数不好算，聚类和基尼系数要按的计算器太多了。老师最后开始频繁催“算不出来数没关系，写对公式就给绝大部分分；写不出来公式写算法，至少写点东西好给分”。
- 前几章的计算只考了小题，比如算卡方、选正确的盒图。
- 小题里有概念题，比如写出三种集成学习算法。
不挂人但是也不保B+，作业/PJ/期末考三部分占比未知

第一章引论

数据挖掘/KDD：从大量数据中挖掘有趣模式和知识的过程，通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估、知识表示。

挖掘的对象

关系数据库：表的汇集，有实体-联系（ER）等数据模型
数据仓库：从多个数据源收集的信息存储库，存放在一致的模式下，通常驻留在单个站点上。围绕主题组织，从历史的角度提供信息，通常是汇总的。用数据立方体建模。
事务数据：挖掘频繁项集

数据挖掘功能

类/概念描述：特征化与区分
挖掘频繁模式、关联和相关性
用于预测分析的分类与回归
聚类分析
离群点分析

第二章认识数据

属性

数据对象用属性描述；属性表示数据对象的一个特征，同义词有属性（数据挖掘、数据库）、特征（机器学习）、变量（统计学）、维（数据仓库）。
标称属性：意味着“与名称相关”，值是一些符号或事物的名称，是分类的、枚举的、不定量、无序的。只有众数，没有其他数学运算（eg：颜色、编号、职业）。
二元/布尔属性：01的标称属性。若两种状态有同等价值且权重相同，称为对称的（eg：性别）；否则称为非对称的（eg：病毒阳性），一般将重要结果用1编码。
序数属性：可能的值之间具有意义的序或秩评定，但是相继值之间的差是未知的（eg：饮料大小杯、成绩等级、职位）。记录不能客观度量的主观质量评估，或通过把数值属性离散化得到。有众数和中位数，没有平均值。
数值属性：定量的可度量的量。区间标度属性用相等的单位尺度度量，可以做差，但是由于没有真正的零不能做商（eg：华氏温度、日期）；比率标度属性是具有固定零点的数值属性，可以做差和商（eg：开式温标、文档字数、速度）。数值属性都可以求众数、中位数、平均值。
总结：无序的只有众数、有序的可以求中位数、数值的可以做差和平均值、有零点的可以做商。
离散属性具有有限或无限可数个值（eg：头发颜色、顾客编号、邮政编码）；不离散的属性是连续属性（可与数值属性互换使用），一般用浮点变量表示。

数据的基本统计描述

中心趋势度量
- 均值/mean：算术均值/加权均值（对极端值很敏感）、截尾均值（丢弃高低极端值之后的均值）
- 中位数/median（对倾斜、非对称数据描述更好）：数据个数为偶数时，中位数不唯一，取中间两个值和它们之间的任意值；对于数值属性，约定取中间两个值的平均值。中位数的近似值。
- 众数/mode：根据众数个数将数据集合分为单峰的、双峰的、三峰的、多峰的（两个或更多个峰），N峰也称为N模。每个数据值只出现一次，则没有众数。
- 对于适度倾斜的单峰数值数据，有经验关系：$mean-mode \approx 3(mean-median)$
- 中列数/midrange：数据集最大和最小值的平均值。
- 完全对称的单峰频率曲线中，均值、中位数、众数都是相同的中心值。
- 正倾斜：众数小于中位数。反之则为负倾斜。
数据散布度量
- 极差/range：最大值与最小值之差
- 分位数/quantile：把数据划分成基本上大小相等的连贯集合，有$q-1$个q-分位数，第$k$个q-分位数是值$x$，小于$x$的数据值最多为$k/q$，大于$x$的数据值最多为$(q-k)/q$。2-分位数是中位数，四分位数依次为$Q_1$、$Q_2$、$Q_3$，又常用百分位数。
- 四分位数极差：$IQR=Q_3-Q_1$，给出被数据的中间一半覆盖的范围。
- 五数概括：最小观测值、$Q_1$、中位数、$Q_3$、最大观测值。
- 盒图：端点在四分位数上，长度是IQR，中位数用盒内的线标记，胡须延伸到最大最小观测值。若最大最小观测值距四分位数超过1.5IQR，胡须在距四分位数1.5IQR内最极端的观测值处终止，剩下的情况个别绘出。
- 方差：到均值距离的平方和的均值，或$(\frac{1}{N}\sum_{i=1}^{n}x_{i}^2)^2-\bar{x}^2$。标准差：方差的平方根，度量关于均值的发散。一个观测一般不会远离均值超过标准差的数倍，最少$(1-\frac{1}{k^2})*100%$的观测值离均值不超过k个标准差。
基本统计描述的图形显示
- 分位数图（观察单变量数据分布）：横轴为f值(i-0.5)/N，纵轴为观测值。
- 分位数-分位数图（观察两个分布之间是否有漂移）：横轴为一个观测值，纵轴为另一个观测值，每个点在两个数据集离对应的分位数相同。若两个观测集数据个数不同，以小的为准，需要在大的观测集里插值。
- 直方图：标称属性的直方图常被称为条形图。数值属性的直方图横轴为不相交的连续子域（桶/箱），通常是等宽的，纵轴为子域内数据的计数。
- 散点图（确定两个数值变量之间是否存在联系）：每个值对视为一个代数坐标对，作为一个点画在平面上。左下-右上暗示正相关，左上-右下暗示负相关。

数据可视化

基于像素的可视化技术：对每一维创建一个窗口。线性填充、空间填充曲线，圆弓分割技术。
几何投影可视化技术：散点图矩阵（随着维数增加变得不太有效）、平行坐标（视觉上的簇和重叠导致不能有效地显示具有很多记录的数据集）
基于图符的可视化技术：切尔诺夫脸（容易被用户消化，在表示多重联系的能力方面存在局限性，最多18维，眼睛大小和眉毛的歪斜是重要的）、非对称的切尔诺夫脸（达到36维）、人物线条画（两个维映射到显示轴，其他维映射到人物线条画，数据关于两个显示维相对稠密则结果显示纹理模式）。
层次可视化技术：世界中的世界（将部分维固定为选定的值，以这个值为原点绘制内世界三维图，在外世界三维图中改变原点位置观察内世界变化）、树图
可视化复杂对象和关系：标签云（用大小表示次数）、图

度量数据的差异性和相似性

数据矩阵/二模矩阵：对象-属性结构，n*p。每行对应一个对象，又称数据样本/特征向量。
相异性矩阵/单模矩阵：对象-对象结构，n*n，存放对象两两之间的邻近度，对称矩阵。对于标称数据，$sim(i,j)=1-d(i,j)$
标称属性的邻近性度量：$d(i,j)=\frac{p-m}{p}$，m可加权
二元属性的邻近性度量
- 对称的二元相异性$d(i,j)=\frac{r+s}{q+r+s+t}$
- 非对称的二元相异性$d(i,j)=\frac{r+s}{q+r+s}$
- 非对称的二元相似性$sim(i,j)=\frac{q}{q+r+s}$，称为Jaccard系数。
数值属性的相异性
- 先对数据规范化，如变换到$[-1,1]$或$[0,1]$
- 欧几里得距离，加权的欧几里得距离
- 曼哈顿距离
- 度量：满足非负性、同一性、对称性、三角不等式
- 闵可夫斯基距离/$L_p$范数：各维距离的p次方之和，开p次方，p是不小于1的实数。$L_1$范数为曼哈顿距离，$L_2$范数为欧几里得距离。
- 上确界距离/$L_{max}$/$L_{∞}$范数/一致范数/切比雪夫距离：各维距离的最大值
序数属性的邻近性度量：对于第$i$个对象，用对应排位$r_{if}$取代序数属性组$x_{if}$，将每个属性的值域映射到$[0,1]$，$z_{if}=\frac{r_{if}-1}{M_f-1}$，再对$z$使用数值属性的距离度量计算相异性
混合类型属性的相异性
- 计算两者均不缺失的所有属性相异性并取平均数
- 数值属性$d_{ij}^{(f)}=\frac{|x_{if}-x_{jf}|}{max_hx_{hf}-min_hx_{hf}}$
- 序数属性计算$z$后按数值属性处理
- 标称属性$d$即为是否相等
余弦相似性
- 处理很长的、稀疏的向量，数据往往高度非对称（eg：信息检索、生物学分类）
- $sim(x,y)=\frac{x*y}{||x||||y||}$，分母为两个向量欧几里得范数（即长度）之积
- 0代表两个向量正交，余弦值越小向量之间的匹配越大
- 不遵守度量测度性质，被称为非度量测度
- 二值属性的余弦相似性可以用共享特征或属性解释，分子是共同具有的属性数，分母是两个向量具有的属性数的几何均值，sim成为公共属性相对拥有的一种度量，$sim(i,j)=\frac{xy}{xx+yy-xy}$，称为Tanimoto系数或Tanimoto距离

第三章数据预处理

概述

数据质量的三个要素：准确性、完整性、一致性
影响数据质量的要素：时效性、可解释性、可信性
主要步骤：数据清理、数据集成、数据归约、数据变换

数据清理

缺失值
噪声数据：分箱、回归、离群点分析
偏差检测，数据变换两步的迭代过程
数据清洗工具，数据审计工具，数据迁移工具，ETL工具

数据集成

实体识别问题：使用元数据
冗余和相关分析
- 标称数据的卡方检验：相依表中$o_{ij}$为联合事件观测频度，$e_{ij}$为期望频度，可用$e_{ij}=\frac{count(A=a_i)count(B=b_j)}{n}$计算，卡方=$\sum_{i=1}^c\sum_{j=1}^r\frac{(o_{ij}-e_{ij})^2}{e_{ij}}$，对卡方贡献越大的单元实际计数与期望计数越不符。卡方检验假设A和B是独立的，具有自由度$(r-1)(c-1)$，自由度和置信水平决定拒绝假设的值
- 数值数据的相关系数/Pearson积矩系数：$r_{A,B}=\frac{\sum_{i=1}^n(a_i-\bar A)(b_i-\bar B)}{n\sigma_A\sigma_B}=\frac{\sum_{i=1}^n(a_ib_i)-n\bar A\bar B}{n\sigma_A\sigma_B}$；r越接近1，正相关越强；越接近-1，负相关越强；r为0，A和B独立。相关性不蕴涵因果关系
- 数值数据的协方差：$Cov(A,B)=E((A-\bar A)(B-\bar B))=\frac{\sum_{i=1}^n(a_i-\bar A)(b_i-\bar B)}{n}=E(A*B)-\bar A\bar B=r_{A,B}\sigma_A\sigma_B$；协方差为正表示正相关，协方差为负表示负相关；A和B独立时协方差一定为0，但A和B不独立协方差也可能为0，只有当数据满足多元正态分布等限制条件时协方差为0才充分说明数据独立。方差是属性和自身的协方差
元组重复
数据值冲突的检测与处理

数据归约

维归约：小波变换、主成分分析、属性子集选择、属性创建
数量归约：参数方法（回归、对数-线性模型）、非参数方法（直方图、聚类、抽样、数据立方体聚集）
数据压缩：有损的、无损的
离散小波变换（DWT）
- 将数据向量X变换成不同的数值小波系数向量X’，变换后数据可以截短，仅存放一部分最强的小波系数，消除噪声
- 有损压缩，比DFT更准确，空间局部性好，对稀疏或倾斜数据和具有有序属性的数据效果好
- 层次金字塔算法：每次迭代数据减半，先后使用光滑和加权差分函数，得到两个长度为L/2的数据集，分别代表光滑后的版本或低频版本和它的高频内容
- 有若干族DWT，小波名后的数是小波的消失瞬间
- 将矩阵乘法用于输入数据，所用的矩阵必须是标准正交的
- 处理多维数据，首先将变换用于第一个维，然后第二个，复杂度关于立方体中单元的个数是线性的
主成分分析/PCA
- 搜索k个最能代表数据的n维正交向量，k<=n
- 对输入数据规范化，计算k个标准正交向量（主成分），对主成分按重要性或强度降序排列，主成分本质上充当新坐标系，通过去掉较弱的成分（方差较小的那些）来规约数据
- 可用于有序和无序的属性，可以处理稀疏和倾斜数据，可以用做多元回归和聚类分析的输入
- 多于二维的多维数据可以通过将问题归约为二维问题来处理
- 小波变换更适合高维数据，PCA能够更好处理稀疏数据
属性子集选择
- 删除不相关或冗余属性，目标是找出最小属性集，使数据类的概率分布尽可能接近原分布
- 压缩搜索空间的启发式算法：贪心，取局部最优解
- 确定”最好/差的“属性：统计显著性检验/信息增益度量
- 具体技术：逐步向前选择、逐步向后删除、逐步向前选择和逐步向后删除的组合、决策树归纳
回归和对数线性模型
- 参数化数据归约
- 线性回归（最小二乘法求解回归系数）、多元回归
- 对数线性模型：近似离散的多维概率分布，基于维组合的一个较小子集估计多维空间中每个点的概率
- 都可以用于稀疏数据。回归对倾斜数据可望更好，对数线性模型对高维数据伸缩性好，可达10维
直方图
- 等宽直方图，等频/等深直方图
- 对于近似稀疏和稠密数据，以及高倾斜和均匀的数据，都是非常有效的
- 多维直方图可以表现属性间的依赖，能有效近似多达5个属性的数据
- 对于存放具有高频率的离群点，单值桶是有用的
聚类
- 直径：簇中两个对象的最大距离
- 形心距离：簇中每个对象到簇形心（平均对象/空间中的平均点）的平均距离
- 数据归约中用簇代表替换实际数据，对于能够组织成不同的簇的数据较为有用
抽样
- s个样本的无放回简单随机抽样（SRSWOR）
- s个样本的有放回简单随机抽样（SRSWR）
- 簇抽样：每次抽取一个簇
- 分层抽样：数据倾斜时可以帮助确保样本的代表性
- 得到样本的花费正比例于样本集的大小s，而不是数据集的大小N，因此复杂度亚线性于数据大小，仅根据数据的维数n线性增加
- 常用来估计聚集查询的回答，通过简单的增加样本大小可以进一步求精
数据立方体聚集
- 每个属性都可能存在概念分层，允许在多个抽象层进行数据分析
- 数据立方体提供对与计算的汇总数据进行快速访问，适合联机数据分析和数据挖掘
- 在最低抽象层创建的立方体称为基本方体，应当对应于感兴趣的个体实体
- 最高抽象层的立方体称为顶点方体
- 不同层创建的数据立方体称为方体，数据立方体可以看作方体的格
- 回答询问时使用与给定任务相关的最小可用方体

数据变换与数据离散化

光滑：去掉数据中的噪声，包括分箱、回归和聚类
属性构造/特征构造：由给定属性创造新属性
聚集：一般用来维多个抽象层的数据分析构造数据立方体
规范化/标准化：把属性数据按比例缩放到特定小区间
- 最小-最大规范化：$v_i’=\frac{v_i-min_A}{max_A-min_A}(max_A’-min_A’)+min_A’$，保持原始数据之间的联系，但新输入落在原始数据值域外可能越界
- z分数规范化/z-score规范化/零均值规范化：$v_i’=\frac{v_i-\bar A}{\sigma_A}$，实际最大最小值未知或离群点左右了最小-最大规范化时是有用的。标准差可用均值绝对偏差$s_A$替换，对离群点更鲁棒
- 小数定标规范化：通过移动属性A的小数点位置进行规范化，$v_i’=\frac{v_i}{10^j}$，j是使得$max(|v_i’|)<1$的最小整数
- 有必要保留规范化参数，以便将来的数据可以用一致的方式规范化
离散化：将数值属性原始值用区间标签或概念标签替换
- 监督的离散化和非监督的离散化：是否使用类信息
- 自顶向下离散化/分裂，自底向上离散化/合并
- 分箱离散化：等宽/等频分箱，用箱均值/中位数替换箱中的每个值，是非监督的离散化技术，对用户指定的箱个数和离群点很敏感
- 直方图离散化：非监督，可以递归地用于每个分区，自动产生多级概念分层，用预设概念层数或最小区间长度控制递归过程
- 聚类
- 决策树：监督的离散化，选择最小化熵的值作为划分点
- 相关分析离散化：监督的离散化，ChiMerge，自底向上递归找出具有最小卡方值的相邻区间并合并（对于精确的离散化，相对类频率在一个区间内应当完全一致）
由标称数据产生概念分层：利用模式和属性值计数信息

第四章数据仓库与联机分析处理

基本概念

主要特征：面向主题的、集成的、时变的、非易失的
使用更新驱动而非查询驱动方法
操作数据库与数据仓库分离，OLTP和OLAP分离
OLAP系统面向市场（而非面向顾客），管理大量历史数据（而非当前数据），采用星形或雪花模型和面向主题的数据库设计（而非ER模型和面向应用的数据库设计），常常跨越数据库模式的多个版本，存放在多个存储介质上，大部分是只读操作
三层体系结构：底层是仓库数据库服务器，中间层是OLAP服务器，顶层是前端客户层
数据仓库模型：企业仓库，数据集市和虚拟仓库
数据提取、变换和装入
元数据库：关于数据的数据，应当持久存放和管理（即存放在磁盘上）

数据立方体与OLAP

数据立方体由维和事实定义，是n维的
数据立方体称作方体。给定维的集合，可以对给定诸维的每个子集产生一个方体，结果形成方体的格，称作数据立方体。存放最低层汇总的方体称作基本方体，最高层汇总的方体称作顶点方体。
多维数据模型
- 星形模式：一个事实表+一组维表
- 雪花模式：在星形模式的基础上将某些维表规范化
- 星系模式/事实星座：多个事实表共享维表
- 数据仓库通常使用事实星座模式，数据集市流行采用星形或雪花模式
概念分层
- 模式分层：形成数据库模式中属性的全序或偏序的概念分层
- 集合分组分层：将给定维或属性的值离散化或分组
度量的分类和计算
- 数据立方体度量是一个数值函数，可以对数据立方体空间的每个点求值，通过对给定点的各维-值对聚集数据，计算该点的度量值
- 度量分类：分布的（可以划分计算，eg：sum、count、min）、代数的（可以由多个划分计算的结果得到，eg：avg、min_N)、整体的（描述子聚集所需的存储没有常数界，eg：median、mode、rank）
典型的OLAP操作
- 上卷（roll-up）/上钻（drill-up）：通过沿一个维的概念分层向上攀升，泛化
- 下钻（drill-down）：通过沿一个维的概念分层向下或引入附加的维，特殊化
- 切片（slice）：在一个维进行选择
- 切块（dice）：在两个或多个维进行选择
- 转轴（pivot）/旋转（rotate）：转动数据视角
- 钻过（drill-across）：执行涉及多个事实表的查询
- 钻透（drill-through）：使用关系SQL机制钻透到后端关系表
星网模型：由从中心点发出的射线组成，其中每一条射线代表一个维的概念分层，概念分层上的每个”抽象级“称为一个足迹，代表 OLAP操作可用的粒度

数据仓库的设计与使用

商务分析框架：自顶向下视图、数据源视图、数据仓库视图、商务查询视图
开发方法：瀑布式方法、螺旋式方法
数据仓库应用：信息处理、分析处理、数据挖掘
多维数据挖掘/探索式多维数据挖掘/联机分析挖掘/OLAM

数据仓库的实现

compute cube：在操作指定的维的所有子集上计算聚集
维灾难：n维方体总数=$\prod_{i=1}^n(L_i+1)$
不物化、完全物化、部分物化
冰山立方体：只存放聚集值大于某个最小支持度阈值的立方体单元
外壳立方体
位图索引，连接索引，复合连接索引，位图连接索引
关系OLAP（ROLAP）服务器：伸缩性好，映射到关系操作；多维OLAP（MOLAP）服务器：适用稠密子立方体，映射到数组结构；混合OLAP（HOLAP）服务器；特殊的SQL服务器

数据泛化：面向属性的归纳

属性删除：某个属性有大量不同值但没有泛化操作符，或较高层概念用其他属性表示
属性泛化：某个属性有大量不同值且存在泛化操作符
属性泛化控制：属性泛化阈值控制、广义关系阈值控制
面向属性归纳：关系查询-收集初始关系上的统计量-导出主关系P
类比较：数据收集-维相关分析-同步泛化-导出比较的表示

第五章数据立方体技术

基本概念

基本方体的单元是基本单元，非基本方体的单元是聚集单元
祖先和后代单元，父母和子女单元
闭覆盖：一个单元c是闭单元，如果不存在后代d与c有相同的度量值；闭立方体是只由闭单元组成的数据立方体
立方体外壳，外壳片段
优化技术：散列、排序、分组、同时聚集和缓存中间结果、由最小的子女聚集、先验剪枝

数据立方体计算方法

多路数组聚集（MultiWay）：扫描顺序决定保持二维平面在块内存中的最小内存需求量；适合维的基数乘积适中且数据不是太稀疏的情况，但是不能先验剪枝
BUC：自顶向下，容易受维的次序和倾斜数据的影响，理想情况下应先处理最有区分能力的维，应当以维的基数减序处理
Star-Cubing
- 共享维剪枝
- 方体树，星树
- 计算完全立方体，稠密时接近MultiWay，比BUC快；稀疏时比MultiWay快很多，大部分情况下比BUC快
- 计算冰山立方体，比BUC快
计算外壳片段：倒排索引，Frag-Shells
点查询，子立方体查询

高级查询

抽样立方体
- 置信区间$\bar x ±t_c\sigma_{\bar x}$，$t_c$与置信水平相关，$\sigma_{\bar x}=\frac{s}{\sqrt l}$是均值的估计标准误差，自由度为$l-1$，$l$为样本数
- 提升小样本置信度：方体内查询扩展、方体间查询扩展
排序立方体

多维数据分析

预测立方体
多特征立方体：多粒度上多个依赖的聚集的复杂查询
基于异常的、发现驱动的立方体空间探查
- SelfExp，InExp，PathExp
- 给定单元的值和它的期望值之间的差称为残差，残差越大越异常，要对残差定标

第六章挖掘频繁模式、关联和相关性：基本概念和方法

基本概念

频繁模式：频繁出现在数据集中的模式，如频繁项集、频繁序列模式
有趣的关联规则：满足最小支持度阈值和最小置信度阈值
支持度support(A->B)=P(A$\cup$B)
置信度confidence(A->B)=P(B|A)=support(A$\cup$B)/support(A)
闭频繁项集：不存在频繁项集X的真超集Y，使得Y与X在D中支持度相同
极大频繁项集：不存在频繁项集X的超集Y，使得Y在D中是频繁的

频繁项集挖掘方法

Apriori（先验）算法
- 先验性质，属于反单调性
- 连接步，剪枝步
- 由频繁项集枚举子集，产生关联规则
- 优化方法：散列技术、事务压缩、划分、抽样、动态项集计数
FP-growth（频繁模式增长）算法
- 导出频繁项的集合，构造FP树
- 从表后端的后缀模式开始构造条件模式基
使用垂直数据格式挖掘频繁项集
- 不需要扫描数据库来确定k+1项集的支持度
- 差集技术：数据集稠密和包含长模式时，可以显著降低总开销
挖掘闭模式和极大模式
- 项合并
- 子项集剪枝
- 项跳过

模式评估方法

提升度：$lift(A,B)=\frac{P(A\cup B)}{P(A)P(B)}=\frac{P(B|A)}{P(B)}=\frac{conf(A->B)}{sup(B)}$，小于1为负相关，大于1为正相关，等于1为独立
全置信度：min{P(A|B),P(B|A)}
最大置信度：max{P(A|B),P(B|A)}
Kulczynski（Kulc）度量：0.5(P(A|B)+P(B|A))
余弦度量：$\sqrt{P(A|B)+P(B|A)}$
不平衡比：$IR(A,B)=\frac{|sup(A)-sup(B)|}{sup(A)+sup(B)-sup(A\cup B)}$
全置信度、最大置信度、Kulc和余弦是零不变的，推荐Kulc和IR配合使用

第七章高级模式挖掘

多层、多维空间中的模式挖掘

挖掘多层关联规则
检查多层关联规则的冗余性：根据规则的祖先，它的支持度和置信度都接近于期望值
挖掘多维关联规则
挖掘量化关联规则
挖掘稀有模式和负模式
- 稀有模式支持度远低于用户指定的最小支持度阈值
- 负相关：X和Y都是频繁的，但很少一起出现
- 直接用sup定义的强负相关并不是零不变的
- 零不变的强负相关定义：Kulc度量小于负模式阈值

基于约束的频繁模式挖掘

用模式剪枝约束对模式空间剪枝
- 反单调的
- 单调的
- 简洁的
- 可转变的
- 不可转变的
用数据剪枝约束对数据空间剪枝
- 数据简洁
- 数据反单调

挖掘高维数据和巨型模式

通过模式融合挖掘巨型模式
- 核模式（核后代）、核比率
- 鲁棒
- 模式距离
- 池初始化-迭代的模式融合

挖掘压缩或近似模式

通过模式聚类挖掘压缩模式：模式距离
提取感知冗余的top-k模式
- 显著性度量S
- S(p,q)联合显著性，S(p|q)=S(p,q)-S(q)相对显著性
- 冗余性R(p,q)=S(p)+S(q)-S(p,q)，所以S(p|q)=S(p)-R(p,q)
- 可以用模式间的距离近似冗余度

模式探索与应用

频繁模式的语义注解：互信息
模式挖掘的应用

第八章分类：基本概念

决策树归纳

属性选择度量
- 信息增益：信息需求$Info(D)=-\sum_{i=1}^mp_ilog_2(p_i)$，$p_i$用$|C_{i,D}|/|D|$估计；$Info_A(D)=\sum_{j=1}^v\frac{|D_j|}{D}*Info(D_j)$，$Info_A(D)$越小，分区纯度越高；信息增益$Gain(A)=Info(D)-Info_A(D)$
- 增益率：分裂信息$SplitInfo_A(D)=-\sum_{j=1}^v\frac{|D_j|}{D}*log_2(\frac{|D_j|}{|D|})$，增益率$GRianRate(A)=\frac{Gain(A)}{SplitInfo_A(D)}$
- 基尼系数：$Gini(D)=1-\sum_{i=1}^mp_i^2$度量数据分区或训练元组集D的不纯度；考虑二元划分裂时，计算每个结果分区不纯度加权和；对连续值属性，最大化不纯度降低
- 基于最小描述长度原理的属性
树剪枝：先剪枝，后剪枝（代价复杂度剪枝算法，应用剪枝集）
可伸缩性与决策树归纳：雨林（在每个结点维护每个属性的AVC-集），树构造的自助乐观算法（BOAT）
决策树归纳的可视化挖掘：基于感知的分类（PBC）

贝叶斯分类方法

贝叶斯定理
- 后验概率P(H|X)
- P(H|X)=P(X|H)P(H)/P(X)
朴素贝叶斯分类
- 预测X属于在X条件下有最高后验概率的类
- 等价于最大化P(X|Ci)P(Ci)
- 若P(Ci)未知则假定等概率，否则用Ci/D估计
- 类条件独立的朴素假定：P(X|Ci)=P(x1|Ci)P(x2|Ci)……P(xn|Ci)
- 连续值属性的概率用高斯分布定义
- 拉普拉斯校准/拉普拉斯估计法

基于规则的分类

规则：规则前件/前提IF，规则结论THEN
覆盖率$coverage(R)=n_{covers}/|D|$
准确率$accuracy(R)=n_{correct}/n_{covers}$
规模序：优先最苛刻的规则，即前件规模最大、激活具有最多属性测试的被触发的规则
规则序：预定规则的优先次序
由决策树提取规则：规则是互斥的和穷举的
使用顺序覆盖算法的规则归纳
- 贪心的深度优先策略
- 用于规则学习的称为正元组pos，其余称为负元组neg
- 信息增益$FOIL-Gain=pos’*(log_2\frac{pos’}{pos’+neg’}-log_2\frac{pos}{pos+neg})$；似然率统计量$Likelihood-Ratio=2\sum_{i=1}^mf_ilog(\frac{f_i}{e_i})$，似然率越高正确预测数与随机猜测差越显著
- 规则剪枝$FOIL-Prune(R)=\frac{pos-neg}{pos+neg}$

模型评估与选择

混淆矩阵——真阳性：TP；真阴性：TN；假阳性：FP；假阴性：FN
准确率/总体识别率：$accuracy=\frac{TP+TN}{P+N}$
错误率：1-accuracy
灵敏性/召回率：$sensitivity=\frac{TP}{P}=\frac{TP}{TP+FN}=recall$
特效性：$specificity=\frac{TN}{N}$
精度：$precision=\frac{TP}{TP+FP}$
$F_x$分数：$F_x=\frac{(1+x^2)precisionrecall}{x^2*precision+recall}$，x为1时称为F度量/F分数
保持方法和随机二次抽样
交叉验证
- k-折交叉验证：初始数据随机划分成k个互不相交的子集D，训练和检验进行k次，每次留下一个D检验
- 留一：每次只给检验集留出一个样本
- 分层交叉验证
- 建议用分层10-折交叉验证估计准确率
自助法：有放回，.632，$Acc(M)=\sum_{i=1}^k(0.632Acc(M_i)_{test-set}+0.368Acc(M_i)train-set)$
统计显著性：t-test，显著水平sig，置信界z=sig/2
- $t=\frac{\bar {err}(M_1)-\bar {err}(M_2)}{\sqrt{var(M_1-M_2)/k}}$，var为模型差的方差，若有两个检验集，方差估计为$\sqrt{var(M_1)/k_1+var(M_2)/k_2}$
成本效益
ROC曲线
- 真正例率TPR=TP/P
- 假正例率TFR=FP/N
- 概率从高到低排序，真正例TP增加，假正例FP增加
- 用当前混淆矩阵计算(FPR,TPR)并将点绘在图中
- ROC曲线越接近随机猜测，模型准确率越低

提高分类准确率的技术

组合分类方法
装袋：有放回抽样，多数表决
提升和AdaBoost：给不正确分类的元组加权，不同分类器的表决权重也取决于错误率
随机森林
提高类不平衡数据的分类准确率：过抽样、欠抽样、阈值移动、组合技术

第九章分类：高级方法

贝叶斯信念网络

计算梯度
沿梯度方向前进一小步
重新规格化权重

用后向传播分类

多层前馈神经网络
后向传播：初始化权重，向前传播输入，向后传播误差
可增强可解释性

支持向量机

对线性和非线性数据进行分类
SVM搜索最大边缘超平面（MMH）
支持向量：最难分类的元组，给出最多支持信息

使用频繁模式分类

惰性学习法（近邻学习）

距离最近的k个中取最多
训练元组趋于无穷，k=1，错误率不超过贝叶斯错误率的2倍；k趋于无穷，错误率趋向于贝叶斯错误率
基于案例的推理

其他分类方法

遗传算法
粗糙集算法
模糊集算法
多类分类
半监督分类
主动学习
迁移学习

第十章聚类分析：基本概念和方法

划分方法：k-均值，k-中心点
层次方法
基于密度的方法
基于网格的方法
簇的形心、半径、直径
聚类评估

数据挖掘

孙若诗

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

计算机图形学笔记上一篇

计网笔记下一篇

数据挖掘笔记

数据挖掘笔记

习题课

第一章 引论

挖掘的对象

数据挖掘功能

第二章 认识数据

属性

数据的基本统计描述

数据可视化

度量数据的差异性和相似性

第三章 数据预处理

概述

数据清理

数据集成

数据归约

数据变换与数据离散化

第四章 数据仓库与联机分析处理

基本概念

数据立方体与OLAP

数据仓库的设计与使用

数据仓库的实现

数据泛化：面向属性的归纳

第五章 数据立方体技术

基本概念

数据立方体计算方法

高级查询

多维数据分析

第六章 挖掘频繁模式、关联和相关性：基本概念和方法

基本概念

频繁项集挖掘方法

模式评估方法

第七章 高级模式挖掘

多层、多维空间中的模式挖掘

基于约束的频繁模式挖掘

挖掘高维数据和巨型模式

挖掘压缩或近似模式

模式探索与应用

第八章 分类：基本概念

决策树归纳

贝叶斯分类方法

基于规则的分类

模型评估与选择

提高分类准确率的技术

第九章 分类：高级方法

贝叶斯信念网络

用后向传播分类

支持向量机

使用频繁模式分类

惰性学习法（近邻学习）

其他分类方法

第十章 聚类分析：基本概念和方法

第一章引论

第二章认识数据

第三章数据预处理

第四章数据仓库与联机分析处理

第五章数据立方体技术

第六章挖掘频繁模式、关联和相关性：基本概念和方法

第七章高级模式挖掘

第八章分类：基本概念

第九章分类：高级方法

第十章聚类分析：基本概念和方法