1 朴素数据观的核心: 问题
1.1 到底想做什么?
回归朴素的观念
数据分析的核心就是一个朴素的问题, 先确定一个朴素的核心的问题. 一定要确定想做什么问题, 这是思维的核心, 涵养的体现.
1.1.1 优化是个本质的问题
什么是‘资源’, 我们认为的资源不是资源, 客户认为的资源也不是资源。
- 敏感性分析
- 主成分分析
- 回归分析(核心是确定什么是Y, 什么是X): 预判谁会不会犯罪,从而重心关注在犯罪人升上。 打分
客流量
1.2 这个问题的本质是什么?
回归定义, 回归数学本质
1.2.1 回归问题
模型
1.2.2 优化问题
策略和算法
2 朴素数据观的艺术: 数据
2.1 数据的本质
传统定义的数据, 广义的数据
2.2 数据的变换
- 时空错位
- 数学变换!!!!!!!!!
- 归一化
- 特征工程:特征提取,白化
- 卷积
- 函数变换***********
- 数据网络化!!!!!!!!
2.2.1 网络结构
结点数据:
边数据:
拓扑结构数据:
2.2.2 网络特性
- 稀疏性
- 传递性
- 互粉性
- 幂律分布性
2.3 数据的清洗和整理
2.4 数据的采样
3 常用的数据处理办法
3.1 回归分析(确定Y=f(X))
变量有四种类型:连续、离散变量、水平(0-1, 定序)、分布
函数f的类型: 线性、非线性; 低维、高维;
线性回归: Y连续,X连续
方差分析: X水平
逻辑回归: Y水平(0,1)
定序回归: Y水平
泊松回归: Y离散变量泊松分布
回归分析基本步骤
- 确定Y 和 X最最最最最最重要
- 建模训练模型
集中体现在机器学习中的算法与策略 - 假设检验
- 模型选择/模型诊断/敏感性分析
- 逻辑回归的回归诊断
3.2 特征选取/模型选择/敏感性分析
3.2.1 敏感性分析
3.2.2 特征选取
3.2.3 模型选择
- AIC
- BIC
- LASSO+CAD
集成算法
3.2.4 模型诊断
可识别性
- VIF
- Cook 距离
- 残差图: 均值异常
残差图: 方差异常
残差图: 样本异常
3.3 时间序列分析
3.4 生存分析问题
3.4.1 什么是生存数据
与时间相关的事件
有年龄结构的数据(出生、死亡): 自然年龄, 感染年龄, 工作年龄, 合作年龄, 疾病高峰年龄等等,
左右删失数据
(Yi,Ci,Zi)
Yi观察的死亡时间
Ci生存状态,是否删失
Zi真实死亡时间
3.4.2 什么是生存函数
生存函数
3.4.3 加速失效模型(对数回归)
威布尔分布
3.4.4 Cox等比例模型
风险、死亡率
基准风险函数
部分极大似然估计