朴素数据观


1 朴素数据观的核心: 问题

1.1 到底想做什么?

回归朴素的观念

数据分析的核心就是一个朴素的问题, 先确定一个朴素的核心的问题. 一定要确定想做什么问题, 这是思维的核心, 涵养的体现.

1.1.1 优化是个本质的问题

什么是‘资源’, 我们认为的资源不是资源, 客户认为的资源也不是资源。

  1. 敏感性分析
  2. 主成分分析
  3. 回归分析(核心是确定什么是Y, 什么是X): 预判谁会不会犯罪,从而重心关注在犯罪人升上。 打分
    客流量

1.2 这个问题的本质是什么?

回归定义, 回归数学本质

1.2.1 回归问题

模型

1.2.2 优化问题

策略和算法

2 朴素数据观的艺术: 数据

2.1 数据的本质

传统定义的数据, 广义的数据

2.2 数据的变换

  1. 时空错位
  2. 数学变换!!!!!!!!!
    1. 归一化
    2. 特征工程:特征提取,白化
    3. 卷积
    4. 函数变换***********
  3. 数据网络化!!!!!!!!

2.2.1 网络结构

结点数据:

边数据:

拓扑结构数据:

2.2.2 网络特性

  1. 稀疏性
  2. 传递性
  3. 互粉性
  4. 幂律分布性

2.3 数据的清洗和整理

2.4 数据的采样

3 常用的数据处理办法

3.1 回归分析(确定Y=f(X))

变量有四种类型:连续、离散变量、水平(0-1, 定序)、分布

函数f的类型: 线性、非线性; 低维、高维;

线性回归: Y连续,X连续
方差分析: X水平
逻辑回归: Y水平(0,1)
定序回归: Y水平
泊松回归: Y离散变量泊松分布

回归分析基本步骤

  1. 确定Y 和 X最最最最最最重要
  2. 建模训练模型
    集中体现在机器学习中的算法与策略
  3. 假设检验
  4. 模型选择/模型诊断/敏感性分析
  5. 逻辑回归的回归诊断

3.2 特征选取/模型选择/敏感性分析

3.2.1 敏感性分析

3.2.2 特征选取

3.2.3 模型选择

  1. AIC
  2. BIC
  3. LASSO+CAD

集成算法

3.2.4 模型诊断

可识别性

  1. VIF
  2. Cook 距离
  3. 残差图: 均值异常
    残差图: 方差异常
    残差图: 样本异常

3.3 时间序列分析

3.4 生存分析问题

3.4.1 什么是生存数据

与时间相关的事件

有年龄结构的数据(出生、死亡): 自然年龄, 感染年龄, 工作年龄, 合作年龄, 疾病高峰年龄等等,

左右删失数据

(Yi,Ci,Zi)
Yi观察的死亡时间
Ci生存状态,是否删失
Zi真实死亡时间

3.4.2 什么是生存函数

生存函数

3.4.3 加速失效模型(对数回归)

威布尔分布

3.4.4 Cox等比例模型

风险、死亡率
基准风险函数
部分极大似然估计


Author: Song Pengfei
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source Song Pengfei !
评论
  TOC