本章首先介绍本课程是什么,有什么特色,能学习到什么,内容如何安排,需要什么基础,是否适合学习这门课程等。然后对数据分析进行概述,让大家对数据分析的含义和作用有一个整体的认知,让大家对自己接下来要做的事情,有一个基本的概念与了解。...1-1 课前必读(不看会错过一个亿)1-2 课程导学 (07:36)1-3 数据分析概述 (11:25)
第2章 数据获取数据从哪里来?怎么来?这一章,我们会介绍数据获取的一般手段。主要包括数据仓库、抓取、资料填写、日志、埋点、计算等手段。同时,我们也会介绍几个常用的数据网站,供大家参考与学习。2-1 数据仓库 (05:06)2-2 监测与抓取 (02:53)2-3 填写、埋点、日志、计算 (02:25)2-4 数据学习网站 (07:01)
第3章 单因子探索分析与数据可视化有了数据,如何上手?这一章,我们会介绍探索分析的一部分---单因子探索分析和可视化的内容。我们会以基础的统计理论知识为切入点,学习异常值分析、对比分析、结构分析、分布分析。同时,引入接下来几章都会用到的案例-HR人力资源分析表,并用理论与可视化的方法,完成对此表的初步分析。...3-1 数据案例介绍 (04:27)3-2 集中趋势,离中趋势 (05:58)3-3 数据分布--偏态与峰度 (03:54)3-4 抽样理论 (06:06)3-5 编码实现(基于python2.7) (12:51)3-6 数据分类 (02:37)3-7 异常值分析 (03:33)3-8 对比分析 (05:38)3-9 结构分析 (01:39)3-10 分布分析 (05:59)3-11 Satisfaction Level的分析 (09:32)3-12 LastEvaluation的分析 (07:39)3-13 NumberProject的分析 (03:42)3-14 AverageMonthlyHours的分析 (05:40)3-15 TimeSpendCompany的分析 (00:51)3-16 WorkAccident的分析 (00:49)3-17 Left的分析 (00:23)3-18 PromotionLast5Years的分析 (00:30)3-19 Salary的分析 (01:37)3-20 Department的分析 (01:16)3-21 简单对比分析操作 (07:08)3-22 可视化-柱状图 (15:42)3-23 可视化-直方图 (04:27)3-24 可视化-箱线图 (02:21)3-25 可视化-折线图 (02:21)3-26 可视化-饼图 (03:09)3-27 本章小结 (03:38)
第4章 多因子探索分析上了手,然后呢?这一章,我们介绍探索分析的另一部分---多因子复合探索分析。我们同样以基础的统计知识为切入点,学习多因子间互相影响与配合的分析方法,如交叉分析、分组分析、相关分析、成分分析等。同时,以HR人力资源分析表为例,进行进一步的探索。...4-1 假设检验 (08:05)4-2 卡方检验 (02:21)4-3 方差检验 (03:43)4-4 相关系数 (03:33)4-5 线性回归 (02:48)4-6 主成分分析 (05:20)4-7 编码实现 (19:21)4-8 交叉分析方法与实现 (13:48)4-9 分组分析方法与实现 (08:45)4-10 相关分析与实现 (22:42)4-11 因子分析与实现 (06:42)4-12 本章小结 (02:02)
第5章 预处理理论数据已了解,用起来!不着急,先加工。这一章,我们会介绍特征工程的主要内容,重点会介绍数据清洗和数据特征预处理的主要内容,包括数据清洗、特征获取、特征处理(内含对指化、归一化、标准化等)、特征降维、特征衍生。预处理的好坏,直接影响着接下来模型的效果。...5-1 特征工程概述 (09:59)5-2 数据样本采集 (02:42)5-3 异常值处理 (12:45)5-4 标注 (02:58)5-5 特征选择 (17:18)5-6 特征变换-对指化 (04:23)5-7 特征变换-离散化 (07:13)5-8 特征变换-归一化与标准化 (07:06)5-9 特征变换-数值化 (10:09)5-10 特征变换-正规化 (04:49)5-11 特征降维-LDA (11:32)5-12 特征衍生 (03:04)5-13 HR表的特征预处理-1 (15:29)5-14 HR表的特征预处理-2 (08:35)5-15 本章小结 (02:53)
第6章 挖掘建模把数据用起来!这一章,我们会介绍数据挖掘与建模的主要内容。主要包含五类模型的建立与实践,分别为:分类模型(KNN、朴素贝叶斯、决策树、SVM、集成方法、GBDT……),回归模型与回归思想分类(线性回归、逻辑斯特回归【也叫罗吉回归,逻辑回归。音译区别】、神经网络、回归树),聚类模型(K-means、DBSCAN、层次聚类、...6-1 机器学习与数据建模 (05:17)6-2 训练集、验证集、测试集 (07:02)6-3 分类-KNN (21:43)6-4 分类-朴素贝叶斯 (19:57)6-5 分类-决策树 (23:42)6-6 分类-支持向量机 (20:41)6-7 分类-集成-随机森林 (19:24)6-8 分类-集成-Adaboost (10:47)6-9 回归-线性回归 (23:36)6-10 回归-分类-逻辑回归 (11:12)6-11 回归-分类-人工神经网络-1 (16:26)6-12 回归-分类-人工神经网络-2 (15:47)6-13 回归-回归树与提升树 (09:59)6-14 聚类-Kmeans-1 (10:37)6-15 聚类-Kmeans-2 (10:54)6-16 聚类-DBSCAN (10:33)6-17 聚类-层次聚类 (04:40)6-18 聚类-图分裂 (03:54)6-19 关联-关联规则-1 (13:56)6-20 关联-关联规则-2 (13:39)6-21 半监督-标签传播算法 (17:18)6-22 本章小结 (05:50)
第7章 模型评估哪个模型好?上一章,我们学习了很多模型,一个数据集,可能用多种模型都可以进行建模,那么哪种模型好,就需要有些指标化的东西帮我们决策。这一章,我们会介绍使用混淆矩阵和相应的指标、ROC曲线与AUC值来评估分类模型;用MAE、MSE、R2来评估回归模型;用RMS、轮廓系数来评估聚类模型。...7-1 分类评估-混淆矩阵 (14:51)7-2 分类评估-ROC、AUC、提升图与KS图 (15:12)7-3 回归评估 (05:02)7-4 非监督评估 (07:49)
第8章 总结与展望这一章,我们将回顾本课程的全部内容,并从多个角度,重新看待我们的数据分析工作。最后,我们会了解到,学习了这门课程以后,还可以在哪些方面进行发展。8-1 课程回顾与多角度看数据分析 (05:22)8-2 大数据与学习这门课后还能干什么?.mp4 (07:12)