2019年Stata中国用户大会

2019 Stata 夏季训练营

机器学习及Stata、R应用研讨会
Stata空间计量与机器学习研讨会

2019年8月17-19日机器学习及Stata、R应用研讨会-陈强 >>

分别于1992年与1995年获得北京大学经济学学士与硕士学位，2007年获美国Northern Illinois University数学硕士与经济学博士学位，现任山东大学经济学院教授，数量经济学博士生导师。主要研究领域为计量经济学、经济史。著有畅销研究生教材《高级计量经济学及Stata应用》（第2版，高教社，2014）与本科教材《计量经济学及Stata应用》（高教社，2015）。2010年入选教育部新世纪优秀人才支持计划。

主讲老师：陈强

上午：09:00-12:00

下午：14:00-17:00

培训费用：3600元（食宿差旅自理）

培训地点：上海财经大学

课程概要
近年来人工智能迅速进入大众视野，并在全球范围内迎来了行业的快速发育期。机器学习作为人工智能的组成部分，无疑是人工智能科学研究和应用领域的重要驱动力，将带来一系列传统决策机制的根本性变革，势必推动社会科学研究范式的重大转型。机器学习最基本的做法，是使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。本课程主要介绍机器学习的基本思想与算法，并结合具体案例，介绍Stata和R语言实践操作。全程采用Stata16最新版本演示。

第一天

第一讲

机器学习引论

(1) 什么是机器学习
(2) 机器学习的分类与术语
(3) 案例：垃圾邮件过滤；手写体数字识别；图像识别；自动驾驶

第二讲

惩罚回归

(1) OLS
(2) Ridge Regression
(3) Lasso
(4) Elastic Net
(5) 交叉验证 (Cross-validation)
(6) Post Double Lasso and IV Lasso
(7) Stata案例

第三讲

线性分类

(1) Logit
(2) 多项Logit
(3) 贝叶斯决策理论
(4) 线性判别分析
(5) 二次判别分析
(6) ROC/AUC
(7) Stata案例

第四讲

R语言快速入门

(1) Why R？
(2) 安装R与RStudio
(3) R的对象(vector, matrix, data frame, list)
(4) 面向对象的函数式语言
(5) R语言画图

课程答疑

第二天

第五讲

朴素贝叶斯

(1) 朴素贝叶斯
(2) 拉普拉斯修正
(3) R案例

第六讲

K近邻法

(1) KNN for Regression
(2) KNN for Classification
(3) 偏差与方差的权衡
(4) 维度灾难
(5) R案例

第七讲

决策树（Decision Tree）

(1) 分类树
(2) 分裂准则(错分率、基尼指数、信息熵)
(3) 修枝与交叉验证
(4) 回归树
(5) R案例

第八讲

装袋法与随机森林

(1) 集成学习(Ensemble Learning)
(2) 装袋法(Bagging)
(3) 随机森林(Random Forest)
(4) 变量重要性(Variable Importance)
(5) 偏依赖图(Partial Dependence Plot)
(6) R案例

课程答疑

第三天

第九讲

提升法

(1) 自适应提升法 (AdaBoost)
(2) AdaBoost的统计解释
(3) 梯度提升法 (Gradient Boosting Machine)
(4) R案例

第十讲

支持向量机

(1) Maximal Margin Classifier
(2) Soft Margin
(3) Support Vector Machine
(4) Kernel Trick
(5) R案例

第十一讲

人工神经网络

(1) 前馈神经网络
(2) 反向传播算法(Back-propagation Algorithm)
(3) 随机梯度下降(Stochastic Gradient Descent)
(4) 神经网络的过拟合
(5) 深度学习的发展
(6) R案例

第十二讲

机器学习在经济学的应用

精读几篇在经济学顶刊发表的经典机器学习论文

课程答疑

2019年8月22-24日空间计量与机器学习研讨会-王群勇>>

经济学博士，南开大学经济学院数量经济研究所教授，博士生导师，天津社会科学院兼职研究员，天津市数量经济学会秘书长。著有STATA系列丛书，其中已出版《STATA使用指南与应用案例》和《STATA在统计与计量分析中的应用》，该书在STATA教学中得到广泛好评。

主讲老师：王群勇

上午：09:00-12:00

下午：14:00-17:00

培训费用：3600元（食宿差旅自理）

培训地点：上海财经大学

课程概要
本课程全程采用Stata16最新版本演示, 将为参会者更好的理解面板数据的计量经济分析，以正确使用现代微观计量经济学方法进行政策评估和因果反事实建模。使学员能够在可观察和不可观察的选择下建立和管理正确的评估设计：确定政策框架，收集和管理合适的数据集，使用适当的计量经济学方法解释结果。传统计量经济学通常忽略横截面单位的空间分布与相互影响，而空间计量经济学（Spatial Econometrics）则是考察空间效应、溢出效应等的重要工具。包括空间权重矩阵、空间自回归、空间误差模型与空间面板等。通过【机器学习】中再抽样方法、正则化方法、非参数方法和半参数方法等内容。关注正则化本身的问题，在面对实际问题时导致的结果有什么差异？

第一天：面板数据的计量经济分析

案例1：精英教育与阶层流动
案例2：控烟法对香烟销售的效应评估
案例3：政治资源诅咒

第一讲

面板数据

线性面板数据模型（固定效应、随机效应、相关的随机效应）
动态面板（差分GMM估计、系统GMM估计）
面板门限回归模型

第二讲

微观面板数据的整理

中国家庭跟踪调查数据（CFPS）
数据整理与清洗
数据合并
案例

课程答疑

第二天：内生性、样本选择与因果推断

案例1：公共交通与交通拥堵
案例2：移民对犯罪率的影响
案例3：最低工资对就业的政策评估
案例4：贷款市场的歧视

第三讲

因果推断

倾向得分法、匹配法
双重差分、合成控制法
断点回归设计

第四讲

内生性问题

内生转换模型
线性模型的内生性、样本选择与干预变量
受限因变量模型的内生性、样本选择与干预变量

课程答疑

第三天：空间计量与机器学习

案例1：军事支出的邻居效应
案例2：房价与犯罪率
案例3：税收对劳动力供给的影响
案例4：领导人与交流风格
案例5：罚金与酒驾

第五讲

空间计量经济模型

定义空间权数矩阵（相邻矩阵，距离矩阵，俱乐部形式，政治距离，经济距离等）
定义空间数据
空间分布图
空间计量模型（空间滞后模型，空间误差模型，SLX模型 , SAC模型, 空间Durbin模型, 空间Durbin误差模型）
空间效应的Moran检验
空间权数矩阵的选择
空间面板模型（固定效应和随机效应）

第六讲

机器学习

再抽样方法（交叉校正法、自举法）
正则化方法（领回归、弹性网回归、LASSO方法）
非参数方法和半参数方法（核回归、局部线性回归、样条函数）

课程答疑