一、工作坊介绍

为推动我国经济、统计等社会科学量化研究方法学习与应用，培养和训练社会科学相关领域的青年学者、硕博士研究生，促进社会科学相关领域研究方法科学化规范化，“结构模型、Stata实证前沿、Python数据挖掘”暑假工作坊为广大学者提供了一个高水平学术交流、研究方法普及与研究经验分享的平台。工作坊采用模块式教学方法，不仅侧重经济、统计等社会科学量化基本方法的介绍，而且更加注重研究设计与研究选题训练，注重理论实践相结合，培养学员社会科学量化分析研究的综合能力。

结构模型又称为结构计量模型，是将经济学模型和统计模型结合，用于估计描述现实的深层参数，模拟现实世界，以便合理地评估政策效果的实证工具。结构模型通过建立引起因果关系的数据生成具体方式（机制）的模型来解决简化型中的问题。模型中明确地指明了一些重要的外部因素（如政策）是如何影响通过某些参数来影响参与人决策的，那么通过改变这些外部因素并结合现有数据所估计出来的参数，结构模型便可以提供一系列反事实推断，对政策的制定有重要的意义。政策评估需要建立在理解对政策不变的“深层”参数之上。在结构式方法中，理论和实证的联系是紧密的。由于其建模技术的优雅和深刻，不仅是当今经济政策评估领域的前沿，也是发展经济理论的有力武器，在世界顶级期刊中，采用结构模型建模的文章引起广泛关注和引用，为所在学科的理论发展和政策评估带来深刻影响。

实证研究过程中学者普遍面临数据获取、清洗和编码的两大问题。在前大数据时代，一般使用实验法、调查问卷、访谈或者二手数据等方式，将数据整理为结构化的表格数据，之后再使用计量分析方法，对这些表格数据进行分析。但大数据时代，网络数据成为各方学者亟待挖掘的潜在宝藏，大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言，通过Python可以帮助学者解决使用Web数据进行科研面临的两大问题，即：1. 从网络世界中高效地采集数据、2. 从纷杂的文本数据抽取文本信息。

在获取数据及文本信息后，需要使用计量方法对数据进行分析处理。Stata软件功能日益强大，理论也与时俱进**。**前沿分析固然可能会给你的Paper加分，但不理解其理论依据，会导致前沿方法的滥用, 使你的研究大为失色！

为此，本工作坊邀请五位走在计量前沿和爬虫文本分析的学者，可谓是强强联手的重磅组合，为青年教师、研究生们集中讲解前沿模型的基本**、基于Matlab和Python实操估计。在21世纪的第3个十年来临之际，我们与致力于科学探索的您，分享最前沿的知识与技巧！我们努力给您带来最前沿计量理论与扎实操作基础并重的高质量课程！

二、工作坊概览

2.1 时间安排

点击下方安排，可直接查看各位老师课程内容信息

2.2 授课方式：

小鹅通平台(线上直播）
每天6小时（8:30 — 11:30；14:00 — 17:00）+ 30分钟答疑

2.3 工作坊团队：

王非（**人民大学）
司继春（上海对外经贸大学）
王子（上海财经大学）
邓建鹏（上海财经大学）
邓旭东（哈尔滨工业大学）
刘**（课程总策划）
谢杰（课程总协调）

2.4 报名费用：

Stata（王非老师）：2000元；回放10天
Stata（司继春老师）：2000元；回放10天
结构模型（王子老师+邓建鹏老师）：3000元；回放10天
Python（邓旭东老师）：2000元；回放10天

三、授课内容

王非：

数据清洗与描述
工具变量
断点回归
合成控制及最新实证方法补充

司继春：

线性回归与Stata基础
线性面板数据模型
双重差分模型及新进展
面板二元选择模型

王子：

结构模型的意义和理论基础
结构模型的具体实施步骤，以Eaton and Kortum (2002)为例
结构估计和反事实分析中使用的数值计算方法（算法和Matlab编程）
量化政策分析的具体实施过程，Caliendo and Parro (2015)（算法和Matlab编程）

邓建鹏：

Eaton Kortum and Kramarz (2011)：一个简单的文献综述
如何看数据：从引力模型到企业层面数据（Stata绘图）
“搭积木玩乐高”：EKK模型详解
Structural Estimation and Simulated Method of Moments (算法和Matlab编程)
反事实分析(算法和Matlab编程)

邓旭东：

Python语法入门
网络数据采集，网络用户行为数据采集，可自动下载文本、图片、视频、pdf等文件
文本分析，如词频统计、情感分析、信息抽取
机器学习，如LDA话题模型、文本分类等

四、讲师简介

王子：美国宾夕法尼亚州立大学经济学博士，上海财经大学商学院助理教授。研究领域为国际贸易、跨国企业和**经济，在Journal of International Economics、Journal of International Money and Finance、World Economy等刊物发表多篇论文。曾应邀在多所高校讲授“结构方程模型方法和应用”前沿课程，广受好评。

邓建鹏：美国宾夕法尼亚州立大学经济学博士，上海财经大学商学院助理教授。主要研究领域为国际贸易、经济增长和经济地理。曾在多所高校分享结构模型方法在国际贸易中的应用，反响热烈。

王非：美国南加州大学经济学博士，**人民大学劳动人事学院副教授，“杰出学者”青年学者，人大国家发展与战略研究院研究员，全球劳动组织（GLO）会员，**就业研究所研究员。主持国家自然科学基金青年科学基金项目。主要研究领域为劳动经济学、人口经济学、主观福祉等，在 PNAS, Journal of Happiness Studies, Journal of Population Economics，China Economic Review，《人口研究》等国内外权威期刊上发表多篇论文。曾多次讲授微观实证研究方法，广受好评，《Stata简明讲义》作者。

司继春（慧航）：上海对外经贸大学统计与信息学院助理教授，主要研究领域为微观计量经济学、产业组织理论。在 Journal of Business and Economic Statistics、《财经研究》等学术刊物上发表多篇论文。其实，大家更熟悉的是知乎上大名鼎鼎的[慧航]，拥有 294,929 个关注者，获得过 151,655 次赞同，他就是司继春老师 —— [慧航]。

邓旭东：哈尔滨工业大学在读博士，曾在多所大学分享Python，运营【公众号：大邓和他的Python】擅长Python、网络爬虫、文本分析、机器学习等内容。

五、stata（王非）

5.1 数据清洗与描述（7.15 am ）

公式化数据清洗，使纷繁庞杂的数据处理变得异常清晰
经验研究的拨乱反正：数据描述不只是一张表
常用数据清洗与描述的实战演示

5.2 工具变量（7.15 pm ）

工具变量经典方法与步骤系统化梳理
寻找工具变量的具体方法
应对弱工具变量的具体流程
二元内生自变量及非线性模型中工具变量的应用方法
工具变量经典论文的结果复制

5.3 断点回归（7.16 am ）

断点回归经典设计思路与实践步骤系统化梳理
断点回归发展前沿及实际应用
断点回归最新前沿论文的结果复制

5.4 合成控制及最新实证方法补充（7.16 pm ）

合成控制经典步骤及最新发展的系统化梳理
合成控制最新前沿论文的结果复制
置换检验在合成控制等方法中的应用及误用
因果识别方法最新发展的补充介绍

六、Stata（司继春）

6.1 线性回归与Stata基础（7.17 am）

线性回归模型基础
系数的解释与模型设定：平方项、交叉项的解读与使用
系数的解释与模型设定：加权最小二乘以及权重的使用
线性回归中固定效应的使用
控制变量的选择
统计推断：异方差稳健标准误与聚类标准误
跨方程假设检验

6.2 线性面板数据模型（7.17 pm ）

面板数据的基本设定
随机效应模型与混合最小二乘
一阶差分模型与固定效应模型
不同估计量之间的关系和选择
线性面板数据中的时间固定效应与时间趋势
交互固定效应模型

6.3 双重差分模型及其新进展（7.18 am ）

双重差分模型的基本设定及共同趋势假设
双重差分模型的标准设定
多期的双重差分模型设定
平行趋势检验的方法
三重差分模型、回归控制法简介
模糊双重差分模型（Fuzzy DID）
带有异质性的动态处理效应的估计（Sun、Abraham, 2020; Callaway、San’t Anna，2020）

6.4 面板二元选择模型（7.18 pm ）

基本的Probit、Logit回归简介
二元选择模型中系数的解释和汇报
随机效应Probit、Logit回归
固定效应Probit、Logit回归

七、结构模型

7.1 结构模型方法论与理论建模、模型求解与估计、量化政策分析

7月19日

王子

结构模型的意义和理论基础
结构模型的具体实施步骤，以Eaton and Kortum (2002)为例
结构估计和反事实分析使用的数值计算方法（算法和Matlab编程）
量化政策分析的具体实施过程，以Caliendo and Parro (2015)为例（算法和Matlab编程）

7.2 结构模型在国际贸易中的应用：从微观数据到宏观分析（7.20-7.21 ）

7月19日-7月20日

邓建鹏

为什么选择Eaton Kortum and Kramarz (2011)：一个简略的文献综述
如何看数据：从引力模型到企业层面数据（Stata绘图）
“搭积木玩乐高”：EKK模型详解
结构估计和模拟矩方法/Structural Estimation and Simulated Method of Moments (算法和Matlab编程)
反事实分析(算法和Matlab编程)

八、Python（邓旭东）

8.1 Python语法入门（7.22 am）

Python跟英语一样是一门语言
数据类型之字符串
数据类型之列表元组集合
数据类型之字典
数据类型之布尔值、None
逻辑语句(if&for&tryexcept)
列表推导式
理解函数
常用的内置函数
os路径库
内置库csv文件库
常见错误汇总

8.2 数据采集（7.22 pm ）

网络爬虫原理
网络访问requests库
pyquery库解析html网页
案例 1：豆瓣小说
json库解析json网页
案例 2：知乎
案例 3：微博
案例 4：批量下载文档、多媒体文件
案例 5：上市公司定期报告pdf批量下载
案例 6：api数据采集
区分动态网站与静态网站

8.3 初识文本分析（7.23 am ）

文本分析在经管领域中的应用
读取文件中的数据(txt、pdf、docx、xlsx、csv）
数据清洗re库-从文本中抽取姓名、年龄、电话、数字等各种信息
案例 7：如何将多个文件中的数据整理到一个excel中
中文jieba分词
案例 8：词频统计、制作词云图
案例 9：共现法扩展情感词典
案例 10：词向量word2vec扩展情感词典
案例 11：中文情感分析(无权重词典法)
数据分析pandas库快速入门
案例 12：使用pandas对excel中的文本进行情感分析
案例 13：使用tf-idf进行情感分析（有权重词典法）
案例 14：从文本数据中构造可用的社交网络数据
案例 15：对社交网络数据进行可视化

8.4 机器学习与文本分析（7.23 pm ）

了解机器学习
使用机器学习做文本分析的流程
Scikit-learn机器学习库简介
文本特征工程-将文本转化为机器可处理的数字向量
认识词袋法、one-hot、Tf-Idf、word2vec
案例 16：使用标注工具对文本数据进行标注
案例 17：在线评论文本分类
文本相似性计算
案例 18：使用文本相似性识别变化(政策连续性)
案例 19：Kmeans聚类算法
案例 20：LDA话题模型
案例 21: 识别图片中的文本
Python爬虫、文本分析、机器学习等技术在论文中的应用赏析

九、报名信息

9.1 参加对象

全国高等院校及研究机构从事经济科学研究的青年师生。尤其适合那些希望掌握高级实证方法，提升量化研究设计能力和国家课题申报能力的研究者。

9.2 报名时间

从即日起

9.3 缴费信息

9.4 报名咨询

13967800957（同微信）（陈老师）

欢迎咨询！

hiDaDeng / 2021-summer-workshop