stata学习笔记-yhy-2023年3月26日
2023年3月26日20:00
沟通提纲:
01-文献阅读:目前前人做了哪些研究?主要发的什么级别的刊?发表时间?
X变量,Y变量都要考虑。 发表时间,实际做研究的时间要早2-3年。
02-工作论文有关注吗?
03-国外发了什么级别的期刊?时间?谁发的?
04-X的主要衡量方式? 数据的获得性如何? 为什么选择这种研究方式?
05-Y的衡量方式,同上。
06-目前我跑出的数据结果怎样?顺序 reg xtreg 。控制变量的选择 个体固定效应?
2023-3-26 20:19
回忆之前的数据回归结果。
2023年3月27日10:44
xi:reg什么意思 和reg的区别?
--对于面板数据,我们有多种估计方法,
混合OLS、固定效应(FE)、随机效应(RE)和最小二乘虚拟变量(LSDV)等等。
我们最为常用的估计方法那自然还是固定效应(组内估计),固定效应模型的Stata官方命令是xtreg,但它有时候其实并没有那么好用(如对数据格式有要求,运行速度慢等),
我们经常使用的固定效应估计命令还有reg、areg和reghdfe。
原贴:
reg,xi:reg,xtreg到底该用哪个啊 - Stata专版 - 经管之家(原人大经济论坛) (pinggu.org)
xtset stkcd year
xi:xtreg y x x1 x2 x3 i.year i.industry ,c luster(stkcd),
控制年份 控制行业 公司代码进行聚类处理
其中 xi是否有必要加?
xtreg还是直接reg
要进行公司聚类处理,这样写有没有问题?
回归的结果1%水平上显著,正负号和预期相同,但是R方很小,可取吗?
-----*
reg是混合ols回归
加个体虚拟变量后 完全等价于xtreg fe,
reg 和xtreg本质全都是ols
xtreg的组内差分法只是一种数学简化,本质从未改变
xtreg多用于面板回归
reg和xtreg都可以用于固定效应回归,但是代码有些不一样。
面板数据兼具了横截面数据和时间序列数据的特点,
有横截面维度(在同一时间段内有多个观测样本) 比如都在2009年 很多个公司!
有时间序列维度(同一样本在多个时间段内被观测到)比如茅台,2009-2023年都有数据!
encode diqu ,gen(region)
地区 这一字符串变量 转化为数值型变量 --- diqu 字符串 region数值型
xtest region year --region数值型
横截面为度变量为上步生成的region,时间序列变量为year --region数值型
xtdes #
该面板数据的横截面维度region为1~20共20个取值,
时间序列维度year为2008-2012共5个取值
xtsum #
xttab sale # "sale"变量
xttab cost
xtline sale # “sale”变量的时间序列图
reg profit sale cost #
以profit为因变量,以sale,cost为自变量,进行最小二乘回归分析。
可以得到最小二乘模型的回归方程是
都是显著 呈正向变化
reg profit sale cost,vce(cluster region) #
聚类处理----region 数值型的地区
并且使用以 region 为聚类变量的聚类稳健标准差,进行最小二乘回归分析。
得到的结果类似
sale变量系数的显著性有所下降
xtreg profit sale cost ,fe vce(cluster region) #
并以"region"为聚类变量的聚类文件标准差,进行固定效应回归分析。
备注:xtreg 的后面多了 fe
聚类:region的写法并没有改变
显著性P值为0.0007,模型是非常显著的。
模型组内R方是0.3637(within=0.3637)
说明单位内解释的变化比例是36.37%
模型组间R方是0.6619(between=0.6619),说明单位间解释的变化比例是66.19%。
模型总体R方是0.3697(overall=0.6397)说明总的解释变化比例是63.79%。
模型的解释能力还是可以接受的。
观察模型中各个变量系数的显著性P值,可以发现是比较显著的。
此外,图中最后一行,rho=0.97094045,
说明复合扰动项的方差主要来自个体效应而不是时间效应的变动,
(什么是复合扰动项的方差---yhy)
这一点在后面的分析中也可以得到验证。
xtreg profit sale cost ,fe #
是以profit为因变量,以sale、cost为自变量进行固定效应回归分析。
(什么是固定效应回归分析--)
相对于使用以region为聚类变量的聚类稳健标准差进行固定效应回归分析
变量系数显著性上有所提高。
顺序:01-不加region的聚类标准误 02-加聚类标准误
”(F test that all u_i=0 : F(19,78) Prob > F = 0.0000)”
显著拒绝了 所有各个样本 没有自己的截距项的原假设, 说明H0不成立
说明应该加 公司聚类进行回归分析
每个个体用于与众不同的截距项
也就是说固定效应模型在一定程度上优于普通最小二乘回归模型
estimates store fe #
存储固定效应回归分析的估计结果。
xi:xtreg profit sale cost
2023年3月27日11:09 ---暂停&午饭
2023年3月27日11:54---图书馆
cnopendata 查一下这个数据库
CnOpenData数据平台(中国开放数据)
现已上线46个专题数据库,涵盖专利数据(全国专利数据及世界专利引用被引用数据)、上市公司数据、新冠疫情数据、分地区数据、交通数据、气象数据等多个方面,数值型数据和文本型数据并存。
已于2022年10月10日开通CnOpenData试用!
我用的是学校的IP登录
本文摘自中国开放数据CnOpenData 中国工业企业基本信息扩展数据(精确匹配) https://www.cnopendata.com/data/m/industry_commerce/tic-basic/exact.html,
这份数据有经度、维度的数据-------
CnOpenData根据《中国语言地图集》1986版与2012版,归结整理了两个版本的各地区方言信息表及一个各地区少数民族方言信息表,除了省市县、方言细分级别,还增加识别了区县经纬度。为相关研究提供全面的数据资源
本文摘自中国开放数据CnOpenData 中国各地区方言信息数据 https://www.cnopendata.com/data/m/culture/zgfyxx.html,转载请注明出处。
依据中国语言地图集版本,区分为1986版与2012版
本文摘自中国开放数据CnOpenData 中国各地区方言信息数据 https://www.cnopendata.com/data/m/culture/zgfyxx.html,转载请注明出处。
CnOpenData推出佛教和道教宗教活动场所数据,为相关研究助力。
本文摘自中国开放数据CnOpenData 中国宗教场所地理分布数据 https://www.cnopendata.com/data/m/culture/worship-places.html,转载请注明出处。
CnOpenData推出的儒家文化数据,收录整理了中国孔庙信息、明朝书院信息、明朝学院信息及明清贞节牌坊信息,本数据为广大学者更好地研究儒家文化提供了有力的数据支持!
本文摘自中国开放数据CnOpenData 儒家文化数据 https://www.cnopendata.com/data/m/culture/confucian-culture.html,转载请注明出处。
人物数据:A股上市公司董监高信息数据、中国工业企业股东信息数据、中国工业企业主要人员信息数据、注册会计师及事务所数据、证券从业人员信息数据、基金公司及从业人员信息数据、中国记者信息数据
地理与交通数据:人口迁徙大数据、
CnOpenData数据团队推出人口迁徙大数据,包含各地区迁入来源地信息、各地区迁出目的地信息和各城市内部出行强度信息三个子模块,涵盖迁入和迁出城市、省份的总趋势和迁入迁出明细数据,为相关研究提供了优质的大数据样本。
本文摘自中国开放数据CnOpenData 人口迁移大数据 https://www.cnopendata.com/data/m/geography_traffic/population-migration.html,转载请注明出处。
2023年3月27日12:35
wingo文构财经文本数据平台
WinGo数据平台包括中国上市公司、美国上市公司和中国政府文本三大数据库,由业内专家和高校知名学者主持设计,打破了文本分析的技术壁垒,大幅降低研究成本,为广大研究和分析人员开辟出全新的研究模式。
数据库网址:www.wingodata.cn
目前进不去。如果需要文本分析需要联系工作人员。
---财务欺诈
2023年3月27日12:43
体现工作量
数据的可获得性