互助问答第316期:关于样本数据范围问题
关于样本数据范围问题
老师,您好
我是一名研究生。现在在计算股价崩盘数据时候发现了一个很迷惑的现象。我下载的数据是从00-19年度的数据,当我使用这个全样本去计算股价崩盘,然后在sum if year==2018。然后我使用样本期间为04-18年的数据去sum if year==2018,这两个结果不一样,但是我用的数据和代码是一样的,只不过04-18那个样本期间短一点。这个现象我发现最初是我计算18-19年的数据,结果sum year=2018和我之前用04-18年的数据计算结果差很多,我对比过原数据,几乎差不多,所以我很疑惑为什么会存在这种现象?还有如果这种现象是正常的话,那我怎么能确定什么时候的数据是可信的,难道04-18年的数据就是真的 00-19年计算的就是假的,这种具体的判别方法是什么?如果是根据前人计算的值来确定的话,那如果我的样本期间是09-18,但是这时候算出来的股价崩盘和前人计算的结果差很多,然后11-18和前人计算的结果差不多,难道我要因为这个原因更改我的样本期间么?
希望老师能够帮助我解答这个问题。感谢你们!

这其中有两个层面,需要分开讨论:1、原始数据;2、基于原始数据生成的某个变量。如果你 sum 的是 2018 年的原始数据,那么不管它落在 00-19 年,还是 04-18 年,都不应该有丝毫差别;如果有差别,那就意味着数据处理错误,也即 00-19 年中的 18 年原始数据和 04-18 年中的 18 年原始数据是不同的两套数据,需要找出错误并改正。如果你 sum 的是基于原始数据生成的某个变量,特别该变量需要基于原始数据各个年份的信息生成,那么不同的样本范围确实可能会带来不同的结果——这种现象很正常。假如你计算的 2018 年的某个变量指标需要利用其它年份的信息;那么在 00-19 年数据集中,其它年份指的就是 00-17 和 19 年;在 04-18 年数据集中,其它年份指的就是 04-17 年;“其它年份”的信息不同,计算结果自然可能不同。如果你计算的指标只依赖于当年的原始数据——也即 2018 年的指标只依据 2018 年原始数据计算,那么最后结果就应该与原始数据的年份跨度无关。给定数据是真实的,那么更多年份的数据显然包括更多有效信息,也更有助于你得到更准确的结论。
往期回顾:
互助问答第315期:关于银行变量名称的问题
如果您在计量学习和实证研究中遇到问题,有三条途径可以到达我们手里:一是请及时发到邮箱szlw58@126.com;二是加入论文导向计量群(现有10个群);三是直接在微信公众号平台后台留言。专业委员会有40多名编辑都会看,您的问题会得到及时关注!请您将问题描述清楚,任何有助于把问题描述清楚的细节都能使我们更方便地回答您的问题,提问细则参见:实证研究互助平台最新通知(点击文末阅读原文查看详情)
如果您想成为问题解答者,在帮助他人过程中巩固自己的知识,请发邮件至szlw58@126.com(优先)或给本公众号留言或加微信793481976给群主留言,我们诚挚欢迎热心的学者和学生。具体招募信息请参见:实证研究互助平台志愿者团队招募公告
鲜活的事例更有助于提高您的研究水平,呆板的教科书让人生厌。如果您喜欢,请提出您的问题,也请转发推广!
(欢迎转发,欢迎分享;转载请注明出处,引用和合作请留言。本文作者拥有所有版权,原创文章最早发表于“学术苑”。任何侵权行为将面临追责!)
学术指导:张晓峒老师 Ben Lambert
本期解答人:中关村大街
编辑:孙婷婷
统筹:左川 易仰楠
技术:刘子瑗
全文完,感谢您的耐心阅读
请顺手点个“在看”吧~
阅读原文
