欢迎光临散文网 会员登陆 & 注册

【重磅更新】沪深A股上市公司常用数据整理(更新至2022年)方便匹配 提供整理代码

2023-08-15 11:35 作者:GIM7  | 我要投稿

论文常用上市公司数据整理




1、数据格式

dta格式(适用于Stata14/Stata15/Stata16/Stata17版本)
需要安装包可以该帖免费下载:下载地址
提供基础数据包整理代码

2、数据包含

基础数据包:


  • 资产负债表

  • 利润表

  • 现金流量表(直接法)

  • 现金流量表(间接法)

  • 偿债能力(资产负债率、流动比率、速动比率、利息保障倍数等)

  • 披露财务指标(基本每股收益、稀释每股收益等)

  • 比率结构(营运资金比率、固定资产比率、有形资产比率、综合税率等)

  • 经营能力(总资产周转率、存货周转率、资本密集度、应收账款周转率等)

  • 盈利能力(资产报酬率、总资产净利润率、净资产收益率、管理费用率、营业毛利率、投资收益率等)

  • 现金流分析(股权现金流、公司现金流、股权自由现金流、企业自由现金流、折旧摊销等)

  • 风险水平(财务杠杆、经营杠杆、综合杠杆)

  • 发展能力(营业收入增长率、总资产增长率、净利润增长率、可持续增长率、资本积累率等)

  • 每股指标(每股收益、每股净资产、每股现金净流量、每股净资产等)

  • 相对价值指标(托宾Q值、账面市值比、市盈率、市净率等)

  • 股利分配(股利分配率、每股税前现金股利、每股税后现金股利、收益留存率等)

  • 治理综合信息(股东总数、 员工人数、董事长持股数量、总经理持股比例、董事长与总经理兼任情况等)

  • 高管人数、持股及薪酬情况(董事人数、独立董事人数、董事监事及高管年薪总额、董事前三名薪酬总额等)

  • 股东股权集中度(包含第1大、前3大、前5大、前10大股东持股比例之和以及Herfindahl指数、股权制衡度等)

  • 流通股东股权集中度

  • 审计意见表(审计费用、审计意见类型、审计事务所、审计师)

  • 股本结构(总股本、流通股本、国有股本、A股股本等)

  • 公司文件
    包含特色整理指标:上市年份(便于计算上市公司年龄或者剔除当年IPO的数据),行业(以证监会2012行业分类标准,制造业用二级行业分类,其他行业用一级行业分类),市场类型,是否ST或PT(以最新的是否ST来判断,如果需要根据当年是否ST,可以参考该贴https://bbs.pinggu.org/thread-11337253-1-1.html)



同时提供基础数据所有变量合并版本


拓展数据包:

  • 个股回报率(周期包括:日、周、月、年)

  • 市场回报率(周期包括:日、周、月、年)

  • 综合市场回报率(周期包括:日、周、月、年)

  • 指数

  • 无风险利率(定期整存整取一年利率)

  • 三因子数据(包含周期:日、周、月)

  • 四因子数据(包含周期:月)

  • 五因子数据(包含周期:日、周、月)

  • 股东股权质押统计表和明细(可以筛选控股股东股权质押数据)

  • 个股非流动性Amihud指标(日、周、月、年)

  • 个股换手率指标(日、周、月、年)

  • 投资者情绪指数

  • 计算操控性利润和非操控性应计利润计算所需数据

  • 研发支出/研发投入(研发费用  费用化 资本化)

  • 汇率

  • 交易日历

  • 三会基本信息

  • 股东大会信息文件

  • 委员会召开情况

  • 股权性质(介绍:https://bbs.pinggu.org/thread-11489489-1-1.html)

  • 社会责任报告数据(和讯网)到2020年后续网站未更新(介绍:https://bbs.pinggu.org/thread-10602192-1-1.html)

  • 十大股东、十大流通股东持股比例明细

  • 机构投资者持股比例(Wind)

  • 分析师预测指标文件

  • 分析师特色指标(是否四大、分析师跟踪人数、研报关注度、上市公司透明度)

  • 董监高个人特征文件(性别、年龄、学历、职业背景、海外背景、学术背景、金融背景等) 2022年未更新全,实时更新

  • 高管个人资料文件(性别、年龄、教育背景、任期等)

  • 董监高任职情况


    3、数据说明

    • 精心整理以便写论文方便

    • 数据起始时间都是公司上市开始到2021年

    • 数据只有沪深北交所A股上市公司(包括主板、中小板、创业板、科创板),不包含B股上市公司

    • 只有保留年度数据,报表类型只保留合并报表

    • 所有数据统计证券代码字段为stkcd,年份字段为year,以便以合并匹配

    • 注意:stkcd字段类型为数字,1即代表股票000001,为了便于匹配同时提供证券代码字段(字符型)



    直接用Stata的merge 1:1 stkcd year 匹配汇总简直不能更方便
    字段都为中文名,直观方便


    让您免去数据下载整理的烦恼 



    5、示例代码


    *======================== 合并数据 =========================

    use 资产负债表.dta, clear

    keep stkcd 证券代码 year 资产总计 负债合计 货币资金 交易性金融资产

    merge 1:1 stkcd year using 利润表.dta, nogen keep(1 3) keepusing(净利润 营业收入)

    merge 1:1 stkcd year using 盈利能力.dta, nogen keep(1 3) keepusing(行业代码 总资产净利润率ROAB)

    merge 1:1 stkcd year using 发展能力.dta, nogen keep(1 3) keepusing(营业收入增长率B)

    merge 1:1 stkcd year using 相对价值指标.dta, nogen keep(1 3) keepusing(托宾Q值*)

    merge 1:1 stkcd year using 治理综合信息.dta, nogen keep(1 3) keepusing(董事长持股数量 董事长持股比例 董事长与总经理兼任情况)

    merge m:1 stkcd using 公司文件.dta, nogen keep(1 3) keepusing(行业代码C 上市日期 市场类型 是否ST 是否ST或PT)


    *======================== 筛选数据 =========================


    *= 剔除金融保险行业

    drop if regexm(行业代码C, "J")


    *= 剔除ST或PT类上市公司

    drop if 是否ST或PT==1


    *= 筛选全部A股

    * 市场类型字段对应编码:1=上海A,4=深圳A,16=创业板,32=科创板,64=北证A股市场

    keep if inlist(市场类型, 1, 4, 16, 32, 64)


    *= 如果要选择创业板的话

    * keep if inlist(市场类型, 16)


    * 剔除当年IPO的数据以及上市以前的数据

    drop if year<=real(substr(上市日期, 1, 4))


    * 筛选年份

    keep if year>=2010 & year<=2022



    获取数据请前往该链接

    https://bbs.pinggu.org/thread-11501087-1-1.html


    帖子首发于: 经管之家平台 

    原创作者:momingqimiao7

    实证分析数据定制加vx:momingqimiao7

    微信购买可享7折优惠

    公众号:Stata论文实证分析



    【重磅更新】沪深A股上市公司常用数据整理(更新至2022年)方便匹配 提供整理代码的评论 (共 条)

    分享到微博请遵守国家法律