【工具变量】A股上市企业数据资产披露水平数据集(2000-2023年)
在数字经济的时代浪潮中,数据作为基石性资源,正日益成为企业迈向高质量发展的核心驱动力与关键生产要素。据中国信息通信研究院发布的《国家数据资源调查报告(2021)》权威数据,2021年度我国数据总产量跃升至6.6ZB,占据全球数据总产量的十分之一,稳居全球第二的宝座。伴随大数据技术的广泛渗透与信息化水平的持续提升,数据资产已然跃升为企业于现代商业版图中不可或缺的竞争利器,其管理效能与披露透明度对于增强企业公信力、提升市场竞争力具有举足轻重的意义。
一、数据介绍
数据名称:上市公司-数据资产信息披露水平
数据年份:2000-2023年
数据范围:上市公司,6w+样本
数据格式:面板数据
二、数据指标
股票代码 | 公司简称 | 年份 |
全文总词数 | 关键词词频数 | 数据资产信息披露水平 |
数据资产 | 信息资源 | 数据挖掘 |
数据源 | 大数据 | 数据共享 |
海量数据 | 数据平台 | 数据分析系统 |
数据资源 | 知识库 |
三、测算方式
参考牛彪和于翔等(2024)的做法,采用“种子词+Word2Vec相似词扩充”的文本分析方法来测算企业的数据资产信息披露水平。具体步骤如下:
首先,根据《中国信通院2019年发布的《数据资产管理实践白皮书(4.0版)》,“数据资产”被定义为能够为企业创造经济利益的数据资源。基于此,将“数据资产”和“数据资源”作为种子词汇,生成相关的相似词词集
其次,通过深度学习技术和Word2Vec神经网络模型,生成与种子词汇语义相近的相似词集,并仅保留相似度最高的前10个词汇
最后,统计词汇在年报中的频次,并结合以下公式计算企业的数据资产信息披露水平
四、参考文献
牛彪,于翔,苑泽明,等.数据资产信息披露与审计师定价策略[J].当代财经, 2024(2):154-164.
五、样例数据