百科知識
工商名錄數(shù)據(jù)庫(實(shí)時(shí)-要點(diǎn))
2023-09-08 10:07:05
來源:互聯(lián)網(wǎng)
該數(shù)據(jù)集是研究微觀企業(yè)及其對外直接投資的重要數(shù)據(jù)集!
蔣冠宏等眾多著名國際商務(wù)學(xué)者均使用該數(shù)據(jù)集產(chǎn)出重要研究成果!
具體的處理方法為:
參考Brandt等(2023)對數(shù)據(jù)庫進(jìn)行了逐年合并,并對錯(cuò)誤數(shù)據(jù)進(jìn)行了清洗。將《名錄》與《工業(yè)企業(yè)數(shù)據(jù)庫》按照企業(yè)進(jìn)行匹配合并,以蔣冠宏等(2023)為代表的眾多學(xué)者在研究相關(guān)問題時(shí)均對兩個(gè)數(shù)據(jù)庫進(jìn)行了合并,但由于《工業(yè)企業(yè)數(shù)據(jù)庫》錯(cuò)誤較多且企業(yè)存在改名的現(xiàn)象,導(dǎo)致兩個(gè)數(shù)據(jù)庫匹配成功率較低。為解決這一問題,采用了獨(dú)創(chuàng)的同地區(qū)模糊匹配法,具體步驟如下:
首先,根據(jù)《工業(yè)企業(yè)數(shù)據(jù)庫》中錯(cuò)誤率較低的“地區(qū)編碼”和“郵政編碼”確定該企業(yè)所在(副)省級單位(包括省、直轄市、自治區(qū)和計(jì)劃單列市),未能確定企業(yè)所在地點(diǎn)的樣本不足1%(398萬余個(gè)原始樣本中不足2萬),剔除這部分樣本。然后,采用文本處理工具將兩個(gè)數(shù)據(jù)庫中的企業(yè)名進(jìn)行分詞,提取出核心部分,將地點(diǎn)和“有限責(zé)任公司”等通用后綴去除,如“南京盛東化工有限公司”,提出的核心部分為“盛東化工”。使用模糊匹配程序包將兩個(gè)數(shù)據(jù)庫進(jìn)行匹配,模糊匹配提高了匹配的成功率,如“中國石油”和“中石油”是一家公司,如果使用精確匹配,則不能匹配成功,但不能過于模糊,否則“中石油”和“中石化”將被識別成同一家公司,根據(jù)該程序包的使用經(jīng)驗(yàn),將模糊匹配閾值設(shè)為80%。最后,按年按地區(qū)進(jìn)行匹配,這樣可以大大提高匹配的成功率,在同一省份的同一年份,每個(gè)企業(yè)的匹配空間大幅減小,重名的可能性降低,此外,去除地名開頭和通用后綴避免了如“北京”和“北京市”這樣同一意思但字符不同所造成的差別,使得成功率進(jìn)一步提高。最終,經(jīng)過以上處理,在2001—2023年的樣本區(qū)間上,將兩個(gè)數(shù)據(jù)庫匹配合并,共獲得3989940個(gè)樣本,其中,共有6889家工業(yè)企業(yè)進(jìn)行對外直接投資,共投資8429次,匹配成功率大幅高于同類文獻(xiàn)。
由于《工業(yè)企業(yè)數(shù)據(jù)庫》中統(tǒng)計(jì)錯(cuò)誤和缺失值較多,參考Feenstra等(2023)、聶輝華等(2023)對原始數(shù)據(jù)進(jìn)行清洗和精簡,包括(1)剔除了雇員數(shù)少于8人且多于100萬人的樣本;(2)剔除了同一年內(nèi)重復(fù)或錯(cuò)誤的記錄以提高樣本信息的準(zhǔn)確度;(3)剔除了一些明顯錯(cuò)誤,如工業(yè)總產(chǎn)值、工業(yè)增加值、固定資產(chǎn)數(shù)值非正數(shù)的樣本;(4)剔除了存續(xù)年份大于100年或小于0年的樣本等;(5)本文將按年列示的數(shù)據(jù)庫根據(jù)企業(yè)名稱、法人代表名稱、地理位置等信息匹配成非平衡面板,非平衡面板中,由于統(tǒng)計(jì)披露和逐年匹配誤差,部分企業(yè)出現(xiàn)時(shí)間較短或者不連續(xù),本文僅選擇數(shù)據(jù)連續(xù)存在3年以上的企業(yè),剔除了不足3年的樣本。最終,精簡之后的樣本量總數(shù)為742788,共2492家工業(yè)企業(yè)進(jìn)行對外直接投資,投資3140筆。總結(jié)來看,在工業(yè)企業(yè)數(shù)據(jù)庫的基礎(chǔ)上匹配了兩個(gè)新變量,第一個(gè)是該企業(yè)該年是否進(jìn)行了對外直接投資;第二,同一家企業(yè)每一年可能會有多筆對外直接投資,本文統(tǒng)計(jì)了匹配到的樣本數(shù),即該企業(yè)該年對外直接投資的筆數(shù)。
處理過程和代碼展示: 首先是原始數(shù)據(jù),包括2000-2023年工業(yè)企業(yè)數(shù)據(jù)庫數(shù)據(jù)和境外投資企業(yè)(機(jī)構(gòu))名錄數(shù)據(jù)。
Python代碼包括數(shù)據(jù)預(yù)處理,字段刪減統(tǒng)一改名,公司名處理,模糊匹配等。
stata代碼包括分年合并,非平衡面板處理,刪除離群數(shù)據(jù)等。
結(jié)果展示及字段說明:
處理后保留的字段和相關(guān)說明詳見Excel表。 1.該數(shù)據(jù)集一共含有3989940個(gè)樣本值,合并了2000年-2023年的分年工業(yè)企業(yè)數(shù)據(jù)庫,剔除了各年的重復(fù)值和失效樣本,未做其他樣本選擇。
2.將各年數(shù)據(jù)分別與商務(wù)部境外投資企業(yè)名錄進(jìn)行匹配,采取了必要的模糊匹配,增加配對成功的數(shù)量,其中OFDIs列表示該企業(yè)當(dāng)年對外投資的次數(shù),一共匹配成功8900多筆投資,優(yōu)于目前可以見到的一些匹配工作。
3.penal_id字段唯一標(biāo)識面板中的不同企業(yè),總面板數(shù)據(jù)是非平衡的,企業(yè)樣本從一年到橫跨十四年不等。
4.字符串變量基本選自工業(yè)企業(yè)數(shù)據(jù)庫中的字符串,加入了省份變量和分詞后的法人單位變量幫助匹配。
5.數(shù)據(jù)變量除了OFDIs之外,其他均來自于工業(yè)企業(yè)數(shù)據(jù)庫,在一定程度上選取了2000年-2023年各年數(shù)據(jù)庫字段的交集,即14年出現(xiàn)了12次以上的變量(這樣做是因?yàn)榧词谷笔б?/strong>可以通過插值補(bǔ)全),如果某個(gè)變量僅出現(xiàn)過個(gè)位次,則無法補(bǔ)全缺失值,無法使用該指標(biāo)的面板數(shù)據(jù)。
6.通過以上方法選取了40多個(gè)企業(yè)指標(biāo),均為財(cái)務(wù)指標(biāo),包括資產(chǎn)類、負(fù)債類、權(quán)益類和損益類等,具體即缺失情況見“字段及缺失情況.xlsx”為進(jìn)行微觀層面的研究提供了堅(jiān)實(shí)的基礎(chǔ)。
7.但也不得不刪去了一些變量,如僅在某幾年出現(xiàn)的現(xiàn)金流量指標(biāo),以及行政區(qū)碼、輕重工業(yè)、企業(yè)規(guī)模、從業(yè)人數(shù)、新產(chǎn)品產(chǎn)值、工業(yè)增加值、長期投資、流動(dòng)資產(chǎn)凈額、本年折舊、固定資產(chǎn)凈值、無形資產(chǎn)、營業(yè)收入、營業(yè)成本、銷售利潤、投資收益、營業(yè)外收入、營業(yè)外支出、利稅總額、應(yīng)付福利總額、稅金及附加、中間投入合計(jì)等指標(biāo)。
數(shù)據(jù)說明、字段及缺失情況.xlsx
最終結(jié)果:
總數(shù)據(jù)300多萬條,目前僅支持stata格式,敬請諒解!清洗后數(shù)據(jù)質(zhì)量非常高且目前很新,謝絕議價(jià)!
工企與境外投資匹配結(jié)果 分年數(shù)據(jù)也可出售,30一年,未合并,可見下方聯(lián)系方式
蔣冠宏等眾多著名國際商務(wù)學(xué)者均使用該數(shù)據(jù)集產(chǎn)出重要研究成果!
具體的處理方法為:
參考Brandt等(2023)對數(shù)據(jù)庫進(jìn)行了逐年合并,并對錯(cuò)誤數(shù)據(jù)進(jìn)行了清洗。將《名錄》與《工業(yè)企業(yè)數(shù)據(jù)庫》按照企業(yè)進(jìn)行匹配合并,以蔣冠宏等(2023)為代表的眾多學(xué)者在研究相關(guān)問題時(shí)均對兩個(gè)數(shù)據(jù)庫進(jìn)行了合并,但由于《工業(yè)企業(yè)數(shù)據(jù)庫》錯(cuò)誤較多且企業(yè)存在改名的現(xiàn)象,導(dǎo)致兩個(gè)數(shù)據(jù)庫匹配成功率較低。為解決這一問題,采用了獨(dú)創(chuàng)的同地區(qū)模糊匹配法,具體步驟如下:
首先,根據(jù)《工業(yè)企業(yè)數(shù)據(jù)庫》中錯(cuò)誤率較低的“地區(qū)編碼”和“郵政編碼”確定該企業(yè)所在(副)省級單位(包括省、直轄市、自治區(qū)和計(jì)劃單列市),未能確定企業(yè)所在地點(diǎn)的樣本不足1%(398萬余個(gè)原始樣本中不足2萬),剔除這部分樣本。然后,采用文本處理工具將兩個(gè)數(shù)據(jù)庫中的企業(yè)名進(jìn)行分詞,提取出核心部分,將地點(diǎn)和“有限責(zé)任公司”等通用后綴去除,如“南京盛東化工有限公司”,提出的核心部分為“盛東化工”。使用模糊匹配程序包將兩個(gè)數(shù)據(jù)庫進(jìn)行匹配,模糊匹配提高了匹配的成功率,如“中國石油”和“中石油”是一家公司,如果使用精確匹配,則不能匹配成功,但不能過于模糊,否則“中石油”和“中石化”將被識別成同一家公司,根據(jù)該程序包的使用經(jīng)驗(yàn),將模糊匹配閾值設(shè)為80%。最后,按年按地區(qū)進(jìn)行匹配,這樣可以大大提高匹配的成功率,在同一省份的同一年份,每個(gè)企業(yè)的匹配空間大幅減小,重名的可能性降低,此外,去除地名開頭和通用后綴避免了如“北京”和“北京市”這樣同一意思但字符不同所造成的差別,使得成功率進(jìn)一步提高。最終,經(jīng)過以上處理,在2001—2023年的樣本區(qū)間上,將兩個(gè)數(shù)據(jù)庫匹配合并,共獲得3989940個(gè)樣本,其中,共有6889家工業(yè)企業(yè)進(jìn)行對外直接投資,共投資8429次,匹配成功率大幅高于同類文獻(xiàn)。
由于《工業(yè)企業(yè)數(shù)據(jù)庫》中統(tǒng)計(jì)錯(cuò)誤和缺失值較多,參考Feenstra等(2023)、聶輝華等(2023)對原始數(shù)據(jù)進(jìn)行清洗和精簡,包括(1)剔除了雇員數(shù)少于8人且多于100萬人的樣本;(2)剔除了同一年內(nèi)重復(fù)或錯(cuò)誤的記錄以提高樣本信息的準(zhǔn)確度;(3)剔除了一些明顯錯(cuò)誤,如工業(yè)總產(chǎn)值、工業(yè)增加值、固定資產(chǎn)數(shù)值非正數(shù)的樣本;(4)剔除了存續(xù)年份大于100年或小于0年的樣本等;(5)本文將按年列示的數(shù)據(jù)庫根據(jù)企業(yè)名稱、法人代表名稱、地理位置等信息匹配成非平衡面板,非平衡面板中,由于統(tǒng)計(jì)披露和逐年匹配誤差,部分企業(yè)出現(xiàn)時(shí)間較短或者不連續(xù),本文僅選擇數(shù)據(jù)連續(xù)存在3年以上的企業(yè),剔除了不足3年的樣本。最終,精簡之后的樣本量總數(shù)為742788,共2492家工業(yè)企業(yè)進(jìn)行對外直接投資,投資3140筆。總結(jié)來看,在工業(yè)企業(yè)數(shù)據(jù)庫的基礎(chǔ)上匹配了兩個(gè)新變量,第一個(gè)是該企業(yè)該年是否進(jìn)行了對外直接投資;第二,同一家企業(yè)每一年可能會有多筆對外直接投資,本文統(tǒng)計(jì)了匹配到的樣本數(shù),即該企業(yè)該年對外直接投資的筆數(shù)。
處理過程和代碼展示: 首先是原始數(shù)據(jù),包括2000-2023年工業(yè)企業(yè)數(shù)據(jù)庫數(shù)據(jù)和境外投資企業(yè)(機(jī)構(gòu))名錄數(shù)據(jù)。
Python代碼包括數(shù)據(jù)預(yù)處理,字段刪減統(tǒng)一改名,公司名處理,模糊匹配等。
stata代碼包括分年合并,非平衡面板處理,刪除離群數(shù)據(jù)等。
結(jié)果展示及字段說明:
處理后保留的字段和相關(guān)說明詳見Excel表。 1.該數(shù)據(jù)集一共含有3989940個(gè)樣本值,合并了2000年-2023年的分年工業(yè)企業(yè)數(shù)據(jù)庫,剔除了各年的重復(fù)值和失效樣本,未做其他樣本選擇。
2.將各年數(shù)據(jù)分別與商務(wù)部境外投資企業(yè)名錄進(jìn)行匹配,采取了必要的模糊匹配,增加配對成功的數(shù)量,其中OFDIs列表示該企業(yè)當(dāng)年對外投資的次數(shù),一共匹配成功8900多筆投資,優(yōu)于目前可以見到的一些匹配工作。
3.penal_id字段唯一標(biāo)識面板中的不同企業(yè),總面板數(shù)據(jù)是非平衡的,企業(yè)樣本從一年到橫跨十四年不等。
4.字符串變量基本選自工業(yè)企業(yè)數(shù)據(jù)庫中的字符串,加入了省份變量和分詞后的法人單位變量幫助匹配。
5.數(shù)據(jù)變量除了OFDIs之外,其他均來自于工業(yè)企業(yè)數(shù)據(jù)庫,在一定程度上選取了2000年-2023年各年數(shù)據(jù)庫字段的交集,即14年出現(xiàn)了12次以上的變量(這樣做是因?yàn)榧词谷笔б?/strong>可以通過插值補(bǔ)全),如果某個(gè)變量僅出現(xiàn)過個(gè)位次,則無法補(bǔ)全缺失值,無法使用該指標(biāo)的面板數(shù)據(jù)。
6.通過以上方法選取了40多個(gè)企業(yè)指標(biāo),均為財(cái)務(wù)指標(biāo),包括資產(chǎn)類、負(fù)債類、權(quán)益類和損益類等,具體即缺失情況見“字段及缺失情況.xlsx”為進(jìn)行微觀層面的研究提供了堅(jiān)實(shí)的基礎(chǔ)。
7.但也不得不刪去了一些變量,如僅在某幾年出現(xiàn)的現(xiàn)金流量指標(biāo),以及行政區(qū)碼、輕重工業(yè)、企業(yè)規(guī)模、從業(yè)人數(shù)、新產(chǎn)品產(chǎn)值、工業(yè)增加值、長期投資、流動(dòng)資產(chǎn)凈額、本年折舊、固定資產(chǎn)凈值、無形資產(chǎn)、營業(yè)收入、營業(yè)成本、銷售利潤、投資收益、營業(yè)外收入、營業(yè)外支出、利稅總額、應(yīng)付福利總額、稅金及附加、中間投入合計(jì)等指標(biāo)。
數(shù)據(jù)說明、字段及缺失情況.xlsx
最終結(jié)果:
總數(shù)據(jù)300多萬條,目前僅支持stata格式,敬請諒解!清洗后數(shù)據(jù)質(zhì)量非常高且目前很新,謝絕議價(jià)!
工企與境外投資匹配結(jié)果 分年數(shù)據(jù)也可出售,30一年,未合并,可見下方聯(lián)系方式
其他文章
- 廣州靠譜代辦營業(yè)執(zhí)照窗口
- 辦營業(yè)執(zhí)照需要到哪里辦手續(xù)
- 上海無地址公司執(zhí)照注冊代辦機(jī)構(gòu)
- 網(wǎng)絡(luò)科技公司經(jīng)營范圍怎么選
- 實(shí)業(yè)公司經(jīng)營范圍5大類怎么寫
- 衛(wèi)生許可證網(wǎng)上申請教程
- 石家莊早餐車怎么辦理營業(yè)執(zhí)照
- 沒有實(shí)體店辦理營業(yè)執(zhí)照怎么辦
- 個(gè)人網(wǎng)店如何辦理營業(yè)執(zhí)照
- 秀米海外怎么注冊公司的
- 個(gè)人注冊一家公司要多少錢
- 重慶云上注冊公司可靠嗎,重慶云上注冊公司靠譜嗎?
- 網(wǎng)上營業(yè)執(zhí)照辦理網(wǎng)站是什么
- 代辦營業(yè)執(zhí)照給3萬5
- 有了中介怎么注冊公司
- 網(wǎng)上注冊企業(yè)工商執(zhí)照流程
- 企業(yè)生產(chǎn)經(jīng)營許可證號怎么找
- 醫(yī)藥企業(yè)注冊公司條件要求
- 青島公司注冊怎么做
- 天津注冊滴滴公司