如何運(yùn)用Stata完成統(tǒng)計(jì)數(shù)據(jù)匯總工作論文
統(tǒng)計(jì)數(shù)據(jù)匯總是數(shù)據(jù)發(fā)布和數(shù)據(jù)分析研究的基礎(chǔ),也是統(tǒng)計(jì)工作者必不可少的一項(xiàng)工作技能。目前統(tǒng)計(jì)工作中數(shù)據(jù)匯總大體上有兩種方式,一種是通過國家統(tǒng)計(jì)聯(lián)網(wǎng)直報(bào)平臺(tái)或其他數(shù)據(jù)報(bào)送平臺(tái)定制的數(shù)據(jù)匯總表對(duì)調(diào)查數(shù)據(jù)進(jìn)行匯總,這種匯總方式操作簡單,快捷,但是匯總表是通過平臺(tái)定制,匯總的分組和結(jié)構(gòu)固定,靈活性不足。另一種途徑是統(tǒng)計(jì)工作者根據(jù)工作需要,選取數(shù)據(jù)匯總軟件,對(duì)企業(yè)或者個(gè)人報(bào)送的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行匯總。這種匯總方式靈活性大,時(shí)效性強(qiáng),但是需要借助相應(yīng)的數(shù)據(jù)匯總軟件完成。
Stata 由美國計(jì)算機(jī)資源中心研制,是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表的完整及整合性統(tǒng)計(jì)軟件。Stata 功能強(qiáng)大,相對(duì)簡單易學(xué),并且能夠應(yīng)對(duì)經(jīng)濟(jì)普查、人口普查等上百萬條樣本數(shù)據(jù)的匯總工作。本文就如何運(yùn)用 Stata 完成統(tǒng)計(jì)數(shù)據(jù)匯總工作加以介紹。
合并數(shù)據(jù)文件
統(tǒng)計(jì)調(diào)查的原始數(shù)據(jù)經(jīng)常存放在不同的數(shù)據(jù)文件里,比如,調(diào)查企業(yè)通過“調(diào)查單位基本情況表”上報(bào)企業(yè)所在地、登記注冊(cè)類型等情況,通過 “財(cái)務(wù)狀況表”上報(bào)財(cái)務(wù)相關(guān)指標(biāo)。在數(shù)據(jù)匯總前,需要將兩個(gè)數(shù)據(jù)文件進(jìn)行合并,才能實(shí)現(xiàn)對(duì)財(cái)務(wù)指標(biāo)的分地區(qū)、分行業(yè)等交叉分組匯總。最常用的合并方式有兩種:
1. 數(shù) 據(jù) 文 件 的 橫 向 合 并。 橫 向合并是將兩個(gè)數(shù)據(jù)文件的變量合并到一起,合并后數(shù)據(jù)樣本不變 , 但變量數(shù)目增加,也就是數(shù)據(jù)文件變寬了。Stata 中只需指定合并序號(hào)變量,使用“merge”命令即可實(shí)現(xiàn)兩個(gè)數(shù)據(jù)文件的橫向合并。實(shí)際工作中,常把企業(yè)的組織機(jī)構(gòu)代碼(zzjgdm)作為序號(hào)變量。比如,將“調(diào)查單位基本情況(101-1表)”數(shù)據(jù)文件“jbqk.dta”和“財(cái)務(wù)狀 況 表” 數(shù) 據(jù) 文 件“cwzk.dta” 按 照zzjgdm 合并的命令為:
use jbqk,clear
merge zzgjdm using cwzk
實(shí) 際 上,Stata 不 僅 可 以 將 兩 個(gè)dta 文件合并,也可以直接讀入 csv、txt 等格式的文件,完成數(shù)據(jù)合并。兩個(gè)數(shù)據(jù)文件合并過程中,Stata 還自動(dòng)生成了一個(gè)新的變量“_merge”,_merge 賦值為 1,2,3 中的一個(gè)。上例中,_merge 值為 1 代表該樣本在“jbqk.dta”數(shù)據(jù)文件中,為2代表樣本在“cwzk.dta”數(shù)據(jù)文件中,為3代表樣本在“jcqk.dat”和“cwzk.dat”中同時(shí)存在。這樣,通過 _merge 變量,我們就可以方便完成兩個(gè)數(shù)據(jù)文件的比對(duì)。
2. 數(shù)據(jù)文件的縱向合并?v向合并是把兩個(gè)數(shù)據(jù)文件的樣本加總在一起,合并后樣本變量數(shù)目不變,樣本數(shù)增加,也就是數(shù)據(jù)文件變長了。最常見的縱向合并情況是對(duì)一項(xiàng)調(diào)查在不同地區(qū)或者不同時(shí)間得來的數(shù)據(jù)進(jìn)行合并。Stata 縱向合并數(shù)據(jù)文件的命令為“append”.比如,我們將調(diào)查得到的包含北京市調(diào)查數(shù)據(jù)的數(shù)據(jù)文件“bj.dta”和包含天津市調(diào)查數(shù)據(jù)的數(shù)據(jù)文件“tj.dta”縱向合并的Stata命令為:
use bj,clear
append using tj
需要注意的是,在縱向合并兩個(gè)數(shù)據(jù)文件前,兩個(gè)文件中相同變量的變量名要一致,否則將會(huì)被當(dāng)成兩個(gè)變量處理,并產(chǎn)生無用的缺失值。同時(shí),相同變量的變量類型要一致。
匯總問卷調(diào)查結(jié)果
問卷調(diào)查時(shí)效性較強(qiáng),調(diào)查結(jié)果容易量化,便于統(tǒng)計(jì)處理與分析,是常用的統(tǒng)計(jì)調(diào)查方法。問卷調(diào)查結(jié)果用 Stata 進(jìn)行匯總非常方便,使用“tabulate”命令,可方便的生成列聯(lián)表,根據(jù)變量的頻數(shù)分布可以得到問卷回答情況的匯總結(jié)果。比如,對(duì) 10000個(gè)樣本企業(yè)開展問卷調(diào)查,涉及 10 個(gè)問 題, 分 別 為:WT1,WT2, ……,WT10(每個(gè)問題的答案均為 A、B、C、D 四個(gè)選項(xiàng))。匯總問題 WT1 的回答情況時(shí),只需輸入命令:tabulateWT1,即可得到 WT1 樣本回答情況的頻 數(shù)(Freq)、 百 分 比(Percent) 及累計(jì)百分比(Cum)指標(biāo)(Stata 輸出結(jié)果見表 1)。從 Freq 輸出結(jié)果可見,樣本企業(yè)對(duì) WT1 的回答情況為:選擇答案 A、B、C、D 的企業(yè)數(shù)量分別為1000、3000、4000 和 2000 個(gè)。Percent結(jié)果給出了選擇答案 1、2、3、4 的比重分別為 10%,30%、40% 和 20%.
同 時(shí),“tabulate” 命 令 還 可 以生成 2 維列聯(lián)表,比如,需要對(duì)問題WT1 做分省回答結(jié)果的.匯總時(shí),只需對(duì)省代碼(sf)和 WT1 執(zhí)行“tabulate”匯總。Stata 命令為:tabulate sf WT1,即 可 輸 出 表 2 格 式 的 匯 總 結(jié) 果{ 假設(shè)調(diào)查只涉及北京市(代碼 11)、天 津 市( 代 碼 12)、 河 北 。 代 碼13)}.
類似的,可以對(duì)每一個(gè)問題的調(diào)查結(jié)果分行業(yè)、分登記注冊(cè)類型、分控股情況等做交叉分組匯總。
匯總生產(chǎn)經(jīng)營情況調(diào)查結(jié)果
現(xiàn)行的統(tǒng)計(jì)報(bào)表制度更多的是對(duì)調(diào)查單位的生產(chǎn)經(jīng)營情況開展年度、季度或者是月度調(diào)查。日常的數(shù)據(jù)匯總工作更多的是對(duì)生產(chǎn)經(jīng)營指標(biāo)做各種交叉分組匯總。
與問卷調(diào)查結(jié)果不同,生產(chǎn)經(jīng)營情況的調(diào)查結(jié)果需要對(duì)調(diào)查指標(biāo)數(shù)據(jù)加總或者通過計(jì)算生成新的指標(biāo),因此,我們首先要生成新的變量,來記錄相應(yīng)指標(biāo)的匯總結(jié)果。Stata 生成新變量的命令為“generate”及其擴(kuò)展命令“egen”.“generate”用來生成一般變量,“egen”可以生成包含函數(shù)表達(dá)式的變量。比如,我們對(duì)規(guī)模以上服務(wù)業(yè)企業(yè)“財(cái)務(wù)狀況(F103 表)”中“營業(yè)收入”指標(biāo)的本年(yysr1)和上年同期(yysr2)數(shù)據(jù)進(jìn)行匯總,并計(jì)算兩年的同比增速(d),用到的Stata 語句為:
egen a=sum(yysr1)
egen b=sum(yysr2)
gen d=(a/b)*100-100
其中:“sum()”為求和函數(shù),變量 a 用來記錄“營業(yè)收入”本年的合計(jì)數(shù),變量 b 用來記錄“營業(yè)收入”上年同期的合計(jì)數(shù),變量d用來記錄“營業(yè)收入”的同比增速。
統(tǒng)計(jì)調(diào)查表中通常包含多個(gè)指標(biāo),我們可以使用 Stata 的循環(huán)語句“forvalues”同時(shí)對(duì)多個(gè)指標(biāo)匯總。比如,我們對(duì)規(guī)模以上服務(wù)業(yè)企業(yè)“財(cái)務(wù)狀況(F103 表)”涉及的 31 個(gè)財(cái)務(wù)指標(biāo)匯總。31 個(gè)指標(biāo)的本年和上年同期數(shù)據(jù)我們分別用 ai 和 bi(i=1,2,…,31) 表示。匯總語句為:
forvalues i=1/31{
egen suma`i'=sum(a`i‘)
egen sumb`i'=sum(b`i’)
gen d`i'=(suma`i'/sumb`i‘)*100-100}
31 個(gè)指標(biāo)的本年和上年同期匯總數(shù)據(jù)分別記錄于 sumai 和 sumbi 變量,di 為同比增速(i=1,2,…,31)。
我們還可以用“by+ 變量名”實(shí)現(xiàn)各種交叉分組匯總。比如,分省匯總“營業(yè)收入”本年(yysr1)和上年同期數(shù)(yysr2)指標(biāo)的 Stata 語句為:
by sf,sort:egen a=sum(yysr1)
by sf,sort:egen b =sum(yysr2)
其中:“sort”命令為排序命令,對(duì)省代碼(sf)變量按照從小到大排序。在用“by”命令對(duì)變量進(jìn)行分類匯總前,必須要對(duì)分類變量進(jìn)行排序。運(yùn)用“by+變量名”我們還可以進(jìn)一步實(shí)現(xiàn)分行業(yè)分指標(biāo)、分登記注冊(cè)類型分指標(biāo)及分省分行業(yè)等交叉匯總工作。比如,分省分行業(yè)大類匯總“營業(yè)收入”指標(biāo)的語句為:
sort sf hydl :egen suma=sum(yysr1)
sort sf hydl :egen sumb=sum(yysr2)
綜上可見,運(yùn)用 Stata 語句,可以快速、靈活的完成統(tǒng)計(jì)數(shù)據(jù)的各種交叉匯總工作,為數(shù)據(jù)的審核及后續(xù)的分析研究工作帶來便利。同時(shí),Stata的數(shù)據(jù)匯總結(jié)果既可以以文本格式直接粘貼進(jìn) Word 等文字編輯器,也可以以表格的形式粘貼進(jìn) Excel 等數(shù)據(jù)表格處理器,便于存儲(chǔ)和使用。
【如何運(yùn)用Stata完成統(tǒng)計(jì)數(shù)據(jù)工作論文】相關(guān)文章:
如何完成電力企業(yè)后勤保障工作論文10-23
統(tǒng)計(jì)數(shù)據(jù)質(zhì)量論文01-22
如何運(yùn)用人口總量統(tǒng)計(jì)指標(biāo)論文10-22
如何出色的完成面試02-08
強(qiáng)化統(tǒng)計(jì)數(shù)據(jù)分析,提高數(shù)據(jù)運(yùn)用能力01-15