時間:2023-05-30 14:44:54
序論:在您撰寫數據分析論文時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
將醫院、醫療保健組織等數字化的醫療數據以特定的格式、協議發送到醫療數據分析模塊進行分析與疾病預測.醫療數據提取模塊:該模塊由醫院電子病歷系統負責實現,我們使用openEHR系統作為醫院電子病歷系統,并在openEHR中實現醫療數據的提取功能.openEHR系統是一個開源、靈活的電子病歷系統,支持HL7衛生信息交換標準.很多醫療健康組織、政府和學術科研單位都使用openEHR進行開發和科研工作.如一種基于openEHR的患者病歷數據管理模型、openEHR等許多開源的電子病歷平臺的對比與評估和基于openEHR的檔案建模等.數據交換模塊:基于Web服務的數據交換模塊使用醫療數據通信協議實現醫療數據分析模塊與醫療數據提取模塊的數據交換.Web服務是一個平立、松耦合的Web應用程序.由于Web服務的跨平臺特性,許多模型與框架是基于Web服務構建的,如基于Web服務集成分布式資源和數據流分析測試等.在本文提出的醫療數據分析模型中,使用Web服務來連接醫療數據分析模塊和醫療數據提取模塊.醫療數據提取模塊作為Web服務的服務端,實現的方法包括存取數據、數據預處理、序列化等,改進后的模型要求實現指定維度,指定屬性數據的讀取.本文提出的醫療數據分析模塊作為Web服務的客戶端,通過HTTP服務向數據提取模塊請求獲取數據,并對數據進行預處理.醫療數據分析模塊:我們使用Caisis開源平臺作為醫療數據分析與疾病預測系統實現這一模塊.Caisis是基于Web的開源癌癥數據管理系統,一些臨床醫學研究使用Caisis系統管理和歸檔數字顯微圖像,通過向Caisis系統中添加特征選擇和SVM算法,使用SVM算法對醫療數據進行分析和疾病預測,因此使用的特征選擇算法需要基于SVM,可以提高數據分析和疾病預測過程的效率和準確度.
2數據分析模塊與算法
2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一種可訓練的機器學習算法.依據統計學習理論、VC維理論和結構風險最小化理論,從一定數目的樣本信息在學習能力和復雜度(對訓練樣本的學習程度)中找到最佳折中,以期望獲得最好的推廣能力(或稱泛化能力).
2.2基于SVM的醫療數據分析模塊將SVM分類算法應用到醫療數據分析模塊中,進行疾病預測.基于SVM的醫療數據分析模塊,通過數據交換模塊獲取原始組數據(患病病人醫療數據和對照組病人數據).通過特征選擇過程輸入到SVM分類器中進行訓練,訓練后可以對新的醫療數據進行分析預測.
3改進的醫療數據交換模塊
3.1醫療數據交換模塊在原始的醫療數據交換模塊中,數據請求原語只由4條通信原語組成.由原始醫療數據分析模型的3個模塊構建,其中在醫療數據分析模塊與醫療數據提取模塊之間的4條通信原語包括2條請求和2條應答.由于醫療數據的維度極大,屬性很多,但是在預測某個疾病時,只有很少的一部分屬性會對分類預測產生影響.這樣的全部維度的數據都需要傳輸,浪費了時間,降低了數據傳輸效率,影響了醫療數據分析模塊的算法效率.
3.2改進的醫療數據交換模塊在改進的醫療數據交換模塊中,在數據傳輸協議中增加了4條原語.在每條原語中不僅有醫療記錄條數的要求,還包括對所請求醫療數據維度和屬性的具體說明.醫療數據分析模塊先請求一小部分全部維度的數據,對這小部分數據進行特征選擇.然后醫療數據分析模塊只請求特征選擇出來的對預測相關的屬性的剩余所有醫療數據.最后通過SVM分類算法進行訓練和預測.在新的醫療數據交換模塊中,大部分數據中只有小部分相關屬性被傳輸到數據分析模塊,極大地減少了數據傳輸總量,也同時增加了分析模塊預測算法的效率.
4原始模型與改進模型的對比結果
對于使用數據的動機,除了對數據對象主體的認知識別之外,還有要對數據呈現的顯性和隱性規律進行發現,從自然語言上看,腦力活動對數據處理的第一步就是降低數據間的差異化,進行熵減的分析行為。哲學家維特根斯坦認為,對于哲學本質的界定都屬無法言說之物,應用到數據分析領域,數據存在一種由內而外的泛化慣性,不斷對原有數據形成新的描述,造成數據陣營的擴張,而其信息主體則是穩定的,對描述性數據和活動數據存在吸附力,屬于無法言說的本質最邊緣。立足于這種思想觀點,我們可以認為貌似松散無序的數據間存在一種牢固的血緣數據關系,因為所有數據都是基于信息主體泛化出的描述性和活動性數據,而這種熵減的動作其表現形式可以等同于對數據血緣關系的向上追溯,技術上則表現為一種尋找最大扇出的上層。這樣,熵減的技術實現就是通過建立血緣關系而去尋找最大扇出的上層,這種分析法易于在數據發現應用中,通過檢索建立模糊入口點去組織發現數據,其與扇出或扇入點的血緣關系越近,入口點對其的吸附力越強、權重越高。但這樣會出現另一個無法回避的問題,即通過活動在最外界的數據從體量上看相當可觀,由外到內追溯扇出上層的勞動比較沉重,從而會理所當然地采取抽樣的方式進行,此項活動的進行必須假定數據世界觀上層的有限集合認定上,堅信必定會將血緣關系歸集到某幾個關鍵數據表達之上,這樣才會使本項活動的實施行為具備基本的意義和價值。從效果上看,對數據進行熵減有利于我們甄別數據關系隱含的內在規律,也有利于我們建立具有良好適應性的數據生態模型,為更好地認識和利用數據打下基礎。可以合理暢想一下,當我們就一個焦點議題開展討論后,熵減讓我們迅速聚焦到議題的內核,甚至直面議題背后隱含的現象實質,不必糾纏于不必要的信息干擾,對討論內核進行強化呈現,智力活動所崇尚的方式也可以在計算活動中得以體現。熵減在某種意義上不是對某一類數據分析所采取的手段,而是對數據認識的宏觀行為,其在計算領域內的呈現方式,與我們對事物自然認知而采取的抽象和引申別無二致,如此深入下來,對熵減策略的研究更重要于對熵減活動的歸納,通過對策略模型的推演,可以有效地發揮機器學習的能力,如果在策略模型的研究上實施開展,將會極大降低加工難度。
2建立標簽關系的反向工程
當我們框定了熵減的方法體系后,在數據間建立血緣關系則顯得尤為重要,由于數據生長動力呈現由內而外的泛化驅動,但是本身這種泛化在信息化過程中很多是無組織的行為,缺少邏輯上預先定義,所以數據生成后,大量的數據關系被衰減掉,從正向渠道難以對數據關系建立血緣,工程極其浩瀚復雜。由于血緣關系無法完全在數據生長中自然形成,正向人工干預又存在操作難度,所以反其道而行之則是唯一通道。數據加工的反向性,優勢首先體現在由微觀到宏觀的加工難度大幅下降,因為其工作處于抽象的最底層,使采用眾包模式加工成為可能。其次,這種加工模式,可以在有效建立一種數據關系的閉環管理的同時,不會抑制數據生長的空間和速率,不會因加工效率低而凝固數據資產化的進程。在反向加工的過程中,需要通過標簽聯結數據關系,這時候我們要關注標簽的質量和復用度,由于標簽定義存在難度,所以要松綁標簽定義來促成數據加工的快速實施,解決的重點則遷移到標簽在后期管理中的智能化上。首先,可以通過標簽在關系聯結中的重復出現進行跟蹤,識別是標簽二義性還是加工者的活動差異。活動差異標簽最基本的處理方法是進行聚合,形成知識歸納;二義標簽則需要改進表達。其次,依賴血緣關系建立可視化圖譜,從數據結構工程里可以有效識別關系路徑的黏合點,即發現重復路徑中出現的一個以上的標簽,消除由知識結構差異造成的人為誤會,對標簽進行合并。這樣,通過標簽的智能化后期管理就可以將加工難度上移,建立分層加工的工廠模式。這種加工存在基本準則,并要建立基本的衡量尺度來保證標簽有效性,加工工藝可以從標簽質量、使用度、命中率等指標進行測量。其中,質量有賴于標簽本身定義成分的內涵,要確認其被受眾廣泛理解;使用度是在加工活動中的使用次數,是否被數據關系廣泛應用,使用度較低的標簽要確認其存在價值,通過標簽間同時出現概率決定其含義表達是否具備唯一性;命中率則建立在使用者的自然需要基礎上,如果某一標簽絕少被使用者利用或調度,與整體觀測結果是否存在數值上的明顯差異。整體上看,通過這些基本準則建立標簽管理的異常檢測分析,來保證加工質量的方式具備技術的可行性,但同時更需要對后期的數據運行建立領域指標模型來校驗。
3利用詞條原子化推導入口點
1.1資料來源
AEFI數據來源于中國疑似預防接種信息管理系統。疫苗接種數據來源于中國免疫規劃信息管理系統。1.2統計方法采用描述性流行病學方法,運用EXCEL2007進行統計分析。
2結果
2.1地區分布
2013年鞍山市共報告AEFI189例,與2012年相比(35例)上升了440%。縣級AEFI報告覆蓋率100%。各縣(市、區)AEFI報告數與2012年相比上升了55.56%~4200%。
2.2年齡與性別分布
男女性別比為1.49:1。報告例數排前位的年齡組分別是0歲組(101例,占53.44%)、1歲組(51例,占26.98%)、6歲組(23例,占12.17%)。
2.3疫苗和劑次分布
AEFI涉及的疫苗排前位的分別是:百白破疫苗(70例,占37.04%)、麻風疫苗(36例,19.05%)、白破疫苗(23例,12.17%)。接種疫苗第1劑次發生AEFI128例,占67.73%;第2劑次18例,占9.52%;第3劑次17例,占8.99%;第4劑次26例,占13.76%。以疫苗單劑次統計,AEFI涉及的疫苗排前位的分別是麻風疫苗(36例)、第4劑次百白破疫苗(25例)、白破疫苗(23例)、第1劑次百白破疫苗(22例)。
2.4報告發生率
根據國家免疫規劃疫苗接種率監測報告數據估算,2013年我市AEFI報告發生率為32.27/10萬劑次。國家免疫規劃各疫苗AEFI報告發生率波動在3.82/10萬劑次~125.28/10萬劑次。報告發生率居前位的分別為:麻風疫苗125.28/10萬劑次,白破疫苗84.57/10萬劑次,百白破疫苗65.17/10萬劑次。
3討論
「關鍵詞人口遷移/戶籍制度/市場化改革
改革以來中國發生的大規模人口遷移,是制度變遷和經濟轉型共同作用的結果。中國傳統的計劃經濟體制是圍繞推行重工業優先發展戰略而形成的。在資本稀缺的經濟中,推行資本密集型重工業優先發展戰略,不可能依靠市場來引導資源配置,因而必須通過計劃分配的機制把各種資源按照產業發展的優先序進行配置。由此,以資本和勞動力為代表的資源或生產要素,既無必要,也不允許根據市場價格信號自由流動,因此,隨著20世紀50年代這種發展戰略格局的確定,一系列相關制度安排把資本和勞動力的配置,按照地域、產業、所有制等分類人為地“畫地為牢”,計劃之外的生產要素流動成為不合法的現象。其中把城鄉人口和勞動力分隔開的戶籍制度,以及與其配套的城市勞動就業制度、城市偏向的社會保障制度、基本消費品供應的票證制度、排他性的城市福利體制等,阻礙了勞動力這種生產要素在部門間、地域上和所有制之間的流動。在這種制度下,不存在勞動力市場,農村居民沒有政府的許可不可能向城市流動,勞動和人事部門通過計劃來控制勞動力跨部門流動。
1978年底開始的農村家庭承包制改革,使農戶成為其邊際勞動努力的剩余索取者,從而解決了制度下因平均分配原則而長期解決不了的激勵問題(meng,2000)。與此同時,政府開始對價格進行改革,誘導農民提高農業生產率。在農業剩余勞動力被釋放出來后,非農產業活動更高的報酬吸引勞動力轉移(cook,1999),從而推動農村生產要素市場的發育,原來主要集中在農業的勞動力開始向農村非農產業、小城鎮甚至大中城市流動。
由于各種阻礙勞動力流動的障礙尚未拆除,以及政府鼓勵農村勞動力就地轉移的政策引導,20世紀80年代前期的勞動力轉移以從農業向農村非農產業轉移為主,主要是在鄉鎮企業中就業,即所謂的“離土不離鄉”。但隨著鄉鎮企業遇到來自國有企業、“三資”企業和私人企業越來越強勁的競爭,必須提高技術水平和產品質量,因而鄉鎮企業資本增加的速度逐漸加快,吸納勞動力的速度相應減緩。農村勞動力面臨著越來越強烈的跨地區轉移的壓力。與此同時,外商投資企業、中外合資企業、私營企業和股份公司等其他非國有部門在東部地區發展較快,擴大了對勞動力需求,并成為消除制約勞動力流動體制障礙的一支重要力量。
隨著農村勞動力就地轉移渠道日益狹窄,1983年政府開始允許農民從事農產品的長途販運和自銷,第一次給予農民異地經營以合法性。1984年進一步放松對勞動力流動的控制,甚至鼓勵勞動力到臨近小城鎮打工。1988年中央政府則開了先例,允許農民自帶口糧進入城市務工經商。到20世紀90年代,中央政府和地方政府分別采取一系列措施,適當放寬對遷移的政策限制,也就意味著對戶籍制度進行了一定程度的改革。例如,許多各種規模的城市很早就實行了所謂的“藍印戶口”制度,把絕對的戶籍控制變為選擇性地接受。此外,1998年公安部對若干種人群開了進入城市的綠燈,如子女可以隨父母任何一方進行戶籍登記,長期兩地分居的夫妻可以調動到一起并得以戶籍轉換,老人可以隨子女而獲得城市戶口,等等。雖然執行時在一些大城市遇到阻力,但至少在中央政府的層次上為戶籍制度的進一步改革提供了合法性依據。城市福利制度的改革也為農村勞動力向城市流動創造了制度環境。80年代后期開始逐步進行的城市經濟改革,如非國有經濟的發展,糧食定量供給制度的改革,以及住房分配制度、醫療制度及就業制度的改革,降低了農民向城市流動并居住下來和尋找工作的成本。
與其他方面的政策改革相比,戶籍制度改革在很長時間里沒有實質性的突破,成為勞動力流動的最大障礙。所有在就業政策、保障體制和社會服務供給方面對外地人的歧視性對待,都根源于戶籍制度。隨著時間推移,兩方面的因素變化推動政府對遷移政策進行改革。一是城市戶籍制度不再擁有外部或隱含的福利,也就是地方政府不再根據個人的戶籍來提供就業、社會福利等各方面保障。這樣,城市人口規模擴張不會給地方政府增添額外財政負擔。二是地方政府意識到,勞動力流動不僅帶來資源重新配置,而且也是城市融資的一個重要來源。這樣,市場化發育水平相異的城市根據各自目標來推進城市戶籍制度改革。
可見,通過戶籍制度及一系列其他阻礙人口遷移的制度因素的改革而推動的勞動力流動,不僅是經濟發展的一個重要內容,也是整個經濟體制向市場機制轉變的重要進程,并且以其他領域改革的進展為前提。這個轉變或改革的結果便是勞動力市場的形成與發育,勞動力資源越來越多地由市場來配置。而在整個經濟不斷市場化的過程中,人口遷移也表現出轉軌時期的特點。這是中國轉軌時期人口遷移的特殊性所在。本文旨在利用2000年人口普查資料來分析人口流動與市場化之間的關系。
一、轉軌時期人口遷移理論
人口和勞動力在地區間的流動,是勞動力市場在空間上從不均衡向均衡轉變的過程。發展中國家在其經濟發展過程中,伴隨著工業化和城市化發展,大量農村人口和勞動力從農村流向城市,從低生產率的農業部門流向生產率較高的工業部門。劉易斯(lewis,1954)認為,發展中國家存在著典型的二元經濟結構,農村存在著大量剩余勞動力和隱蔽性失業,農業中勞動力的邊際生產力幾乎等于零或為負值,農村勞動力從農業部門流出不會對農業產出帶來負面影響,反而使留在農業部門勞動力的邊際產出不斷提高;隨著城市中勞動力數量不斷增加,城市工資水平開始下降,直至城市部門的工資水平與農業部門的工資水平相等,農村勞動力向城市流動才會停止。在劉易斯的模型中,勞動力在城鄉之間可以自由流動,不存在顯著的制度。城市現代部門的較高工資水平和傳統農業部門的低工資水平,是勞動力在城鄉之間流動的驅動力量。在托達羅(todaro,1969;harris和todaro,1970)兩部門模型分析中,農村人口和勞動力的遷移取決于城市的工資水平和就業概率,當城市的預期收入水平和農村的工資水平相等時,勞動力在城鄉之間分配和遷移都達到均衡。
由于城市經濟存在著現代正規部門和非正規部門之分,農村勞動力向城市遷移首先進入非正規部門,然后才有可能進入正規部門就業。城市正規部門就業創造率越大,越有利于將更多的非正規部門勞動力轉入正規部門;城鄉收入差距越大,從農村流向城市非正規部門勞動力數量越多,城市非正規部門勞動力規模也越大。由于城市正規部門的就業創造率取決于工業產出增長率及該部門的勞動生產率增長率,城市工業的快速增長將有利于提高正規部門的就業創造率,從而減少城市非正規部門的勞動力規模。但是,這個效應有可能被城市工資增長所誘發的大量新增農村勞動力流入所抵消。因此,城市正規部門的就業創造結果帶來了城市失業率的上升。
費爾茨(fields,1974)認為,托達羅模型中沒有考慮農村勞動力在城市正規部門尋找工作的概率問題。由于非正規部門勞動力獲得正規部門就業機會的相對概率較低,流入城市的農村勞動力大多數只能滯留于非正規部門。他們之所以能夠接受較低的工資水平,主要是在于他們預期能夠從得到的城市正規部門工作機會中獲得補償。在托達羅模型基礎上,費爾茨引入了搜尋工作機會的觀點,一方面強調了城市制度工資和相對就業概率對遷移過程的影響,另一方面也指出,非正式部門大量不充分就業的勞動力保證了勞動力市場實現均衡時的失業率低于托達羅模型得出的估計。非正式部門大量不充分就業的勞動力存在,在一定程度上緩解了城市的失業問題。
隨著勞動力流動,城鄉勞動力市場開始相互作用。但是,根據托達羅理論,城市失業率上升將起到減緩人口繼續向城市遷移。如果依據費爾茨的觀點,城市勞動力市場似乎對農村勞動力流動的影響不大。相比之下,在成熟的市場經濟中,城市的失業率是影響勞動力流動的重要因素。托普爾(topel,1986)利用美國人口普查資料研究發現,1970~1980年,美國東部、中部和北部各州的平均失業率相對于全國水平上升了23%,同時西部和西南部各州的失業率卻顯著下降。同期,人口遷移的空間流向恰好與此相反,人口凈流入地區為西部和西南部地區,東部、中部和北部均為人口凈流出地區。
中國的人口遷移不僅具有發展中國家的一般特征,而且還有經濟體制轉型的獨特之處。如前所述,中國特有的戶籍制度及其改革過程,為人口和勞動力自由流動和擇業提供了制度基礎,這也是研究其他國家人口遷移的理論沒有遇到過的問題。隨著時間的推移,包括戶籍制度在內的各項市場化改革措施必然對人口與勞動力遷移產生顯著影響。同時,城市就業環境變化也為我們觀察城鄉勞動力市場的相互作用提供了條件。
首先,不僅是城鄉之間、地區之間的收入差距驅動人口的遷移,市場化水平在城鄉和地區間的差異也直接影響農村勞動力遷移決策,從而形成特定的遷移流向。在經濟發展的初期,資本相對稀缺而勞動力相對豐富。因此,中國經濟的比較優勢在勞動密集型產業。在20世紀80年代以前的經濟增長模式下,由于政府采取人為扭曲資金價格的方式,在資金密集型產業上投資過多,抑制了具有比較優勢的勞動密集型產業的發展,導致產業結構的扭曲,資源配置效率的損失。經濟改革以來,通過一系列制度變革,資源配置逐漸轉向勞動力較為密集的產業,較好地發揮了中國勞動力資源豐富的比較優勢。產品和生產要素市場的發育帶來了資源重新配置效率的改善,對經濟增長做出了重要的貢獻(cai等,2002)。由于生產要素市場發育上在地區之間不平衡,這種資源重新配置的效果主要體現在沿海地區。2000年,92.1%進出口貿易集中在東部地區,中西部地區分別為4.3%和3.6%.同年,86.5%的外商直接投資集中在東部地區,中西部地區分別為8.9%和4.6%.因此,勞動力遷移在東部地區更為活躍,遷移的流向也以從中西部地區向東部地區為特征。
其次,正如在其他國家觀察到的那樣,較大的遷移距離增加了交通成本、弱化了社會網絡關系和目的地的就業信息,減少了遷移者的收益預期,因此,遷移距離上升降低了遷移發生概率。工作的不穩定性和信息獲得的不確定性,不僅造成了遷移流向是一個從縣內流向縣外,從省內向省外的漸進過程,而且使得親友等社會網絡成為遷移者獲得非正規部門就業信息的主要方式。格林伍得(greenwood,1969)認為,遷移存量對人口在地區之間遷移扮演著社會網絡的作用。先前的遷移可以為后來者提供信息和其他方面的幫助,減少遷移風險,從而對后期的遷移產生影響。蔡fǎng@①(cai,1999)研究發現,75.8%的省內遷移者、82.4%的跨省遷移者的就業信息獲得是通過住在城里或在城里找到工作的親戚、老鄉、朋友獲得的。因此,農村勞動力向城市流動通常受到距離所反映出的社會網絡強弱的限制,形成分階段遷移。
第三,盡管戶籍制度繼續阻隔著農村勞動力向城市遷移,但市場化改革使得城鄉勞動力市場開始融合,城市就業環境變化必然對農村勞動力向城市流動帶來影響。隨著國有企業虧損和非國有部門擴大,越來越多的原國有企業職工開始和遷移者在非正式部門展開就業競爭。在這種情況下,農村勞動力“是走還是留”,取決于正式部門和非正式部門的就業狀況,而且其決策通常是暫時的,而不是長期的。這與harris和todaro(1970)模型中所討論的情況(遷移者在非正式部門臨時就業、等待得到正式部門就業機會),以及sethuraman(1981)觀察到其他發展中國家的情況(大多數遷移者將他們在非正式部門就業視為永久性的)都有顯著差異。一個普遍觀察到的現象是,中國農村勞動力向城市和發達地區流動,通常具有季節性特點,最多以年為單位在原住地和遷入地之間往返,呈現出“鐘擺式”的流動模式。正如solinger(1999)指出的那樣,城市對農村勞動力的大量需求是推進戶籍制度改革的必要條件。在非國有經濟、特別是外商投資較快的地區,市場力量日益顯現,遷移受到鼓勵。
二、空間分布特征變化
1990年以來,中國地區收入差距進一步擴大,吸引了中西部地區勞動力向東部地區流動。同時,要素市場發育及資源配置市場化程度,對地區經濟增長越來越起著主導性的作用。東部地區不僅對外開放時間早,而且市場發育迅速,較高的市場化水平不斷消除了勞動力等要素跨地區間流動的制度,以至成為勞動力流動的主要吸納地區。而勞動力向東部地區流動反過來也推動了該地區的經濟增長,改善了勞動力資源配置效率(cai等,2002)。表1顯示了人口遷移空間分布狀況的長期變化。1987~2000年,人口遷移的空間分布特征是:地區內部遷移(其中主要是省內遷移)比例始終高于地區間的遷移比例。但地區內部和地區之間的遷移比例則隨著時間不斷發生變化。東部地區內部遷移比例提高,東部地區流向中西部地區的比例下降。而中西部正好與此相反,中部和西部地區內部遷移比例趨于下降,中部向西部、西部向中部的遷移比例也在下降,而中西部向東部地區流入比例不斷上升。
注:(1)從統計口徑上看,1987年遷移數量包括遷入時間在半年以上的市、鎮和縣之間的遷移人口;1990年遷移數量包括遷入時間在1年以上的市、縣之間的遷移人口;1995年遷移數量包括遷入時間在半年以上的市,區、縣之間的遷移人口;2000年遷移數量包括遷入時間在半年以上的鄉、鎮、街道之間的遷移人口。(2)全部遷移人口包括地區內部和地區之間的人口遷移,不同年份在遷移時間規定和遷移范圍上的差別對地區之間分布會帶來一定影響。盡管如此,我們仍可以比較不同年份之間遷移流向的變化。
資料來源:《1987年全國1%人口抽樣調查資料》、《1995年全國1%人口抽樣調查資料》、《中國1990年人口普查資料》、《中國2000年人口普查資料》。
根據2000年第五次人口普查的10%資料顯示,全部遷移人口數量為1246萬,占總人口的10.6%,其中省內遷移為7.7%、跨省遷移為2.9%.在總遷移人口中,省內遷移的比重始終很高,為73.4%.當我們描述跨省遷移的流向時,其主要以東部地區為遷移目的地的傾向更加明顯。表2給出了三類地區跨省遷移比例的空間交叉分布。2000年,東部地區跨省遷移近65%集中在東部其他各省(市),中部地區跨省遷移超過84%集中在東部地區,西部地區跨省遷移超過68%集中在東部地區。從時間趨勢上看,1987~2000年,東部地區內部跨省遷移比例上升了近15%,而中西部地區向東部地區遷移比例上升將近24%,后者比前者高出9個百分點。
從流動的出發地和目的地看,遷移可以被劃分為城市到城市的遷移、城市到農村的遷移、農村到農村的遷移和農村到城市的遷移四種主要類型。從這種類型劃分來觀察地區間遷移的流向,也有助于我們理解轉軌時期中國人口遷移的特點。從全國來看,城市到城市的遷移和農村到城市的遷移是目前遷移的主要形式。2000年,兩者合計占總遷移人口的77.9%,而且農村到城市遷移的比重(40.7%)大于城市到城市的遷移(37.2%)。農村到農村的遷移比重較低,僅占全部遷移的18.2%.而城市到農村的遷移比例最低,不到總遷移人口的1/25.從時間趨勢看,城市到城市的遷移所占比重,在東部、中部和西部三類地區都呈現上升趨勢,而農村到城市的遷移比重略呈下降趨勢。
三、遷移的決定因素:計量分析
在遷移決定因素的實證分析中,早期的遷移模型將重力遷移模型和就業為目的的遷移模型合二為一,假定遷移數量不僅與遷入地和遷出地的人口和遷移距離有關,而且取決于兩個地區之間的工資和失業率的比較。通常,采用下列雙對數模型來分析這些因素對遷移流向的影響(lowry,1966;greenwood,1969;fields,1979)。即:。式中,m為遷移率,x為影響遷移流向的各種因素,d為遷移距離,i,j分別為遷出地和遷入地。
舒爾茨(schultz,1982)認為,人口變量反映的是其他影響遷移而沒有在模型出現的社會經濟變量的作用,它沒有行為學上的意義。由于遷移是人口增長的一部分,在遷移實證模型中引入人口規模會帶來計量上的共同偏差(fields,1979)。而且,由于遷移存量實際上是人口規模的一部分,如果在實證模型中同時引入這兩個變量,將帶來嚴重的多重共線問題,大大降低回歸參數估計的效率。因此,通常做法是在實證模型中不引入人口變量。
在回歸方程的函數形式選擇上,費爾茨(fields,1979)認為,遷移決策本質上是在相互排斥的替代方案之間的一種選擇,非對稱模型比對稱模型對人口遷移具有更強的解釋能力。此外,雙對數線性回歸方程還能夠消除奇異值和異方差對估計效率的影響,滿足理論上就業機會與工資之間的乘積要求,以及提高回歸方程的擬合程度等。他選擇了滯后解釋變量辦法來消除解釋變量的內生性問題。我們也采用了所有解釋變量數據均為1995年數據的辦法來解決遷移模型的內生性問題。
本文數據來自2000年第五次全國人口普查長表資料(10%樣本)和微觀數據(長表1%樣本),1995年全國1%人口抽樣調查資料及國家統計局《中國統計年鑒(1996)》。在數據處理上,正式出版的第五次人口普查長表資料沒有農村向城市跨省遷移勞動力數量及其失業率數據,我們利用第五次全國人口普查的微觀數據計算了這些數據。用于回歸分析變量的統計值見表3.
表3用于回歸分析變量的統計值
注:*根據微觀數據計算。
遷移率的計算,我們采用格林伍得(greenwood,1969)的定義,用1995年11月1日至2000年10月30日從省遷到省的人口數,除以1995年11月1日以前住在省的人口數。根據長表計算得到的遷移率,包括了所有年齡段跨省農村到城市、城市到城市、農村到農村、城市到農村的四種類型遷移人口;用微觀數據計算15~64歲農村勞動力向城市的遷移率。按照這種方法計算得到的兩個遷移率的平均值都不高(見表3)。
遷移距離為省會之間鐵路公里數。中國地域遼闊,鐵路是中國跨省遷移的主要交通方式。這點可以從每年春節農民工返鄉造成的鐵路擁擠狀況中得到印證。遷移距離不僅反應了用于直接交通費用的高低,而且在一定程度上代表了遷移所帶來的心理成本大小。隨著遷移距離增加,遷移帶來的不確定性和遷移風險也會上升,遷移成本隨之增加(schultz,1982;greenwood,1975)。這在勞動力市場不發達的情況下尤其如此。
直接用城市工工資收入和農村人均純收入來作為工資率的變量顯然不合適。隨著收入多元化,相當于實際收入的部分并沒有反映到名義收入之中,城鄉收入在可比性上也存在一定問題(solinger,1995;jefferson,1992)。奧尼爾(o''''neill,1970)建議采用消費指標來克服收入指標作為工資率變量上的不足。我們利用各省城鄉人口作為權重,對城鄉居民人均消費支出進行加權平均,作為各省的工資率變量,預期工資率對遷移流向存在兩種不同的效應。其中,遷入地為正向效應,而遷出地為負向效應。
1995年全國1%抽樣調查和第五次人口普查都對城鄉勞動力的就業狀況進行了統計。1995年調查問卷中有三項指標用來測度勞動力在調查前一周是否處于失業狀態:第一項是從未工作正在找工作,第二項是失去工作正在找工作,第三項是企業停產等待安置的勞動力。2000年人口普查只包括前兩項。據此可以計算得到1995年和2000年城鄉勞動力的失業率,分別為2.2%和3.6%.由于城鄉勞動力的失業率包括了農村勞動力,這低估了城市勞動力市場的就業狀況。《中國2000年人口普查資料》公布了分城市、鎮和農村的經濟活動人口資料,據此計算的城市、鎮和農村的失業率分別為9.4%、6.2%、1.2%.利用2000年微觀數據計算的城市本地勞動力、城市向城市遷移勞動力、農村向城市遷移勞動力的失業率,分別為9.1%、7.9%和3.6%.如果在遷移模型中忽略了遷移存量,將導致高估其他解釋變量對遷移的影響(greenwood,1969)。按照格林伍得的方法,遷移存量應該是以1995年為時點,計算出生在省且居住在省的所有人口。由于中國人口普查資料只提供了出生后一直住在本地和1995年11月1日之前遷入本地等資料,因此,我們采用1995年11月1日之前遷入本地人口指標作為遷移存量的變量。本文中長表的遷移存量包括所有人口,微觀數據的遷移存量只包括15~64歲的人口。我們預期遷移存量對人口遷移有正向效應。
在分析地區人均收入差異和經濟增長中,貿易開放程度通常被看做是影響地區收入增長的重要因素(barro和sala-i-martin,1995;cai等,2002)。貿易開放程度越高,參與國際市場一體化程度也越高。但是,扭曲的貿易和發展戰略也同樣起到擴大出口,提高gdp中的貿易份額比重。相比之下,外商直接投資是國外投資者的選擇。從長期來看,為了獲得最大利潤和規避風險,國外企業在其投資過程中要對各地的產品和要素市場發育情況、體制與政策的透明度等因素進行綜合考慮,并最終做出投資選擇。外資企業進入之后,它利用勞動力市場來解決用人需求,這與國有企業的人事制度形成鮮明對比。因此,我們選擇了外商直接投資作為市場化程度的變量,來分析它們對人口遷移的影響。改革以來,雖然所有省份的外商直接投資數量都在增加,但東部地區與中西部地區之間的差異在不斷擴大。中國人口遷移流向分布主要集中在東部地區,這與東部地區對市場化改革程度較高是分不開的。四、回歸結果與討論
方程1~3是利用第五次人口普查長表資料得到的回歸結果,方程4、5是利用第五次全國人口普查微觀數據得到的回歸結果。由于海南、重慶、與其他省會之間距離未能得到,在回歸中剔除了這3個地區,長表資料中實際用于回歸的樣本數量為756個。在微觀數據中,由于有些省份的遷移率或農村向城市遷移勞動力數量為零,取對數后,這些數據變成缺省值,所以用于回歸的樣本數量為506個。
從表4回歸結果看,利用長表資料得到的回歸方程,解釋了大約60%的所有人口跨省遷移的行為;用微觀數據得到的回歸方程,解釋了大約30%的跨省農村勞動力向城市遷移的行為。表4的非對稱雙對數遷移模型估計結果也表明,遷入地社會經濟變量對人口遷移的影響大于遷出地這些變量所發揮的作用。
回歸方程1~5中大多數解釋變量的回歸系數t值,如遷移距離、人均消費水平、失業率、遷移存量等,都達到了1%或5%的顯著性水平,并且作用方向上與前面的理論預期結果也基本一致。
表4中回歸方程1和2的區別是采用了不同的失業率數據,前者是1995年的失業率,后者是2000年的失業率。使用1995年失業率數據雖然有助于克服內生性問題,但方程1中遷出地失業率回歸系數的絕對值大于遷入地失業率回歸系數的絕對值,這個結果可能與現實情況并不吻合。
1995~2000年,中國城市就業環境發生了急劇變化。伴隨著國有企業改革和城市社會福利體制改革,企業大量富余人員被釋放出來,城市失業率迅速上升。為了解決本地城市職工就業問題,不少地方政府采取了城市就業保護政策,這勢必對以就業為目的的勞動力流動產生較大影響。遷移者是理性的,如果目的地的就業機會較小,遷移者將選擇不流動,以減少遷移風險和成本。這樣,遷入地的就業機會就顯得更為重要。
表4遷移決定因素回歸結果
注:(1)采用異方差檢驗方法(breusch-pagan/cook-weisberg)發現,表中回歸方程的依次為:7.85、1.54、1.38、2.80、4.85.我們對回歸方程1、5采用robust估計來消除異方差的影響。(2)方程1和5的括號內為robustt值,方程2~4括號內為t值,*代表5%顯著性水平,**代表1%顯著性水平。
考慮到2000年失業率真實地反映了就業環境的變化,我們以回歸方程2為基準,分析不同因素對遷移的影響,并進行比較。在其他條件不變的情況下,遷移距離上升1%,遷移率下降1.08%.受遷移距離的影響,2000年跨省遷移人口比例不到30%,絕大多數遷移人口選擇了省內流動。遷移距離在空間位置上是固定的,但改善交通運輸條件和制定合理的交通價格有利于減少遷移者的遷移成本,促進勞動力流動。
在做遷移決策時,潛在的遷移者不僅要考慮兩地之間直接的收入差距,而且還要考慮到就業機會大小。在回歸方程2中,遷入地人均消費水平回歸系數在絕對值上是遷出地的近4倍,但遷入地失業率回歸系數在絕對值上是遷出地的3倍以上。遷入地失業率對遷移決策較大的邊際影響與遷移者面臨的選擇有關。本地勞動力市場狀況是既定的,遷移者對它別無選擇。相反,遷移者對遷入地勞動力市場是可以進行選擇的,失業率越高的地區,遷入數量就會下降。
目的地的就業信息提供和幫助,對遷移決策有重要作用。遷移存量的回歸系數也證實了這一點。社會網絡等非正規信息渠道雖然在遷移中發揮著重要作用,但隨著人口流動規模擴大,加快勞動力市場信息體系建設就顯得非常重要。
將外商直接投資變量引入回歸方程2,就得到回歸方程3.引入這個變量之后,遷移距離和失業率等解釋變量的回歸系數及其顯著性變化不大,而人均消費水平的回歸系數及其顯著性發生較大改變。從絕對值來看,方程3中的人均消費水平回歸系數小于回歸方程2中的回歸系數估計值,遷出地人均消費水平的回歸系數顯著性有所下降,主要是人均消費水平與外商直接投資之間存在較高相關關系導致的結果(注:人均消費水平與外商直接投資的相關系數為0.56.)。跨省人口遷移比例主要分布在東部地區,它與外商直接投資之間存在較強的相關關系(注:外商直接投資與遷移存量之間的相關系數為0.76.),引入外商直接投資變量之后,遷移存量的回歸系數數值下降約50%.為了觀察城市勞動力市場對農村勞動力遷移決策的影響,我們利用微觀數據做進一步分析。回歸方程4引入了農村遷移勞動力的失業率,回歸結果進一步支持上述發現,即遷入地的就業機會對遷移者來說更為重要。回歸方程5引入了城市勞動力失業率。結果表明,城市失業率對于農村勞動力跨省遷移率有顯著性影響,其回歸系數在絕對值上不僅大于回歸方程4中失業率的回歸系數,而且大于回歸方程2中的回歸系數,這說明城市勞動力市場就業形勢確實對農村勞動力的遷移決策有重要作用。改善城市就業環境將有利于促進農村勞動力流向城市,起到加速城市化的作用。
五、結論
20世紀80年代以來在中國出現的大規模人口遷移現象,不僅具有發展中國家從落后的農業經濟向工業經濟轉變的一般特征,還具有從計劃經濟向市場經濟轉變的特殊性。將二者結合在一起,既有助于考察中國獨特的制度特征對人口遷移的影響,又能夠通過對中國案例研究來拓展遷移理論。
經濟發展水平和市場發育程度在地區之間的不平衡,決定了人口遷移的基本方向不僅是從農村向城市的遷移,而且是從中西部地區向東部地區的遷移。既然中國經濟的進一步增長仍然有賴于從生產要素市場發育從而勞動力流動中獲得資源重新配置效率(注:約翰森(johnson,1999)認為,在今后30年,如果遷移障礙被逐漸拆除,同時城鄉收入水平在人力資本可比的條件下達到幾乎相等的話,勞動力部門間轉移可以對年經濟增長率貢獻2~3個百分點。),加快中西部地區市場制度的建設,特別是清除阻礙勞動力市場發育的各種制度,可以引導和規范人口遷移,使其不僅具有微觀理性,而且具有更加理性的宏觀后果。市場化改革措施(如擴大外商直接投資和對外貿易等)所帶來的經濟發展將有助于獲得“一石二鳥”的功效,也就是講,它為勞動力流動不斷營造同樣的發展環境,并在創造就業機會的同時,推進城鄉戶籍制度改革。
「作者簡介蔡昉中國社會科學院人口與勞動經濟研究所所長、研究員;王德文中國社會科學院人口與勞動經濟研究所,副研究員。
「參考文獻
1.中國社會科學院人口研究所(1988):《中國74城鎮遷移抽樣調查(1986)》,《中國人口科學》編輯部。
2.國家統計局(1988):《1987年全國1%人口抽樣調查資料》,中國統計出版社。
3.國家統計局(1997):《1995年全國1%人口抽樣調查資料》,中國統計出版社。
4.國務院人口普查辦公室(1993):《中國1990年人口普查資料》,中國統計出版社。
5.國務院人口普查辦公室(2002):《中國2000年人口普查資料》,中國統計出版社。
6.barro,r.&x.sala-i-martin(1995),economicgrowth.newyork:mcgrawhi,inc.
7.cai,fang(1999),spatialpatternsofmigrationunderchina''''sreformperiod,asianandpacificmigrationjournal,vol.8,no.3.
8.cai,fanganddewenwang(1999),sustainabilityofeconomicgrowthandlabourcontributioninchina,journalofeconomicresearch,no.10.
9.cai,fang,dewenwangandyangdu(2002),regionaldisparityandeconomicgrowthinchina:theimpactoflabormarketdistortions,chinaeconomicreview,13,197-212.
10.cook,sarah(1999),surpluslaborandproductivityinchineseagriculture:evidencefromhouseholdsurveydata,thejournalofdevelopmentstudies,vol.35,no.3:16-44.
11.fields,g.s.(1974),rural-urbanmigration,urbanunemploymentandunderemployment,andjob-searchactivityinldcs,journalofdevelopmenteconomics2,165-187.
12.fields,g.s.(1979),placetoplacemigration:somenewevidence,reviewofeconomicsandstatistics,vol.61,issue1,21-32.
13.greenwood,j.michael(1969),ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates,reviewofeconomicsandstatistics,vol.51,issue2,189-194.
14.greenwoodj.michad(1975),researchoninternalmigrationintheunitedstates:asurvey,journalofeconomicliterature,vol.13,issue2,397-433.
15.harris,j.,andm.todaro(1970),migration,unemploymentanddevelopment:atwosectoranalysis,americaeconomicreview40,126-142.
16.jefferson,g.h.andt.g.rawski(1992),unemployment,underemploymentandemploymentpolicyinchina''''scities,modernchina,18(1),42-71.
17.johnson,d.gale(1999),agriculturaladjustmentinchina:thetaiwanexperienceanditsimplications,officeofagriculturaleconomicsresearch,theuniversityofchicago.
18.leweis,w.a.(1954),economicdevelopmentwithunlimitedsuppliesoflabor,themanchesterschoolofeconomicandsocialstudies22,139-191,reprintedina.n.agarwalaands.p.singh(eds.),theeconomicsofunderdevelopment.bombay:oxforduniversitypress,1958.
19.lin,j.yifu,fangcai,andzhouli(1996),thechinamiracle:developmentstrategyandeconomicreform,hongkong:chineseuniversitypress.
20.lowry,i.s.(1966),migrationandmetropolitangrowth:twoanalyticalmodels.sanfrancisco:chandlerpublishing.
21.meng,xin(2000),labormarketreforminchina,cambridge,uk:cambridgeuniversitypress.
22.o''''neill,j.a.(1970),theeffectofincomeandeducationoninter-regionalmigration,unpublishedph.d.dissertation,columbiauniversity.
23.schultz,t.paul(1982),lifeiimemigrationwithineducationalstratainvenezuela:estimatesofalogisticmodel,economicdevelopmentandculturalchange,30(3),559-594.
24.solinger,d.(1995),thechineseworkunitandtransientlaborinthetransitionfromsocialism,modernchina,21(2),155-183.
25.solinger,d.(1999),citizenshipissuesinchina''''sinternalmigration:comparisonswithgermanyandjapan,politicalsciencequarterly,vol.114,no.3,455-478.
26.s.v.sethuramaned.(1981),theurbaninformalsectorindevelopingcountries,geneva:internationallaboroffice.
整個系統以廣電大數據分析平臺為基礎構建,系統由數據采集系統、數據分析中心、三個數據應用中心(推薦中心、決策中心和服務中心)組成和系統管理模塊組成。
1.1數據采集系統
大數據時代,大數據有著來源復雜、體量巨大、價值潛伏等特點,這使得大數據分析必然要依托計算機技術予以實現.因此從兩個方向上加強數據采集統建設,一是側重于數據的處理與表示,強調采集、存取、加工和可視化數據的方法;二是研究數據的統計規律,側重于對微觀數據本質特征的提取和模式發現,在兩個方向上的協同、均衡推進,以此來保障大數據平臺應用的穩健成長和可持續發展.廣電的網絡和用戶是其核心資產,而其中流動的數據(包括用戶基礎數據、網絡數據、網管/日志數據、用戶位置數據、終端信息等)是核心數據資產.對于廣電運營商來說,最有價值的數據來自基礎網絡,對于基礎網絡數據的挖掘和分析是運營商大數據挖掘的最重要方向.因此其數據采集的目標包括機頂盒數據、CRM數據、帳務數據、客服數據、運維數據、媒資數據、GIS數據、財務數據和其他手工錄入、表格數據.采集頻率要求可以實現實時采集和定時批量采集.采集這類數據帶來一個問題就是各類數據雜亂無章,會導致數據質量問題越來越嚴重,通過引進實時質量監控和清洗技術,建設強大的分布式計算和集群能力,提高數據監控和數據采集性能,利用分布式處理技術,實現數據抽取、數據清洗以及相應的數據質量檢查工作,保證采集到高質量的數據,將廣電大數據中心建設成一個覆蓋廣電系統全部數據的存儲中心,具備采集各類結構化、非結構化海量數據的處理能力.
1.2數據分析中心
廣電企業每時每刻都在產生大量的數據,需要對這些數據歸集、提煉,廣電企業大數據平臺建設的意義在于有效掌握規模龐大的數據信息,對這些數據信息進行智能處理,從中分析和挖掘出有價值的信息.在廣電大數據分析中需要對直播節目分析、互動業務分析、互聯網流量分析、互聯網內容分析、廣電客戶分析、市場收益分析、智能內容推送和廣告分析等,通過這類數據分析,能夠實時了解廣電運營商的經營狀況,提供決策支持.因此采用兩種方式分析方法對收集到的數據進行分析處理.一是采用在線分析方法技術,使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的.這些信息是從原始數據直接轉換過來的,他們以用戶容易理解的方式反映企業的真實情況.在線分析策略是將關系型的或普通的數據進行多維數據存貯,以便于進行分析,從而達到在線分析處理的目的.這種多維數據存儲可以被看作一個超立方體,沿著各個維方向存貯數據,它允許分析人員沿事物的軸線方便地分析數據,分析形式一般有切片和切塊以及下鉆、挖掘等操作.二是數據挖掘是從海量、不完全的、有噪聲的數據中挖據出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規則.這些規則蘊含了數據庫中一組對象之間的特定關系,揭示出一些有用的信息,可以為經營決策、市場策劃和金融預測等方面提供依據.
1.3數據應用中心
在大數據分析平臺應用過程中,數據本身并不是數據分析和數據挖掘的重點,重點在于如何應用這些技術去解決企業在運營中實際的商業問題.通過對數據分析和挖掘,了解企業運行過程存在問題,預判企業中各類業務發展走向.對數據分析與挖掘結果來說主要有兩個方面,一是將分析結果給客戶使用,另一個是將分析結果提供給內部用戶使用,因此在大數據分析平臺設計中,將數據應用劃分為三個應用中心:
1)推薦中心
推薦中心面向收視、寬帶使用用戶,通過分析使用用戶的收視、互聯網、消費等行為,將使用用戶分群,總結群體特征,向不同群體推薦個性化的電視節目、廣告和增值應用服務.從而提升用戶的使用體驗,提升用戶的滿意度和粘度.
2)決策中心
決策中心面向廣電企業內部決策者、管理者、經營分析人員,通過對企業經營數據的KPI、運營監控、經營盤點,使企業決策者掌握企業運營狀況及發展趨勢;智能報告協助分析人員自動定位經營中的問題;即席查詢在預定義的語義層基礎上,實現靈活的自定義查詢;通過主題分析滿足各部門、崗位的多維度分析需求;通過專題分析就某一具體問題進行深入挖掘,輔助專業分析人員的工作;統計報表滿足各部門常規統計需求.
3)服務中心
服務中心面向廣電的合作伙伴,比如:電視臺、廣告商、服務和內容提供商、相關政府職能部門等.通過對使用用戶收視行為的實時分析,將電視欄目實時收視率提供給電視臺,電視臺根據收視率進行在線的問卷調查,提高電視臺的影響力,幫助其增強欄目的評價體系.為廣告商提供精準的廣告投放策略,實時準確的廣告投放評估,幫助廣告商提升廣告到達率、準確度和營銷效果.為服務和內容提供商的電影、電視和增值應用等產品提升收視率和使用頻率,并進行評估,為其提供受眾喜好特征,幫助其推出有針對性的產品.通過用戶收視數據、節目反饋等信息,將相關輿情向相關政府部門匯報.
1.4系統管理
系統管理是大數據分析平臺一個輔助功能模塊,主要是為了系統管理員對大數據平臺進行有效的監控和管理,提升大數據分析平臺性能使用,包含有如下幾個模塊:權限管理、數據質量管理、元數據管理、調度管理、系統監控等.
2數據應用分析
移動互聯網的發展為傳統行業帶來了新的思考,如何在互聯網時代更好地實現以客戶為中心的服務理念,借助大數據分析平臺、海量的客戶非結構化的行為數據和傳統的結構化數據,可以有效提升廣電個性化、人性化的服務水平.大數據分析平臺通過整合廣電網絡中多個數據源,并按照主題進行劃分,在定義主題的過程中,提供廣電業務概念的規范定義.數據模型不偏重于面向某個應用,而是站在企業角度統攬全局,提供可擴展的模型設計,偏范式化的設計使平臺在最大程度上保持一致和靈活擴展性.依托某廣電網絡公司業務開展情況,搭建數據分析平臺,具有如圖2所示的主題結構,共計8大類53小類,從廣電網絡運營的各個方面進行了數據分析.
2.1直播節目分析主題
直播電視節目作為廣電運營模式中一直沿用的產品類型,對于廣電用戶的影響和廣電運營商運營模式起著至關重要的作用.實時直播節目分析,用戶可以實時查看每個時間點上每個節目收視率,以此為據來指導產品定制、節目選擇、用戶推廣等方面的商業應用,對直播節目的多維度分析,運營商可深入分析直播節目收視特性及受眾影響規律,以指導運營優化,提高節目的收視率和營收.
2.2多媒體業務分析主題
廣電行業的雙向網絡改造不僅將視頻點播、通信及娛樂業務成為可能,同時配備增值業務,如廣告、支付、股票、游戲、付費節目等服務.可以明顯看到哪類業務最受歡迎,哪類業務的增長趨勢良好,哪類業務應用下滑得較快,哪類業務不受用戶歡迎,從這樣的分析結果中,可以為廣電網絡以后的業務引進中提供指導,避免引進的業務不受用戶歡迎,同時也可以預見性的引進一些代表將來趨勢性的業務,提前做好業務儲備工作.互動業務的互動特性為廣電運營商增加客戶粘度、制定產品投放策略、獲取最大化收益及市場價值提供了前所未有的空間,通過對互動業務的應用分析,可以分析出用戶的行為趨勢.利用這樣的分析結果改善廣電業務引進,提高用戶的粘度和ARPU值.
2.3互聯網應用分析主題
廣電作為政府宣傳的喉舌,一個主要的特點就是可管可控,相對此而言,互聯網網絡一個重要特點就是用戶各類行為的不可控性.在三網融合的新環境下,廣電網絡一個重大改變就是引進了互聯網業務,同時通過多屏互動技術使廣電終端類型日益復雜,如何對廣電網絡引進的互聯網業務和終端進行有效的管控,成為擺在廣電網絡運營商面前一個重要課題.運營商可以清晰地看到用戶在討論什么、在看什么,以此來分析用戶將來可能采取的行為趨勢,進而來引導用戶輿論與行為,實現對廣電網絡的可管可控的最終目的.同時廣電網絡也可以利用互聯網數據從如下兩方面做了分析,運營流量及應用優化,節省網絡帶寬,減少運營費,同時用以提高用戶體驗度,增加用戶粘性;充分利用線上、線下同步運營模式,深入挖掘線上討論內容,為線下運營提供指導.
2.4廣電客戶分析主題
在三網融合的環境下,廣電網絡在逐漸擺脫事業單位模式下經營模式,向“市場驅動”、“客戶驅動”經營模式的轉變,“以客戶為中心”的理念和策略不可或缺,而廣電網絡擁有的客戶群和常規用戶分析的客戶群體有著本質區別,以往分析往往針對個體用戶進行分析,廣電網絡面向的用戶通常是以家庭為單位的,這給廣電網絡用戶行為分析帶來不可預料的困難.通過針對用戶群體不同年齡、不同時間段的收視行為和上網行為分析,可以區分某一時間段內該家庭用戶內個人的行為,可以清晰看到各類用戶在各個階段的變化情況,以及這個變化給廣電網絡運營帶來的變化.從用戶信息出發,以用戶應用行為為主線,深入挖掘用戶關系,為廣電用戶關系管理提供有效基礎數據,提高用戶滿意度、忠誠度,提高廣電網絡市場運作的主動性.
2.5市場收益分析主題
三網融合后,廣電網絡作為一個市場主體,需要適應日趨激烈的市場競爭環境,提升廣電運營商的企業核心競爭力,應充分利用業務支撐系統產生的大量寶貴的數據資源,建立廣電企業收益分析系統,實現對收益數據的智能化加工和處理,為市場運營工作提供及時、準確、科學的決策依據.利用先進的OLAP技術和數據挖掘技術,幫助企業的經營決策層了解企業經營的現狀,發現企業運營的優勢和劣勢,預測未來趨勢;幫助細分市場和客戶,指導營銷、客服部門進行有針對性的營銷和高效的客戶關系管理;對決策的執行情況和結果進行客觀準確的評估,深受用戶的青睞.如圖7所示的收益分析結果,可以清晰看出企業各類業務在營收中所占比例,可以明確了解哪類業務是企業的優質業務,哪類業務需要進一步加強開拓市場,同時也可以預測哪類業務會有更大的推廣空間,為企業持續開展業務提供指導.
2.6智能內容推送主題
深層次挖掘用戶潛在的需求,以用戶的需求為導向,向用戶推送有針對性的內容.廣電運營商通過對用戶差異性的運營策略,激發用戶參與的熱情,讓用戶有持續的良好體驗,提升對用戶的吸引力和黏著度.信息精準、智能推送的關鍵在于把握住用戶的行為習慣,同時讓每一個用戶都可以按自己需求方便、快捷地調整、歸類相關信息.大數據分析平臺基于用戶行為收集分析系統,挖掘出用戶潛在需求,充分了解了用戶的真實意愿,將有助于廣電運營商建立以客戶為中心的服務理念,提升社會影響力.
3總結
隨著煙草行業信息化推進現代化進程的快速發展,新興的IT技術、先進的IT技術等已不斷融入到煙草行業的生產、營銷及管理等過程中,逐漸改變了煙草行業原有的經營管理模式,加快了煙草行業結構調整,完善管理體制,提升市場競爭力。可以說,信息化建設給煙草行業帶來了改革與發展。因此,對新興技術的研究與探索,具有十分重要的意義。尤其是視頻監控技術的發展,給煙草行業的帶來了較多的好處,煙草從種植、生產、流通、消費的每個環節中,視頻監控技術都發揮了重要作用。視頻大數據分析技術是近兩年興起的技術,視頻大數據分析的應用,在公安視頻偵查等中已突顯其發展前景,本文將針對煙草行業,討論視頻大數據分析的發展應用。
2視頻監控在煙草行業的發展及應用現狀
(1)煙田監控:實現對煙田、育苗大棚內實時監控;
(2)煙葉收購站監控:實現對煙草所有站點煙葉收購全流程監控視頻調看、查詢、巡視、控制的功能;
(3)生產及公用設施區監控:主要用于監控車間內重要設備、生產線運行、物流線路及環境狀況,以及動力中心車間內空調、鍋爐等重要設備的運行及環境狀況,防止災害和事故的發生。
(4)煙草物流配送中心監控:對物流配送中心進行實時監控;
3視頻大數據分析的技術需求
隨著視頻監控在煙草行業的大規模應用,視頻數據量的增加,每天產生的數據量都是以TB(1000GB)級別計算的,若是利用傳統的技術手段對每天的視頻進行檢索和分析,則需要數小時的時間才能夠完成,工作量及工作難度可想而知;而對于更高級別的視頻數據,如PB(1000TB)級別的視頻數據進行分析和檢索時間那就是很多天了。視頻檢索與分析的效率低下,也是目前視頻數據利用效率及數據價值低下的首要原因。為此,如何提高視頻數據分析與檢索的效率,如何針對PB(1000TB)級別甚至EB(1000PB)級別的海量數據進行分析與檢索,提升視頻監控數據價值,成為了當前用戶的首要需求,也成為了當前視頻大數據分析技術的難點及關鍵點之一。同時,在對視頻進行檢索與分析的過程中,需要考慮檢索結果的準確性。由于視頻圖像信息為非結構化數據,如何合理有效地對非結構化的數據進行檢索分析,優化計算機圖像識別算法,是提高視頻大數據分析準確性關鍵所在。再者,當完成視頻檢索與分析后,如何做好視頻數據與非視屏數據的整合與關聯工作,是后期視頻數據應用時重點考慮的內容。
4視頻大數據在煙草行業的應用思考
時下,煙田監控、煙葉收購站監控、生產及公用設施區監控、煙草物流配送中心監控等的視頻監控數據較多僅僅用作安防視頻使用,還未涉及到與煙草業務的關聯;隨著視頻監控建設的完善及視頻大數據技術發展,各類監控視頻數據量的增加,考慮到投資回報比,是否可以通過視頻大數據分析,將煙草業務與視頻監控相關聯,在海量的視頻監控數據中提取有益于煙草行業發展的變革或新技術呢?
4.1安防業務
基于傳統視頻監控,安防業務是傳統業務之一,通過大數據分析,有效快捷的提取安防所需要的視頻片段。同時基于視頻行為告警策略,及時告警。
4.2安全生產
結合視頻大數據分析,將以往多次生產事故監控視頻整合,通過對多次生產安全事故的分析,總結出更為安全可靠的生產規則;再則通過視頻監控與生產行為的結合,制定安全生產標準,通過聲音報警或警示燈報警等技術,在不符合標準視頻監控預定義的安全規則情況時,能夠及時報警。通過視頻監控分析,提升生產的安全性。如采用彩色網絡快球攝像機和彩色固定網絡槍式攝像機,彩色網絡快球攝像機的預制位設置應優先,根據視頻大數據分析后,系統可提供不同故障區域或設備的故障信號,各工藝段或設備的操作運行信號,通過系統集成與生產監控實現聯動,平常攝像機對正在操作或運行設備進行監控,一旦某個故障點報警,攝像機立刻自動轉動到報警點,監控中心的NVR主機開始錄像等。
4.3效率生產
結合視頻大數據分析,通過分析各個不同煙站或煙廠中的同一種生產行為,結合對海量數據進行智能分析,提取出價值數據片段,形成元數據信息庫,再通過人為加工后期數據,總結形成效率生產有用的價值信息,提供生產借鑒,提高生產效率。
4.4創新生產
通過視頻大數據分析,將以往的視頻通過軌跡分析,得出以往生產過程中各類生產動作中不必要或者多余的部分,簡化或者優化生產規則;通過對給類生產行為的總結,提出合理的建議,為生產提出創新性意見或建議,提高生產率。
5結論
系統主要實現軟件的模塊話設計,包括反射率數據分析模塊、速度分析模塊、天線運行穩定性分析模塊以及雷達組網數據分析模塊。
1.1反射率分析模塊
反射率的大小體現了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數據顯示采用PPI(PlanPositionImage)顯示方式。該方式決定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構成。在設計上簡單介紹其設計流程,首先必須讀取原始數據,并判斷是否首次讀取,若為首次讀取則對其進行預處理,否則進行坐標轉換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關注的關鍵是如何進行數據的預處理。在實現上,對接收的數據進行反射率信息結構體賦值。當然該結構體包括了記錄實際仰角角度、數據文件路徑存儲、雷達波段判斷以及相關數據的偏移。通過掃描上述結構體可以實現對雷達數據的預處理。
1.2速度分析模塊
多普勒雷達采用了速度退化模糊技術以擴大其對徑向風速測量不模糊的區間。結構設計主要考慮數據顯示的徑向方式,流程設計則與反射模塊類似。當然在界面設計上,系統將提供對顏色配置的定義,使其人機交互更為快捷。
1.3天線穩定性分析模塊
天線是雷達數據采集的關鍵部位,長期以來是影響雷達運行的主要關鍵點之一。其依賴于底下的電機進行旋轉,目前大多數進口電機可以保證24小時安全運行。而運行時仰角提升和轉速的平穩性直接影響雷達數據的采集。為此,我們通過在徑向數據上采用方位角及仰角進行掃描實現曲線圖監控。通過選擇基數據再進行預處理后繪制相關曲線實現對天線運行狀態的評估。其中,曲線圖的繪制需要的參數為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。
1.4雷達組網分析模塊
按照民航局的總體規劃,未來空管將實現多氣象雷達覆蓋,在這過程,多個氣象雷達的組網將成為氣象雷達數據的主要來源。這種模式將使得數據覆蓋面更大、數據安全性更高、數據準確性更強。而與此同時帶來了雷達數據融合組網的技術難點。設計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網雷達可選數據;其次對選擇雷達數據進行數據預處理;再之則對雷達數據進行統計平均并做坐標轉換;最后進行拼圖處理。在這過程中,需要對雷達數據的強度進行自適應調整、顯示范圍自適應調整。與上述同理,系統核心在于預處理。在C#中定義List數據列表,并在定義其結構為[站點標示][距離][方位角],對于數據讀取時,需要進行插值算法處理,此時的單時數據拼接分析可以實現不同仰角和方位角的篩選。為了控制系統數據的準確性可以在前端定義雷達數據方位角表,根據表進行映射處理。通常如若出現非連續數據可以在預處理上對其進行差值補償。在C#上可以采用反差圓補償方法。
2.結束語