時間:2022-04-30 18:12:47
序論:在您撰寫大數據分析論文時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
煤礦安全生產和管理是一個與時間和空間相關的過程,其綜合決策分析離不開時間和空間維度的參與,而現有的煤礦信息系統往往缺乏時空維度的決策分析工具,如拓撲分析、緩沖區分析、密度分析、疊置分析、時間和空間趨勢探測分析、時間/空間關聯分析、時間/空間自回歸分析等。煤礦安全生產內涵豐富,既包含了日常性事務性的風險超前預控管理,又包含即時性的風險識別、監測、預測乃至預警,這就給安全生產管理的各類信息系統建設提出了很高的要求,需要滿足監控實時化、系統集成化、數據海量化、分析決策在線化和智能化,這些都是目前信息系統建設的短板。上述問題的存在使得我國煤礦安全生產形勢沒有本質的好轉,諸多信息化建設成果(硬件、軟件)在煤礦安全生產過程中也沒有起到預期的成效。
2.1大數據分析的概念大數據分析
是指數據量急劇積累迅速超出主流軟件工具和人類思維處理的極限,大數據與傳統數據比較起來,有四大特征:數據體量巨大(Volume)、數據類型繁多(Variety)、數據價值密度低(Value)、更新速度快時效高(Velocity)。大數據分析需要全新的數據處理理念和分析工具,洞察發現海量高速增長信息中潛藏的價值[4]。從理念上,大數據分析與傳統數據分析有三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。針對大數據,既有的技術架構和分析工具已經無法滿足要求,需要全新的數據分析方法和技術,這其中包括:(1)大數據分析可視化方法;(2)大數據挖掘算法;(3)預測性分析能力;(4)語義處理能力;(5)數據質量和數據管理技術。
2.2大數據分析系統的建設
根據大數據處理和分析的理念,煤礦安全大數據分析系統的建設目標包括:數據綜合集成、安全知識集成、三維虛擬可視化展示、煤礦安全動態分析診斷。具體建設內容包括:(1)基于物聯網/云計算技術的煤礦安全綜合數據庫。建設煤礦安全大數據分析診斷系統,首先要利用物聯網和云計算技術實現全面綜合的數據集成,將基礎空間和屬性數據、在線監測的實時性數據、專業業務系統的事務性數據綜合集成起來,構建煤礦安全綜合數據庫。(2)基于專家系統的煤礦安全專家知識庫。針對知識集成的目標,整理規范規程體系中的經驗或者理論知識(煤礦安全規程、煤礦作業規程、三違行為知識、隱患界定知識、評估模型、設備操作規程知識、工種操作規程知識),構建煤礦安全動態分析診斷的專家知識庫。(3)建設三維虛擬礦井可視化平臺。針對信息和知識三維虛擬礦井可視化展示分析,主要的建設內容是基于高精度地質模型理論研究開發三維虛擬礦井平臺,實現地層建模、鉆孔建模、斷層建模、工作面建模和巷道建模等工作。然后,基于三維虛擬礦井平臺,實現數據和知識可視化、煤礦安全生產活動可視化、分析和決策過程可視化。(4)研發煤礦安全動態分析系統。針對基于專家知識庫的煤礦安全生產分析決策,需要利用煤礦安全綜合數據庫中的基礎數據、實時監測數據以及事務性數據,根據煤礦安全專家知識庫進行煤礦安全生產狀況評估、推理和演繹,動態分析診斷煤礦安全生產的現狀與趨勢、預測未來,并針對煤礦應急現象做出科學合理的響應對策。
3結語
基本的大數據的處理流程可以分成數據采集、數據處理與集成、數據分析和數據解釋4個階段。首先獲取數據源的數據,因為在數據源端的數據包含各種各樣的結構,需要使用某種方法將其進行預處理,使數據成為某種可以用一種算法分析的統一數據格式,接著需要找到這種數據分析的算法,將預處理過的數據進行算法特定的分析,并將分析的結果用可視化等手段呈現至用戶端。
1.1數據采集
大數據的采集是整個流程的基礎,隨著互聯網技術和應用的發展以及各種終端設備的普及,使得數據的生產者范圍越來越大,數據的產量也越來越多,數據之間的關聯也越來越復雜,這也是大數據中“大”的體現,所以需要提高數據采集速度和精度要求。
1.2數據處理與集成
數據的處理與集成主要是對前一步采集到的大量數據進行適當的預處理,包括格式化、去噪以及進一步集成存儲。因為數據采集步驟采集到的數據各種各樣,其數據結構也并不統一,不利于之后的數據分析,而且,一些數據屬于無效數據,需要去除,否則會影響數據分析的精度和可靠性,所以,需要將數據統一格式并且去除無效數據。通常會設計一些過濾器來完成這一任務。
1.3數據分析
在完成了數據的采集和處理后,需要對數據進行分析,因為在進行數據分析后才能體現所有大數據的重要價值。數據分析的對象是上一步數據的處理與集成后的統一格式數據,需要根據所需數據的應用需求和價值體現方向對這些原始樣本數據進一步地處理和分析?,F有的數據分析通常指采用數據倉庫和數據挖掘工具對集中存儲的數據進行分析,數據分析服務與傳統數據分析的差別在于其面向的對象不是數據,而是數據服務。
1.4數據解釋
數據解釋是對大數據分析結果的解釋與展現,在數據處理流程中,數據結果的解釋步驟是大數據分析的用戶直接面對成果的步驟,傳統的數據顯示方式是用文本形式體現的,但是,隨著數據量的加大,其分析結果也更復雜,傳統的數據顯示方法已經不足以滿足數據分析結果輸出的需求,因此,數據分析企業會引入“數據可視化技術”作為數據解釋方式。通過可視化結果分析,可以形象地向用戶展示數據分析結果。
2云計算與大數據分析的關系
云計算是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。目前,國內外已經有不少成熟的云計算的應用服務。數據分析是整個大數據處理流程里最核心的部分。數據分析是以數據的價值分析為目的的活動,而基于大數據的數據分析通常表現為對已獲取的海量數據的分析,其數據來源可能是企業數據也可能是企業數據與互聯網數據的融合。從目前的趨勢來看,云計算是大數據的IT基礎,是大數據分析的支撐平臺,不斷增長的數據量需要性能更高的數據分析平臺承載。所以,云計算技術的不斷發展可以為大數據分析提供更為靈活、迅速的部署方案,使得大數據分析的結果更加精確。另一方面,云計算的出現為大數據分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業也可以通過云計算來實現屬于自己的大數據分析產品。大數據技術本身也是云計算技術的一種延伸。大數據技術涵蓋了從數據的海量存儲、處理到應用多方面的技術,包括海量分布式文件系統、并行計算框架、數據庫、實時流數據處理以及智能分析技術,如模式識別、自然語言理解、應用知識庫等等。但是,大數據分析要走向云計算還要賴于數據通信帶寬的提高和云資源的建設,需要確保原始數據能遷移到云環境以及資源池可以隨需彈性擴展。
3基于云計算環境的Hadoop
為了給大數據處理分析提供一個性能更高、可靠性更好的平臺,研究者基于MapReduce開發了一個基于云計算環境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(HDFS)、分布式數據庫(Hbase、Cassandra)等功能模塊在內的完整生態系統,已經成為當前最流行的大數據處理平臺,并被廣泛認可和開發應用?;贖adoop,用戶可編寫處理海量數據的分布式并行程序,并將其運行于由成百上千個節點組成的大規模計算機集群上。
4實例分析
本節以電信運營商為例,說明在云計算環境中基于Hadoop的大數據分析給大數據用戶帶來的價值。當前傳統語音和短信業務量下滑,智能終端快速增長,移動互聯網業務發展迅速,大數據分析可以為運營商帶來新的機會,幫助運營商更好地轉型。本文數據分析樣本來自于某運營商的個人語音和數據業務清單,通過Hadoop2.6.0在Ubuntu12.04系統中模擬了一個大數據分析平臺來處理獲得的樣本。希望通過對樣本數據的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數據中所蘊含的價值要遠遠大于本文體現的。以上舉例意在說明基于云計算的大數據分析可以在數據分析上體現出良好的性能,為企業帶來更豐富更有效率的信息提取、分類,并從中獲益。
5結束語
關鍵詞:大數據 交易平臺 數據資源 數據分析服務 融合
1.引言
目前發展大數據產業已經上升為國家戰略,大數據的價值也得到了社會的廣泛認可。眾多研究[1-5]表明,大數據不僅為政府治理開辟了新思路,還是企業創新的重要源泉和高校科研的重要支撐。大數據交易平臺是整個大數據產業的基礎與核心,它使得數據資源可以在不同組織之間流動,從而讓單個組織能夠獲得更多、更全面的數據。這樣不僅提高了數據資源的利用效率,更重要的是,當一個組織擁有的數據資源不斷豐富和立體化,有助于其通過數據分析發現更多的潛在規律,從而對內提高自身的效率,對外促進整個社會的不斷進步。
在現有的大數據交易平臺上,數據供應方和需求方各自供需信息,交易雙方瀏覽這些信息,如果發現合適的交易對象,則進行大數據資源的買賣,交易平臺只作為信息中介存在。這類大數據交易的本質,其實是單獨的大數據資源交易,現有平臺可以統稱為第一代大數據交易平臺。第一代大數據交易平臺在供需平衡、數據定價和時效性三個方面都存在較大的不足。本文針對這些不足進行改進,設計了一種全新的第二代大數據交易平臺,命名為:融合數據分析服務的大數據交易平臺,該平臺將數據資源交易與數據分析服務進行深度融合,實現了數據與服務的一體化交易。本研究不僅為當下正在建設的各類大數據交易平臺提供有益的借鑒,也豐富了大數據交易的基礎理論體系。
2.相關研究
目前大數據交易的相關研究中,比較有代表性的有:
(1)大數據的財產屬性和所有權。王玉林等[6]對大數據的財產屬性展開研究,認為大數據的法律屬性會直接影響大數據產業的發展,而大數據交易實踐本身就反映出大數據具有財產屬性。但大數據與傳統的財產權客體存在較大不同,它符合信息財產的特征,是信息財產權的客體,應受到相關法律的保護。齊愛民等[7]從宏觀的角度分析了國家對于其主權范圍內數據的所有權,剖析了個人擁有的數據權以及數據的財產權。
(2)大數據的定價問題。劉朝陽[8]對大數據的定價問題展開研究,首先分析了大數據的基本特征、價值特征等定價基礎。接著討論了效用價格論、成本價格論等定價模式。最后分析了大數據的定價策略,并對大數據定價的雙向不確定問題進行了詳細論述。劉洪玉等[9]認為在大數據交易過程中,由于缺乏足夠的歷史參考,其數據資源的交易價格很難確定,因此提出一種基于競標機制的魯賓斯坦模型,用于大數據交易雙方進行討價還價,以求達成一個交易的均衡價格。翟麗麗等[10]從資產的期權價值角度來評估大數據資源的價值,并指出數據在不斷變化和更新,加上數據的非獨占性等情況的出現,數據資產的價值可能會下降,最后綜合這些因素構建了一個評估模型來計算數據資產的價值。
(3)大數據交易的安全與隱私保護。史宇航[11]認為非法的數據交易會對個人數據等高價值信息的安全造成影響,對非法數據交易的購買方和協助方都應進行處罰。提出應先明確數據的法律屬性,再以數據交易所為平臺進行交易,并對數據交易所的法律地位進行了分析。殷建立等[12]為應對大數據時代數據采集、交易等過程中的安全問題,綜合考慮技術、政策和管理平臺等方面的因素,構建了一種個人數據溯源管理體系,該體系可在數據應用時實現個人數據的追蹤溯源,從而保護其個人隱私。王忠[13]認為大數據環境下強大的數據需求會導致個人數據的非法交易,為應對這種情況,應該建立個人數據交易許可機制,通過發放交易許可證、拍賣授予等措施實現隱私保護。
(4)大數據交易的發展現狀與問題。楊琪等[14]認為我國的大數據交易還處于行業發展的早期,大量數據源未被激活,原因是大數據產業價值鏈的各個專業環節發展滯后,并且對數據交易中的安全問題和隱私泄露等有較大的擔憂。應該對數據產品進行改造,使其更商品化,并且通過政府開放公共數據等措施逐漸消除數據流通中的安全顧慮。唐斯斯等[15]首先分析了我國大數據交易的發展特點、交易類型等現狀,接著指出目前大數據交易存在法律法規相對滯后、行業標準不完善、交易平臺定位不明確、數據質量不高等問題,最后提出應加快相關法律和標準建設,并推動數據開放,加強交易方式的創新。
除了上述四個主要研究方向以外,李國杰等[16]從理論的角度分析了大數據研究在行業應用和科學研究方面的重要作用,這從客觀上反映了大數據流通的必要性。涂永前等[17]認為大數據時代企業管理和運用數據資源的相關成本會成為企業的主要交易成本,這會改變企業的組織結構,并導致企業邊界的變化,企業會進行多方向的擴張,這為促進大數據產業發展的相關法律的制定提供了理論支持??偟膩砜?,由于大數據交易本身屬于較新的領域,因此相關研究總體上較少,已有研究也大多集中在上述幾個研究方向上。實際上,大數據交易平臺是實現大數據交易的重要載體,是大數據資源流通轉換的主要節點,交易平臺本身需要隨著整個大數據產業的發展,不斷的改進和升級,而現有研究中恰恰缺少對大數據交易平臺本身進行創新的研究。由此,本文針對現有大數據交易平臺的不足,結合實際設計了一種全新的融合數據分析服務的大數據交易平臺,為實踐和科研提供借鑒和參考。
3.現有大數據交易平臺的不足
大數據本身作為一種新興事物,當把它作為一種商品進行交易時,其交易平臺的設計很自然會參照傳統的商品交易模式,即:交易雙方先供求信息,再經過討價還價,達到一個均衡的價格則成交,賣方將大數據資源經過脫敏處理后,交付給買方。目前無論是政府主導的大數據交易所,還是企業或者高校創建的大數據交易平臺,都是采用類似的交易模式,這也是第一代大數據交易平臺的突出特點。實際上大數據與傳統商品有很大的區別,照搬傳統商品的交易模式會出現很多問題。本文將從供需平衡、數據定價和時效性三個方面分析現有大數據交易平臺的不足。
3.1 數據供需的錯配
現有大數據交易平臺的第一點不足就是數據供需的錯配,即:供應方提供的數據資源往往不是需求方所需要的,而需求方需要的數據在交易平臺上找不到,即使有相近的數據資源,也存在很大的數據缺失或冗余,買回去也無法使用。對數據供應方來說,由于無法準確預知數據買方多樣性的需求,它只能從自身角度出發,將可以公開的、并且自認為有價值的數據資源放到平臺上待售。對需求各異的買方來說,供應方提供的標準數據很難與自己的應用方向精準匹配,這也是目前大數據交易還不夠活躍的原因。當然,當供需雙方建立初步聯系以后,供應方甚至可以為需求方個性化定制大數據資源,但即使這樣,供需錯配的問題仍然無法解決,原因就在于單個的數據供應方無法提供多維的數據資源,只有多維的數據資源才具有較高的分析價值。
3.2 大數據資源定價困難
大數據資源定價困難是現有大數據交易平臺的第二點不足。大數據資源和普通商品不同,普通商品可以直接消費或者作為再加工的原材料,其價值都可以通過最終的消費品價格得到體現。而大數據本身的價值無法直接衡量,需求方購買它的目的是作為數據分析的信息源,但是否能發現潛在的規律還未可知。因此無法在購買前,準確判斷出待售數據資源的價值大小。此外,需求方在不確定某大數據資源是否能真正能給組織帶來收益情況下,很難給出一個較高的價格,這在客觀上會影響數據供應方的交易積極性,加大了供需雙方達成交易的難度。
3.3 數據的時效性不強
現有大數據交易平臺的第三點不足,就是數據資源的時效性不強。目前很多大數據交易平臺上待售的數據資源都以歷史數據為主,這是因為數據資源在交易前需要經歷脫敏處理,將涉及政府信息安全、企業商業機密和個人隱私等敏感信息進行變換和替代。此外,供應方還需要對原始數據進行初步的清洗,整理成一定的數據格式集中存貯和交付,方便需求方進行數據分析。由于一般的數據供應方并不具備對大數據進行實時脫敏和清洗的能力,只能將采集到的數據資源,經過一段時間的離線處理后,再放到交易平臺上,所以只能供應歷史數據。隨著社會節奏的不斷加快,歷史數據很可能并不能反映當下的真實情況,越來越多的數據分析都需要用到實時數據作為信息源,這是未來大數據交易必須克服的一個短板。
4.融合數據分析服務的大數據交易平臺設計
本文提出將數據分析服務融合到目前的大數據交易中,以此來克服現有交易平臺的不足,本節將首先對數據分析服務進行概念界定,再依次介紹平臺設計的總體思路和核心模塊的設計,具體如下。
4.1 數據分析服務的概念界定
數據分析是指運用各類數據處理模型和信息技術手段,對數據資源進行深度的挖掘,從而發現其中蘊含的規律,作為管理決策的依據。數據分析本身是一種能力,如果一個組織將其數據分析能力提供給其他組織或個人,并收取一定的費用,這就是數據分析服務。在大數據環境下,數據資源不僅體量巨大而且種類多,對數據分析能力的要求不斷提高。在這種情況下,只有少數組織具備獨立處理大數據的能力,其他的組織比如大量的中小企業,都需要從組織外部尋求專業的數據分析服務,來滿足自身的需要。因此,數據分析服務和大數據資源一樣存在巨大的市場需求。
4.2 平臺設計的總體思路
本文將提出的融合數據分析服務的大數據交易平臺,定位為第二代大數據交易平臺,它將大數據資源交易與數據分析服務兩者進行深度融合,在交易平臺上實現數據與服務的一體化交易。大數據交易平臺的角色也從原來的數據資源買賣的信息中介,轉變為大數據綜合服務商。在融合后的大數據交易平臺上,數據需求方不再提交數據資源的需求信息,而是直接提出自己的應用方向和想要得到的結果,交易平臺再根據需求方的應用方向,反向匹配數據資源和數據分析服務。這個匹配的過程不是單一的數據集或服務的查找,而是對全平臺的數據資源進行有效整合,形成高價值的多維數據,再結合復合型的數據分析技術,得到最終的分析結果,最后將分析結果與基礎數據一同交付給需求方。交付基礎數據的目的,一是方便需求方進行分析結果的對照,為決策提供更精準的參考。二是需求方可以根據基礎數據進行衍生挖掘,進一步提高數據的利用效率。平臺設計的總體思路繪制成圖1。
圖1 平臺設計的總體思路
4.3 核心模塊的設計
融合數據分析服務的大數據交易平臺共劃分為四大模塊,具體如圖2所示。
圖2 融合數據分析服務的大數據交易平臺的主要模塊
系統管理模塊具體又分為用戶管理、系統維護和安全管理。安全管理是系統管理模塊的重點,主要包含三個方面的功能:第一,負責整個交易平臺的系統安全,通過對交易平臺進行實時監控,阻止外部的非法入侵行為,保障平臺的正常運行。第二,對數據供應方提交的數據資源進行審核,如果發現是非法數據,則阻止其交易,并及時將有關情況反饋給相關的政府監管部門,由它們進行調查處理。第三,檢查所有數據是否經過脫敏處理。如果發現部分數據存在未脫敏或者脫敏不合格的情況,交易平臺將負責對該數據資源進行脫敏處理,從而保護數據中的隱私不被泄露。
大數據資源池模塊、數據分析服務模塊和協同模塊是交易平臺的三大核心模塊,是數據與服務兩者融合并實現一體化交易的關鍵,本文接下來將對這三個核心模塊的功能進行詳細設計。
4.3.1 大數據資源池模塊
大數據資源池模塊主要包含三個方面的功能:數據資源格式的整理、數據的多維度整合、大數據資源的云存貯。具體如下。
(1)數據資源格式的整理。由于大數據交易平臺上的數據資源來自不同的數據供應方,因此其數據資源的格式會有較大的差異。如果不經過格式整理就直接進行數據分析,很可能會因部分數據無法準確讀取,而影響數據處理的效率,嚴重者還會導致數據分析中斷。數據資源格式整理的主要任務是將同一類型數據的格式進行統一,對部分缺失的數據屬性進行補充,對錯誤的數據格式進行修正。
(2)數據的多維度整合。在上文3.1中提到供需錯配的一個重要原因,就是單個數據供應方無法提供高價值的多維數據。所謂多維數據是包含用戶或者行業多個背景和情境的大數據資源,這些多維數據使用戶或行業多個側面的信息產生了關聯,有利于發現深層次的潛在規律。融合數據分析服務的大數據交易平臺應該作為數據整合的主體,將單個數據供應方提供的零散的數據資源,進行多維度的整合,當缺少某一個維度的數據時,再向相應的數據供應方進行定向的采集,最后得到相對完整的多維數據,具有很高的分析價值。
(3)大數據資源的云存貯。大數據資源經過格式整理和多維度整合以后,已經可以作為數據分析服務的信息源。下一步就是將這些數據資源進行統一的云存貯,以便數據分析服務調用。以往部分大數據資源由于體量巨大或實時更新的需要,無法上傳到交易平臺上,或者只提供部分調用接口。融合數據分析服務的大數據交易平臺通過建立云存貯中心,將整合后的多維數據進行統一存放和調用,有助于提高數據資源的存取效率。
4.3.2 數據分析服務模塊
數據分析服務模塊首先根據數據需求方的應用方向,匹配出合適的多維數據資源,再選擇相應的數據分析模型分配所需的計算能力,最后將得到的分析結果反饋給需求方。本文將數據分析服務劃分為三個大類:基礎性分析服務、高級分析服務、深度定制的分析服務。具體如下。
(1)基礎性分析服務。基礎性分析服務是指那些常規的數據統計,比如:總體中不同對象的占比分析,基于不同屬性的關聯分析或相關性分析等。這些分析服務耗時較短,分析技術較為簡單,只要數據資源本身完備,就可以迅速得到結果?;A性分析服務由大數據交易平臺本身來提供,可以面對不同的需求方,實現快速交付。
(2)高級分析服務。高級分析服務是指那些較為復雜的數據分析服務,比如:精準的趨勢預測、全面的用戶興趣畫像、非結構化的信息挖掘等。這些分析服務需要大量專業的數據處理技術,比如:興趣建模、視頻分析,音頻分析、深度語義分析等,必須由大數據交易平臺對接第三方的數據分析服務商,由它們來提供高級分析服務。大數據交易平臺在同一數據分析領域,應引入多家數據分析服務商,通過動態的競爭,來保證服務的質量。
(3)深度定制的分析服務。大數據分析目前還處在快速發展階段,很多前瞻性的技術還在試驗當中,應該說數據分析技術的發展相對于旺盛的現實需求來說是滯后的。當需要用的某一數據分析技術,在目前的市場上還找不到現成的提供方時,就需要大數據交易平臺為其進行深度的定制,交易平臺通過多方位的研發能力評估,尋找合適的技術主體來進行專門的技術攻關。
4.3.3 協同模塊
協同模塊主要包含兩個方面的功能:數據分析服務之間的技術協同、交易各方的管理協同。具體如下。
(1)數據分析服務之間的技術協同。在面臨較為復雜的數據分析任務時,可能需要用到多個領域的數據分析技術,這時單個的數據分析服務商可能無法獨立完成。因為不同的行業領域,都有其行業技術的獨特性,需要長時間的專業積累。在這種情況下,就需要多個數據分析服務商相互合作才能完成。數據分析服務之間的技術協同,就是通過一定的技術標準和操作規范,讓多個數據分析技術提供方,能夠在完成同一任務時,在技術上不沖突,能夠相互并行的完成對數據資源的處理,按時按質的交付最終的分析結果。
(2)交易各方的管理協同。在融合數據分析服務的大數據交易平臺上,交易的參與者一共有四類,分別是數據資源的供應方、數據分析服務商、需求方和交易平臺自身。數據需求方在提交自己的應用方向和預期結果的同時,提交自己的交易預算。交易平臺根據需求方提交的應用方向和預期結果,對數據資源和數據分析服務進行反向的選擇。如果數據分析任務中只用到了基礎性分析服務,則整個交易為平臺方、需求方、數據資源供應方的三方交易。如果某數據分析任務,平臺自身無法完成,需要用到第三方的數據分析服務商,則整個交易包含了全部四類參與者,是一個四方交易。交易的基本原則是實現參與各方的利益共享。交易各方的具體利益分配如圖3所示。
圖3 交易各方的利益分配
需求方希望在獲得預期結果的同時,其支付的成本在可接受的范圍內。交易平臺在對數據和服務進行反向匹配后,會出現兩種不同的情況:第一種情況是在原交易預算下,可以達到需求方預期的結果,則可成交。第二種情況是,原交易預算較低,在該預算下無法達到需求方要求的結果,這時交易平臺會和需求方溝通,提出新的報價,需求方經過考慮后,與平臺進行討價還價,它們在價格上達成一致時才能完成交易。由于交易數據是整合后的多維數據,因此原始數據資源供應方的收益,由平臺從總交易價中支付,具體的支付方式可分為平臺一次性買斷或按次數支付。同一數據資源對于不同的需求者來說,其價值是不一樣的,融合數據分析服務的大數據交易平臺根據最終的一體化交易成交價,反向對數據資源進行定價,相對于現有的大數據交易平臺來說,是一種進步。交易平臺的深度參與,會使數據交易的頻率加快,原始數據資源供應方會獲得更多的收益。數據分析服務商根據具體的數據分析任務,直接參與由平臺發起的競價,達成交易后由平臺支付。交易平臺本身的收益則是需求方支付額減去其他各方收益的差價。
5.融合數據分析服務的大數據交易平臺的優勢
本文3.1到3.3中指出現有大數據交易平臺存在數據供需錯配、大數據資源定價困難、數據的時效性不強三大不足。融合數據分析服務的大數據交易平臺作為改進后的第二代大數據交易平臺,可以很好地克服上述三點不足。除了這三個方面的優勢以外,由于融合后可實現數據與服務的一體化交易,這將擴大交易對象的覆蓋范圍,提升交易的活力,具體如下。
5.1 直接面向應用,從根本上避免了數據供需的錯配
在融合數據分析服務的大數據交易平臺上,需求方對交易平臺直接提出應用方向和預期結果。交易平臺對全平臺的數據進行多維度整合,如果缺失某個維度的數據,可以進行定向的采集和補充,最后形成高價值的多維數據。這些多維數據才是真正具有分析價值的數據資源,這是單個數據供應方無法提供的。在得到多維數據后,結合平臺自身和第三方數據服務商的分析能力,得到最終的分析結果。交易平臺最后交付給需求方的是數據分析結果和基礎數據,這種直接面向最終應用的大數據交易方式,從根本上避免了數據供需的錯配。
5.2 融合后定價更有根據
在現有的大數據平臺上,數據需求方是將數據資源買回去以后自己分析,而在購買數據資源之前,不能預知數據分析效果的好壞,因此無法進行有效的價值判斷,這是定價困難的關鍵點。在融合數據分析服務的大數據交易平臺上,需求方不再直接對數據資源付費,而是對最終的數據分析結果付費,并且數據分析結果是根據需求方的要求反向定制的,是符合需求方利益的。需求方可以通過評估預期結果對自身的重要性或收益的改進程度,給出適當的交易預算。交易平臺以該預算為參照,對數據和服務進行選擇,若出現原預算約束下無法實現預期結果的情況,交易平臺再與需求方進行溝通,雙方討價還價后達成交易。這樣相對于現有的大數據交易平臺來說,融合后定價更有依據。
5.3 融合后可提供實時數據
在融合數據分析服務的大數據交易平臺上,數據資源采用云存貯的模式,由平臺進行統一管理,這提高了數據資源的安全性。在數據安全有保障的前提下,由交易平臺出面和數據資源供應方進行實時數據的對接,將實時數據納入大數據資源池中。對于單個的數據資源供應方來說,實時的數據脫敏難度太大。但大數據交易平臺不一樣,它可以利用規模優勢,組建強大的計算能力,對大數據資源進行實時的脫敏和清洗,極大地提高了數據資源的時效性。
5.4 融合后將擴大交易對象的覆蓋范圍,提升交易的活力
融合后可實現數據和服務的一體化交易,讓很多自身不具備數據分析能力的組織和個人,也能方便地利用大數據,特別是大量的中小企業,這將大大增加交易對象的覆蓋范圍。
交易對象的增多會促進交易頻率的增長,從而為數據資源供應方帶來更多的收益,這樣會提升它們參與交易的積極性,鼓勵它們供應更多的數據資源,從而提升交易的活力,整個大數據交易行業就形成了正向循環的良好發展態勢。
6結語
本文對大數據交易平臺本身進行了改進與創新,設計了一種全新的第二代大數據交易平臺,即:融合數據分析服務的大數據交易平臺。該交易平臺可以直接面向需求方的應用方向,實現數據和服務的一體化交易,不僅從根本上避免了數據供需的錯配,還使大數據交易的定價更有依據,平臺的深度參也讓提供實時數據成為可能,這些將從整體上提升大數據交易的效率。融合后數據和服務的一體化交易降低了大數據應用的技術門檻,鼓勵更多組織和個人參與,增加了交易活力。未來筆者將繼續關注大數據交易平臺的創新研究,為實際應用和學術科研提供更多有益的參考。
參考文獻
[1]趙強,單煒.大數據政府創新:基于數據流的公共價值創造[J].中國科技論壇,2014(12):23-27.
[2]徐繼華,馮啟娜,陳貞汝.智慧政府:大數據治國時代的來臨[M].北京:中信出版社,2014.
[3]李文蓮,夏健明.基于“大數據”的商業模式創新[J].中國工業經濟,2013(5):83-95.
[4]侯錫林,李天柱,馬佳,等.大數據環境下企業創新機會研究[J].科技進步與對策,2014,31(24):82-86.
[5]張峰,張迪.論大數據時代科研方法新特征及其影響[J].科學學研究,2016,34(2):166-170,202.
[6]王玉林,高富平.大數據的財產屬性研究[J]。圖書與情報,2016(1):29-35,43.
[7]齊愛民,盤佳.數據權、數據主權的確立與大數據保護的基本原則[J].蘇州大學學報:哲學社會科學版,2015(1):64-70.
[8]劉朝陽.大數據定價問題分析[J].圖書情報知識,2016(1):57-64.
[9]劉洪玉,張曉玉,侯錫林.基于討價還價博弈模型的大數據交易價格研究[J].中國冶金教育,2015(6):86-91.
[10]翟麗麗,王佳妮,何曉燕.移動云計算聯盟企業數據資產評估方法研究[J].價格理論與實踐,2016(2):153-156.
[11]史宇航.個人數據交易的法律規制[J].情報理論與實踐,2016,39(5):34-39.
[12]殷建立,王忠.大數據環境下個人數據溯源管理體系研究[J].情報科學,2016,34(2):139-143.
[13]王忠.大數據時代個人數據交易許可機制研究[J].理論月刊,2015(6):131-135.
[14]楊琪,龔南寧 .我國大數據交易的主要問題及建議[J].大數據,2015(2):38-48.
系統主要實現軟件的模塊話設計,包括反射率數據分析模塊、速度分析模塊、天線運行穩定性分析模塊以及雷達組網數據分析模塊。
1.1反射率分析模塊
反射率的大小體現了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數據顯示采用PPI(PlanPositionImage)顯示方式。該方式決定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構成。在設計上簡單介紹其設計流程,首先必須讀取原始數據,并判斷是否首次讀取,若為首次讀取則對其進行預處理,否則進行坐標轉換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關注的關鍵是如何進行數據的預處理。在實現上,對接收的數據進行反射率信息結構體賦值。當然該結構體包括了記錄實際仰角角度、數據文件路徑存儲、雷達波段判斷以及相關數據的偏移。通過掃描上述結構體可以實現對雷達數據的預處理。
1.2速度分析模塊
多普勒雷達采用了速度退化模糊技術以擴大其對徑向風速測量不模糊的區間。結構設計主要考慮數據顯示的徑向方式,流程設計則與反射模塊類似。當然在界面設計上,系統將提供對顏色配置的定義,使其人機交互更為快捷。
1.3天線穩定性分析模塊
天線是雷達數據采集的關鍵部位,長期以來是影響雷達運行的主要關鍵點之一。其依賴于底下的電機進行旋轉,目前大多數進口電機可以保證24小時安全運行。而運行時仰角提升和轉速的平穩性直接影響雷達數據的采集。為此,我們通過在徑向數據上采用方位角及仰角進行掃描實現曲線圖監控。通過選擇基數據再進行預處理后繪制相關曲線實現對天線運行狀態的評估。其中,曲線圖的繪制需要的參數為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。
1.4雷達組網分析模塊
按照民航局的總體規劃,未來空管將實現多氣象雷達覆蓋,在這過程,多個氣象雷達的組網將成為氣象雷達數據的主要來源。這種模式將使得數據覆蓋面更大、數據安全性更高、數據準確性更強。而與此同時帶來了雷達數據融合組網的技術難點。設計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網雷達可選數據;其次對選擇雷達數據進行數據預處理;再之則對雷達數據進行統計平均并做坐標轉換;最后進行拼圖處理。在這過程中,需要對雷達數據的強度進行自適應調整、顯示范圍自適應調整。與上述同理,系統核心在于預處理。在C#中定義List數據列表,并在定義其結構為[站點標示][距離][方位角],對于數據讀取時,需要進行插值算法處理,此時的單時數據拼接分析可以實現不同仰角和方位角的篩選。為了控制系統數據的準確性可以在前端定義雷達數據方位角表,根據表進行映射處理。通常如若出現非連續數據可以在預處理上對其進行差值補償。在C#上可以采用反差圓補償方法。
2.結束語
大數據背景下的機器算法
專業
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現狀與意義
為什么大數據分析很重要?大數據分析可幫助組織利用其數據并使用它來識別新的機會。反過來,這將導致更明智的業務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯網和技術公司的支持下,大數據在2000年代初的數據熱潮期間出現。有史以來第一次,軟件和硬件功能是消費者產生的大量非結構化信息。搜索引擎,移動設備和工業機械等新技術可提供公司可以處理并持續增長的數據。隨著可以收集的天文數據數量的增長,很明顯,傳統數據技術(例如數據倉庫和關系數據庫)不適合與大量非結構化數據一起使用。 Apache軟件基金會啟動了第一個大數據創新項目。最重要的貢獻來自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數據準備和ETL的旗艦,可以為許多數據存儲或分析環境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發)通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數據呈指數級增長,企業必須不斷擴展其基礎架構以最大化其數據的經濟價值。在大數據的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產系統非常昂貴且效率低下。要使用大數據,您還需要適當的人員和軟件技能,以及用于處理數據和查詢速度的硬件。協調所有內容同時運行是一項艱巨的任務,許多大數據項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業能夠勝過現有系統。
二、 擬研究的主要內容(提綱)和預期目標
隨著行業中數據量的爆炸性增長,大數據的概念越來越受到關注。 由于大數據的大,復雜和快速變化的性質,許多用于小數據的傳統機器學習算法不再適用于大數據環境中的應用程序問題。 因此,在大數據環境下研究機器學習算法已成為學術界和業界的普遍關注。 本文主要討論和總結用于處理大數據的機器學習算法的研究現狀。 另外,由于并行處理是處理大數據的主要方法,因此我們介紹了一些并行算法,介紹了大數據環境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數據量大的情況下算法和模型的關系,同時也會探討大部分細分行業數據量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數據分析用戶包括大數據分析專業人士和一般用戶,但是大數據分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數據的特征,并像閱讀照片的讀者一樣容易接受。 2.數據挖掘算法。大數據分析的理論中心是數據挖掘算法。不同的數據挖掘算法依賴于不同的數據類型和格式來更科學地表征數據本身。由于它們被全世界的統計學家所公認,因此各種統計方法(稱為真值)可以深入到數據中并挖掘公認的值。另一方面是這些數據挖掘算法可以更快地處理大數據。如果該算法需要花費幾年時間才能得出結論,那么大數據的價值是未知的。 3.預測分析。大數據分析的最后一個應用領域是預測分析,發現大數據功能,科學地建立模型以及通過模型吸收新數據以預測未來數據。 4.語義引擎。非結構化數據的多樣化為數據分析提出了新的挑戰。您需要一套工具來分析和調整數據。語義引擎必須設計有足夠的人工智能,以主動從數據中提取信息。 5.數據質量和數據管理。大數據分析是數據質量和數據管理的組成部分。高質量的數據和有效的數據管理確保了分析結果在學術研究和商業應用中的可靠性和價值。大數據分析的基礎是前五個方面。當然,如果您更深入地研究大數據分析,則還有更多特征,更深入,更專業的大數據分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數據分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數據分析下的中國社會輿情:總體態勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數據分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數據分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側大數據分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數據分析的輸變電設備狀態數據異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數”:2012年社會輿情運行態勢研究——基于百度熱搜詞的大 數據分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
關于移動通信論文參考文獻:
[1]謝顯忠等,基于TDD的第四代移動通信技術[M].電子工業出版社,2005.
[2]解梅,移動通信技術及發展[J].電子科技大學學報,2003,02.
[3]宋文濤、羅漢文,移動通信[M].上海交通大學出版社,1996.
[4]何林娜,數字移動通信技術[M].機械工業出版社,2004.
[5]呂昌春,李林園.移動互聯網產業鏈平臺競爭與電信運營商增值業務發展策略研究[J].郵電設計技術,2012(11):16-20.
[6]張潔.影響中國移動通信產業發展競爭力的因素分析[J].經濟視角(下),2011(01):52-53.
關于移動通信論文參考文獻:
[1]張潔.影響中國移動通信產業發展競爭力的因素分析[J].經濟視角(下),2011(01):52-53.
[2]呂昌春,李林園.移動互聯網產業鏈平臺競爭與電信運營商增值業務發展策略研究[J].郵電設計技術,2012(11):16-20.
[3]劉文婷.以運營商為主導的移動互聯網業務商業模式研究[J].中國工業經濟,2012(08):66-74.
[4]馮文高.我國移動通信產業的競爭均衡分析[J].現代經濟信息.2009(16)
[5]張潔.影響中國移動通信產業發展競爭力的因素分析[J].經濟視角(下).2011(01)
[6]馬云澤.我國移動通信產業的市場結構與規制改革[J].經濟問題.2009(01)
[7]張平王衛東陶小峰《WCDMA移動通信系統》人民郵電出版社
[8]詹炳根,《工程建設監理》,中國建設工業出版社,1997
[9]謝堅勛淺談工程監理與項目管理接軌建設監理2004(2)
關于移動通信論文參考文獻:
[1]趙剛.大數據:技術與應用實踐指南[M].北京:電子工業出版社,2013.
[2]漆晨犧.電信企業大數據分析、應用及管理發展策略[J].電信科學,2013(3):12-16.
[3]劉潔,王哲.基于大數據的電信運營商業務精確運營平臺的構建化[J].電信科學,2015,29(3):22-26.
[4]張俊.移動通信網絡中大數據處理的關鍵技術研究[J].電信網技術,2014(4):10-12.
[5]康波,劉勝強.基于大數據分析的互聯網業務用戶體驗管理[J].電信科學,2013,29(3):32-35.
[6]謝華.大數據在移動通信中的應用探討[J].科技創業家,2014(1).
[7]夏磊.探巧大數據下的智能數據分析技術[J].科技創新導報,2014(10):21.
[8]侯優優,隋化嚴.網絡優化中的大數據應用[J].互聯網天地,2014(l):34-37.
[9]劉震,付俊輝,趙楠.基于移動通信數據的用戶移動軌跡預測方法[J].計算機應用與軟件,2015,30(2):10-13.
DSE雜志主編、哈爾濱工業大學李建中教授認為,現在大數據概念過熱,幾乎每個人都在談大數據,但真正了解大數據的人并不多。所以,對于大數據到底是什么,應該怎樣促進大數據的實際應用是學術界首先要探討的問題。DSE雜志希望成為全世界大數據研究者的交流平臺,讓我國大數據方面優秀的研究成果能夠發表在國際學術期刊上,推動我國的學術界走向世界。另外它也為全世界的企業界和學術界搭建了一個橋梁,促進大數據的研究成果向實際應用的轉化。
在很多技術領域,中國的發展都是在跟隨國外的腳步,但發展到今天,我們需要在一些領域做出創新,數據分析就是其中的一個突破口?,F在國內很多領域、尤其銀行領域用的數據分析軟件都是國外產品。
對于此次合作,中新賽克CEO凌東勝說道,作為軟件開發供應商,中新賽克希望通過這次合作能夠把學術界的研究成果轉化到產品的實際解決方案中去,提升產品的核心競爭力,開發出領先的數據分析軟件,讓國內企業在大數據領域真正做強、做大。在2015年,中新賽克將把信息安全領域和銀行領域作為大數據產品的主要研發方向,努力推出優秀的產品解決方案。
對于大數據從學術研究到實際產品的應用,清華大學計算機系博士生導師、計算機系學術委員會主任周立柱教授認為還存在一些問題需要克服。首先就是要保證數據質量,目前數據噪聲、數據不一等問題還有待通過研究來解決;其次是數據大了以后,如何利用合適的數據模型從復雜性的數據中篩選出目標數據;再次是數據分析得出的結果如何向用戶解釋,背后的基礎是什么。