日韩欧美三级片中文字幕_人人超碰人人爱国产_国内精品久久久久国产_乱人伦视频网站

解鎖我國大數(shù)據(jù)行業(yè)發(fā)展現(xiàn)狀及趨勢

2020-06-13 12:02:38 信息技術(shù)

一、行業(yè)發(fā)展概況

1、相關(guān)定義

對于大數(shù)據(jù)的概念,目前尚無業(yè)界所廣泛接受的明確定義。各權(quán)威機構(gòu)及普遍理解大致如下:

麥肯錫在研究報告《大數(shù)據(jù)的下一個前言:創(chuàng)新、競爭和生產(chǎn)力》中認為:大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集;美國國家標準技術(shù)研究所(National Institute of Standards and Technology,NIST)的大數(shù)據(jù)工作組在《大數(shù)據(jù):定義和分類》中認為:大數(shù)據(jù)是指那些傳統(tǒng)數(shù)據(jù)架構(gòu)無法有效地處理的新數(shù)據(jù)集。維基百科列示的定義是:大數(shù)據(jù),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的信息。Gartner 列示的定義是:大數(shù)據(jù)是體量大、快速和多樣化的信息資產(chǎn),需用高效率和創(chuàng)新型的信息技術(shù)加以處理,以提高發(fā)現(xiàn)洞察、作出決策和優(yōu)化流程的能力。國內(nèi)普遍的理解是:大數(shù)據(jù)是具有數(shù)據(jù)量巨大、來源多樣、生成極快、且多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系結(jié)構(gòu)有效處理的包含大數(shù)據(jù)集的數(shù)據(jù)。

2、大數(shù)據(jù)的特征

傳統(tǒng)的數(shù)據(jù)處理只有兩個環(huán)節(jié):從“數(shù)據(jù)源”到“應(yīng)用”,數(shù)據(jù)源需要經(jīng)過處理存到一個結(jié)構(gòu)化數(shù)據(jù)庫進行管理,然后再使用諸如數(shù)理統(tǒng)計、結(jié)果可視化等技術(shù)完成對數(shù)據(jù)的應(yīng)用。

與傳統(tǒng)的數(shù)據(jù)處理周期不同,大數(shù)據(jù)處理需要在傳統(tǒng)的 “數(shù)據(jù)源”到“應(yīng)用”這一流程上增加“數(shù)據(jù)管理”這一步驟,以應(yīng)對海量大數(shù)據(jù)帶來的新挑戰(zhàn)。

對于大數(shù)據(jù)的數(shù)據(jù)特征,業(yè)界通常引用國際數(shù)據(jù)公司定義的 4V 進行描述:

(1)數(shù)據(jù)量大(Volume):雖然對大數(shù)據(jù)量的統(tǒng)計和預測結(jié)果并不完全相同,但是一致認為數(shù)據(jù)量將急劇增長。

(2)類型繁多(Variety):除了結(jié)構(gòu)化數(shù)據(jù)外,大數(shù)據(jù)還包括各類非結(jié)構(gòu)化數(shù)據(jù),例如文本、音頻、視頻、點擊流量、文件記錄等,以及半結(jié)構(gòu)化數(shù)據(jù),例如電子郵件、辦公處理文檔等。

(3)數(shù)據(jù)價值(Value):從海量價值密度低的數(shù)據(jù)中挖掘出具有高價值的數(shù)據(jù)。這一特性突出表現(xiàn)了大數(shù)據(jù)的本質(zhì)是獲取數(shù)據(jù)價值,關(guān)鍵在于商業(yè)價值,即如何有效利用好這些數(shù)據(jù)。

(4)處理速度快(Velocity):通常具有時效性,企業(yè)只有把握好對數(shù)據(jù)流的掌握應(yīng)用,才能最大化地挖掘利用大數(shù)據(jù)所潛藏的商業(yè)價值。

3、我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展歷程

我國的大數(shù)據(jù)產(chǎn)業(yè)目前已經(jīng)歷了三個時期:

(1)探索期:大約從 2004 年前后,隨著數(shù)據(jù)庫等技術(shù)的進步,數(shù)據(jù)挖掘概念 開始普及,越來越多的企業(yè)將信息管理作為單獨的業(yè)務(wù)部門。但由于當時企業(yè)數(shù) 據(jù)采集能力的限制,以及企業(yè)信息化時間較短,本身管理軟件中積累的歷史數(shù)據(jù) 有限,一些廠商推出的領(lǐng)先數(shù)據(jù)管理方案并不容易獲得企業(yè)認可,業(yè)務(wù)尚不足以推動技術(shù)的快速進步。

(2)市場啟動期:2008 年金融危機后,國內(nèi)企業(yè)為了盡快從業(yè)務(wù)低迷的狀態(tài)中恢復,獲得市場競爭優(yōu)勢,對商業(yè)智能(BI)以及商業(yè)分析(BA)的需求出現(xiàn)快速提升,主要應(yīng)用在決策支持、業(yè)務(wù)優(yōu)化、銷售機會挖掘預測等領(lǐng)域。但在隨后的 2010-2011 年,領(lǐng)先企業(yè)擁有優(yōu)勢后并不甘愿放棄,而落后企業(yè)更急于尋求方案快速趕上,使得共同作用下,企業(yè)級市場對商業(yè)智能及商業(yè)分析的需求并未減退,反而成為一種常態(tài)。

(3)高速發(fā)展期:到了 2012 年以后,由于企業(yè)信息化及互聯(lián)網(wǎng)應(yīng)用的日益完善,對消費者及企業(yè)內(nèi)外部所積累的數(shù)據(jù)日益豐富,大數(shù)據(jù)的概念迅速為各類人 群所接受。而在企業(yè)領(lǐng)域,包括營銷、風險管控、預測、客戶挖掘、海量數(shù)據(jù)實 時處理、可視化展現(xiàn)、數(shù)據(jù)倉庫建設(shè)等方面的多樣化需求迅速擴張,業(yè)務(wù)推動技 術(shù)進入高速創(chuàng)新期。而進入 2015 年后,企業(yè)深度利用數(shù)據(jù)價值的意識迅速提高, 數(shù)據(jù)資產(chǎn)管理成為熱門概念,企業(yè)開始愿意通過數(shù)據(jù)交易進行變現(xiàn),各種與大數(shù)據(jù)有關(guān)的政策及法律法規(guī)不斷完善。

預計,中國大數(shù)據(jù)市場將在 2020 年前后進入成熟期。一方面業(yè)務(wù)需求的變化將推動細分領(lǐng)域出現(xiàn)豐富的商業(yè)模式,并使得新產(chǎn)品和服務(wù)具有穩(wěn)定的剛性需求;另一方面隨著產(chǎn)業(yè)鏈的完善,專注于細分行業(yè)及細分應(yīng)用領(lǐng)域廠商競爭逐漸穩(wěn)固,而不善于充分利用數(shù)據(jù)的企業(yè)將被快速淘汰出局。

二、行業(yè)發(fā)展情況分析

1、市場規(guī)模

目前,我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展在經(jīng)歷初期探索、市場啟動等階段后,大數(shù)據(jù)的技術(shù)、應(yīng)用以及社會公眾的接受度等方面逐步趨于成熟,整個產(chǎn)業(yè)開始步入快速發(fā)展階段,行業(yè)規(guī)模增長迅速。根據(jù)中國電子信息產(chǎn)業(yè)發(fā)展研究院發(fā)布的數(shù)據(jù)顯示,2018 年中國大數(shù)據(jù)產(chǎn)業(yè)的市場規(guī)模約為 4,384.5 億元人民幣,同比增長23.50%。隨著國家政策激勵以及大數(shù)據(jù)應(yīng)用模式的逐步成熟,未來幾年中國大數(shù)據(jù)市場仍將保持快速增長,預計到 2021 年中國大數(shù)據(jù)市場規(guī)模將達到 8,070.60 億元。

當前,國內(nèi)大數(shù)據(jù)正在被越來越廣泛地應(yīng)用到政府公共管理、金融、交通、零售、醫(yī)療、工業(yè)制造等領(lǐng)域,隨著大數(shù)據(jù)應(yīng)用范圍的不斷擴大,大數(shù)據(jù)所形成的市場價值將不斷提升。

2、區(qū)域結(jié)構(gòu)

當前,由于各地區(qū)發(fā)展基礎(chǔ)和起步時間不同,全國各省市大數(shù)據(jù)發(fā)展水平存在明顯的差異性。從區(qū)域角度來看,華北、華東、中南是大數(shù)據(jù)企業(yè)主要集中區(qū)域,這些區(qū)域集中了中國主要的互聯(lián)網(wǎng)企業(yè)和金融、消費品、制造等行業(yè)用戶。其中,2018 年華北地區(qū)份額最高,占 27.60%。

3、行業(yè)結(jié)構(gòu)

大數(shù)據(jù)市場剛剛邁入中國之時,國內(nèi)對大數(shù)據(jù)的應(yīng)用領(lǐng)域主要集中在互聯(lián)網(wǎng),智能交通、電子政務(wù)、金融理財、電商物流等方面雖然得到了發(fā)展,但應(yīng)用領(lǐng)域仍然較為狹窄。近年來,隨著泛互聯(lián)網(wǎng)的發(fā)展,各行業(yè)的數(shù)據(jù)量激增,金融科技、征信、工業(yè)、醫(yī)療等更多領(lǐng)域開始關(guān)注并利用大數(shù)據(jù)技術(shù)挖掘數(shù)據(jù)價值,并逐步成為大數(shù)據(jù)行業(yè)的主流下游應(yīng)用領(lǐng)域。

4、在征信領(lǐng)域應(yīng)用

隨著我國社會信用體系建設(shè)的步伐不斷加快以及計算機和網(wǎng)絡(luò)技術(shù)的不斷提高,征信業(yè)的發(fā)展也需要適應(yīng)大數(shù)據(jù)時代發(fā)展所帶來的技術(shù)變革。征信機構(gòu)在積累征信數(shù)據(jù)的同時,也需要提升自身的數(shù)據(jù)存儲能力,豐富所積累數(shù)據(jù)的維度,提升數(shù)據(jù)分析挖掘、處理速度等各方面能力,從而促進大數(shù)據(jù)技術(shù)在征信領(lǐng)域的應(yīng)用。

隨著云計算、數(shù)據(jù)挖掘等信息技術(shù)的發(fā)展和應(yīng)用,為征信產(chǎn)品的創(chuàng)新和升級奠定了技術(shù)基礎(chǔ)。數(shù)據(jù)處理能力的提升,使得征信機構(gòu)可以對數(shù)據(jù)資源進行更充分地挖掘和分析,開發(fā)出具有更高技術(shù)含量的產(chǎn)品和服務(wù),滿足銀行、保險等金融機構(gòu)多層次、全方位、專業(yè)化的征信需求。

此外,以互聯(lián)網(wǎng)金融為代表的新型互聯(lián)網(wǎng)服務(wù)行業(yè)的快速發(fā)展也帶來大量新的征信需求。對于互聯(lián)網(wǎng)金融企業(yè),需要借助信用信息共享來防范信用風險、降低交易成本。大數(shù)據(jù)技術(shù)在征信領(lǐng)域的應(yīng)用,可以幫助其甄別和防范可能發(fā)生的風險。

三、 行業(yè)主要特點

大數(shù)據(jù)行業(yè)的下游應(yīng)用領(lǐng)域極其廣泛,例如金融科技、征信等領(lǐng)域,下游應(yīng)用領(lǐng)域市場規(guī)模的增長代表著大數(shù)據(jù)行業(yè)市場需求的上升。

1、金融科技

金融科技是基于大數(shù)據(jù)、云計算、人工智能等一系列技術(shù)創(chuàng)新,全面應(yīng)用支付清算、借貸融資、財富管理、零售銀行、保險、交易結(jié)算等六大金融領(lǐng)域,是金融業(yè)未來的主流趨勢?;仡櫲祟惤鹑诎l(fā)展史,科技創(chuàng)新與金融創(chuàng)新始終緊密相連,特別是進入信息社會以來,在摩爾定律的作用下,新技術(shù)的出現(xiàn)速度不斷加快,而金融與科技的共生式成長也使得現(xiàn)代金融體系伴隨信息技術(shù)共同經(jīng)歷著指數(shù)級增長。

大數(shù)據(jù)在金融業(yè)的應(yīng)用場景相當廣泛。如在銀行業(yè),大數(shù)據(jù)應(yīng)用場景集中在數(shù)據(jù)庫營銷、用戶經(jīng)營、數(shù)據(jù)風控、產(chǎn)品設(shè)計和決策支持等;在證券業(yè),證券企業(yè)可以運用大數(shù)據(jù)技術(shù)進行數(shù)據(jù)挖掘和分析以找到高頻交易服務(wù)對象、資產(chǎn)較高的服務(wù)對象和理財服務(wù)對象,然后證券公司就可以根據(jù)服務(wù)對象的特點進行精準營銷,推薦針對性服務(wù)。

根據(jù)艾瑞咨詢統(tǒng)計,2018 年我國金融機構(gòu)技術(shù)資金投入達 2,297.3 億元,其中投入到以大數(shù)據(jù)、云計算為代表的前沿科技資金為 675.2 億元,占總體投入的 比重為 29.4%。另外,艾瑞咨詢預計,到 2022 年中國金融機構(gòu)技術(shù)資金投入將 達到 4,034.7 億元,其中前沿科技投入占比將增至 35.1%。

雖然我國目前與歐美發(fā)達國家相比,金融基礎(chǔ)比較薄弱,但正是我國金融市場尚未成熟的特點給予我國金融科技快速發(fā)展的土壤,未來相關(guān)金融機構(gòu)投入到以大數(shù)據(jù)、云計算為代表的前沿科技資金投入也會不斷加大,這也會在相當程度上推動大數(shù)據(jù)行業(yè)的發(fā)展。

2、征信

征信是依法收集、整理、保存、加工自然人、法人及其他組織的信用信息,并對外提供信用報告、信用評估、信用信息咨詢等服務(wù),幫助客戶判斷、控制信用風險,進行信用管理的活動。黨的十八大以來,在黨中央、國務(wù)院統(tǒng)一部署下,我國征信業(yè)發(fā)展明顯提速,初步形成了“政府+市場”雙輪驅(qū)動,金融信用信息基礎(chǔ)數(shù)據(jù)庫與市場化征信機構(gòu)錯位發(fā)展、功能互補的市場格局,征信體系在市場經(jīng)濟中發(fā)揮了更為重要的基礎(chǔ)性作用。

從征信企業(yè)業(yè)務(wù)流程看,信息收集、信息加工處理、信用產(chǎn)品輸出、商業(yè)化應(yīng)用是征信業(yè)務(wù)開展的四大關(guān)鍵環(huán)節(jié),而大數(shù)據(jù)的應(yīng)用貫徹于征信企業(yè)業(yè)務(wù)流程四大關(guān)鍵環(huán)節(jié)始終。特別是央行在 2009 年 1 月發(fā)布了征信行業(yè)數(shù)據(jù)標準:《征信數(shù)據(jù)元 信用評級數(shù)據(jù)元》、《征信數(shù)據(jù)交換格式信用評級違約率數(shù)據(jù)采集格式》,該標準格式的發(fā)布帶動了大數(shù)據(jù)風控技術(shù)的快速發(fā)展。同時,以機器學習、神經(jīng)網(wǎng)絡(luò)為代表的大數(shù)據(jù)算法的不斷完善,也極大地推動我國征信行業(yè)的發(fā)展。

根據(jù)央行征信中心統(tǒng)計,截至2019年底,征信系統(tǒng)共收錄10.2億自然人、2,834.1萬戶企業(yè)和其他組織的信息,規(guī)模已位居世界前列。此外,我國央行征 信中心 2011、2015 和 2019 年征信查詢總次數(shù)分別為 3.09 億次、7.19 億次和 25.1 億次,增長速度較快,特別是 2015 年到 2019 年,征信查詢總次數(shù)增長了近 2.5 倍,年復合增長率達到 36.69%。

雖然我國目前征信查詢次數(shù)增長較快,但是對于中國龐大的人口基數(shù)來說,人均查詢次數(shù)仍然偏少,且考慮到我國目前金融市場尚未成熟的特點,未來我國征信行業(yè)市場需求巨大。

綜上所述,以金融科技、征信等領(lǐng)域為代表的大數(shù)據(jù)下游應(yīng)用領(lǐng)域市場規(guī)模的增長一方面對大數(shù)據(jù)產(chǎn)業(yè)提供了穩(wěn)健的需求保障,另一方面也對大數(shù)據(jù)技術(shù)提出了更高的需求。這就要求大數(shù)據(jù)相關(guān)企業(yè)不僅要不斷加大技術(shù)研發(fā)投入,而且要更加深入了解、分析下游應(yīng)用領(lǐng)域市場訴求,從而提供更加貼合市場需求的大數(shù)據(jù)技術(shù)解決方案。

四、行業(yè)上下游產(chǎn)業(yè)的關(guān)聯(lián)性

大數(shù)據(jù)產(chǎn)業(yè)鏈覆蓋從數(shù)據(jù)采集挖掘到數(shù)據(jù)應(yīng)用服務(wù),當前大數(shù)據(jù)及相關(guān)應(yīng)用的產(chǎn)業(yè)鏈日益完善。

1、數(shù)據(jù)來源

(1)產(chǎn)業(yè)概況

近年來,官方數(shù)據(jù)開放程度逐漸提高,行業(yè)聯(lián)盟興起,第三方數(shù)據(jù)服務(wù)蓬勃發(fā)展,各大企業(yè)(以互聯(lián)網(wǎng)核心企業(yè)為主)也開始逐步開放群體畫像數(shù)據(jù),不同口徑單一數(shù)據(jù)的跨界融合成倍放大了數(shù)據(jù)價值。從整體趨勢上來講,數(shù)據(jù)來源已較為多元,數(shù)據(jù)產(chǎn)生量爆炸式增長,可供分析的數(shù)據(jù)維度越來越豐富。

據(jù) Forrester 的研究結(jié)果,目前在線或移動金融交易、社交媒體、GPS 坐標等數(shù)據(jù)源每天要產(chǎn)生超過 2.5EB(1EB 為 2 的 60 次方字節(jié))的海量數(shù)據(jù)。據(jù)國際數(shù)據(jù)公司(International Data Corporation)預計,全球數(shù)據(jù)總量增長率將維持50%左右,2020 年全球數(shù)據(jù)總量將達到 40ZB(1ZB=1024EB);中國將達到 8.6ZB, 占全球的 21%。

伴隨著數(shù)據(jù)資源價值逐步得到認可,數(shù)據(jù)流通的需求不斷上升,除企業(yè)直接合作外,數(shù)據(jù)交易市場開始出現(xiàn),建立數(shù)據(jù)需求方與供給方之間成規(guī)?;穆?lián)系。數(shù)據(jù)的開放需要多方助力,數(shù)據(jù)的流通與分享能夠成倍提升大數(shù)據(jù)的經(jīng)濟價值和 社會價值。

當前大數(shù)據(jù)應(yīng)用的數(shù)據(jù)源仍以自由數(shù)據(jù)為主,尚未形成完善統(tǒng)一的監(jiān)管政策與行業(yè)規(guī)則,企業(yè)之間的數(shù)據(jù)孤島情況仍然存在,數(shù)據(jù)交易方面,數(shù)據(jù)交易模式與數(shù)據(jù)資產(chǎn)定價標準有待建立,發(fā)展程度尚不成熟。

數(shù)據(jù)源是大數(shù)據(jù)應(yīng)用的起點與核心,用戶的自有數(shù)據(jù)資源是后續(xù)開發(fā)應(yīng)用的基礎(chǔ)資產(chǎn)。在大數(shù)據(jù)的背景下,除了自有數(shù)據(jù)的不斷增大之外,打破數(shù)據(jù)孤島,實現(xiàn)數(shù)據(jù)開放,大數(shù)據(jù)的價值才能最大地顯現(xiàn)。用戶的自有數(shù)據(jù)與外部服務(wù)商的數(shù)據(jù)相結(jié)合,將成為各個垂直行業(yè)價值開發(fā)的起點。

(2)關(guān)鍵技術(shù):數(shù)據(jù)庫技術(shù)

在解決大數(shù)據(jù)問題時,首先需要解決的問題是針對不同數(shù)據(jù)的分類選擇不同方法進行數(shù)據(jù)的整理與存儲。當前,來自各領(lǐng)域的數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,包括網(wǎng)頁與社交媒體、機器數(shù)據(jù)、內(nèi)部數(shù)據(jù)、交易數(shù)據(jù)、生物數(shù)據(jù)、來自數(shù)據(jù)提供商的數(shù)據(jù)等。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最重要的區(qū)別即是數(shù)據(jù)類別由原來的結(jié)構(gòu)化數(shù)據(jù),加入了半結(jié)構(gòu)/非結(jié)構(gòu)化的數(shù)據(jù)。為解決半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā),NoSQL 數(shù)據(jù)庫應(yīng)運而生。

NoSQL(Not Only SQL)數(shù)據(jù)庫泛指非關(guān)系型數(shù)據(jù)庫,能夠解決大規(guī)模數(shù)據(jù)集合的處理問題,特別是針對非關(guān)聯(lián)性數(shù)據(jù)。NoSQL 數(shù)據(jù)庫包括 Key-Value 存儲、列存儲、文檔型等多種類型,適用于多種場景。

2、數(shù)據(jù)管理

(1)產(chǎn)業(yè)概況

數(shù)據(jù)管理是利用計算機硬件和軟件技術(shù)對數(shù)據(jù)進行有效的收集、存儲、處理和應(yīng)用的過程,經(jīng)歷了人工管理、文件系統(tǒng)、數(shù)據(jù)庫系統(tǒng)三個發(fā)展階段。狹義的數(shù)據(jù)管理包括數(shù)據(jù)準備、存儲管理、計算處理及數(shù)據(jù)安全等環(huán)節(jié)。隨著互聯(lián)網(wǎng)和移動互聯(lián)時代的到來,非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,繼而對數(shù)據(jù)的處理和管控提出了更高的要求,將對非結(jié)構(gòu)化數(shù)據(jù)的清洗、加工、挖掘、集成和可視化被納入廣義數(shù)據(jù)管理過程,以滿足更深入的數(shù)據(jù)處理需要,在此過程中,數(shù)據(jù)管理的外延還將持續(xù)拓展。

(2)關(guān)鍵技術(shù):分布式架構(gòu)

與傳統(tǒng)數(shù)據(jù)“數(shù)據(jù)簡單、算法復雜”的計算不同,大數(shù)據(jù)計算是數(shù)據(jù)密集型計算,對計算單元和存儲單元間的數(shù)據(jù)吞吐率要求極高,對性價比和擴展性要求也非常高。因此傳統(tǒng)以來大型機和小型機的并行計算不能滿足大數(shù)據(jù)時代數(shù)據(jù)體量、規(guī)模、類型的變化。由此,分布式計算被大規(guī)模應(yīng)用到了大數(shù)據(jù)領(lǐng)域。分布式計算系統(tǒng)是一組自治的計算機集合,通過通信網(wǎng)絡(luò)相互連接,實現(xiàn)資源共享和協(xié)同工作,從而呈現(xiàn)給用戶的是單個完整的計算機系統(tǒng)。

2004 年,Google 公布了 MapReduce 分布式并行編程架構(gòu);而后,Yahoo 提出 S4 系統(tǒng)、Twitter 提出 Storm 系統(tǒng);Google 隨后提出了將 MapReduce 內(nèi)存化 以提高實時性的 Spark。

①Hadoop

MapReduce Hadoop是一個由 ASF 所開源的發(fā)布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解底層分布式細節(jié)的情況下,基于 Hadoop 開發(fā)分布式的大數(shù)據(jù)存儲與處理應(yīng)用程序,并利用分布式集群進行高速運算和海量存儲。主要特點是擴展能力強、成本低、 高效率、可靠。

②Storm

Storm 是 Twitter 正式開源的一個分布式的、容錯的實時流計算系統(tǒng),能夠逐條接收和處理數(shù)據(jù)記錄,具有很好的實時響應(yīng)特性。Storm 實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數(shù)據(jù)。借助實時的信息交互與通訊組件(如 Kafka、ZeroMQ、Netty 等),Storm 對大數(shù)據(jù)中的記錄進行逐條處理,響應(yīng)實時性可以達到秒級別甚至更短。

③Spark

Spark 是 Hadoop MapReduce 的一個替代方案,可以在 Hadoop 文件系統(tǒng)中并 行運行。Spark 克服了 MapReduce 在迭代計算和交互式計算方面的不足,同時能 夠充分利用內(nèi)存資源提高計算效率。

3、數(shù)據(jù)應(yīng)用

(1)產(chǎn)業(yè)概況

大數(shù)據(jù)應(yīng)用,是利用大數(shù)據(jù)分析的結(jié)果,為用戶提供輔助決策,發(fā)掘潛在價值的過程。近年來,大數(shù)據(jù)應(yīng)用從獨立的工具產(chǎn)品向完整的行業(yè)解決方案發(fā)展,相關(guān)產(chǎn)品和企業(yè)數(shù)量越來越多,涉及的領(lǐng)域越來越廣,大數(shù)據(jù)正在政府決策、交通物流、 醫(yī)療健康、公共服務(wù)、人力資源、廣告營銷、影視娛樂、能源、金融、農(nóng)業(yè)、電信、零售等領(lǐng)域得到越來越深入的應(yīng)用。但由于各行業(yè)自身的信息化和數(shù)字化發(fā)展程度不均勻,大數(shù)據(jù)的行業(yè)應(yīng)用的深度仍需加強。從趨勢上看,除通用型工具外,其他獨立數(shù)據(jù)產(chǎn)品的可適用范圍將越來越小,基于行業(yè)的定制,結(jié)合平臺的解決方案將成為大數(shù)據(jù)產(chǎn)業(yè)的必然趨勢。

大數(shù)據(jù)的本質(zhì),不在于研究如何處理數(shù)據(jù),而是更好的發(fā)現(xiàn)海量數(shù)據(jù)中隱藏的價值,當前,在全球范圍內(nèi),大數(shù)據(jù)的應(yīng)用已經(jīng)具備了初步的實踐基礎(chǔ),在政府決策、醫(yī)療健康、金融、電信、零售、廣告營銷等領(lǐng)域得到了較為深入的應(yīng)用。在數(shù)據(jù)處理與應(yīng)用之間,必要的過程即是數(shù)據(jù)分析與解釋。分析與解釋是用于幫助解釋過去和預測未來的一系列方法。數(shù)據(jù)分析與解釋橫跨了計算機科學、統(tǒng)計學和數(shù)學、專業(yè)領(lǐng)域知識等多個領(lǐng)域。近年來,傳統(tǒng)的數(shù)學和統(tǒng)計學數(shù)據(jù)分析越來越難以滿足大數(shù)據(jù)時代的需求,機器學習和人工智能漸漸流行。

①機器學習

機器學習是研究如何使用機器來模擬人類學習活動的一門學科。稍為嚴格的提法是:機器學習是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學問。當把機器學習算法應(yīng)用在大量數(shù)據(jù)集時,機器就可能“學習”到一些有價值的新的關(guān)系,這些關(guān)系原本隱藏在浩瀚的數(shù)據(jù)海洋之中,依賴人腦根本無法發(fā)現(xiàn)。

②人工智能

人工智能則是高于機器學習的一個范疇。現(xiàn)代公認的人工智能主要研究課題有:推理、知識表示、自動規(guī)劃、機器學習、自然語言處理、計算機視覺、機器人學、通用智能或強人工智能。在這八項研究課題里,自然語言處理,計算視覺都是用來處理人類交互環(huán)境中信息,可以用來處理大數(shù)據(jù)庫中非結(jié)構(gòu)化的圖片/視頻/語音數(shù)據(jù)。而推理/知識表示/機器學習則是用來發(fā)掘大量數(shù) 據(jù)中隱藏關(guān)系的利器。人工智能領(lǐng)域的研究自然而然的被認為是解決大數(shù)據(jù)分析 這一難題的答案。

五、行業(yè)競爭格局

目前,根據(jù)自身核心競爭力與商業(yè)模式情況,我國大數(shù)據(jù)企業(yè)主要呈現(xiàn)數(shù)據(jù)優(yōu)勢型、技術(shù)擁有型、應(yīng)用服務(wù)型三大特征,行業(yè)內(nèi)企業(yè)均具備一項或多項上述特征。

1、數(shù)據(jù)優(yōu)勢型企業(yè)

具備數(shù)據(jù)優(yōu)勢型特征的企業(yè)即先天擁有或以收集數(shù)據(jù)資源為目標的企業(yè),類企業(yè)占據(jù)一定的先發(fā)優(yōu)勢,可利用手中的數(shù)據(jù)資源提升自身的企業(yè)競爭力,或主導數(shù)據(jù)交易平臺機制的形成。具備數(shù)據(jù)優(yōu)勢型特征的企業(yè)以在自身行業(yè)積累了豐富數(shù)據(jù)資源以及力圖匯聚開放網(wǎng)絡(luò)數(shù)據(jù)的企業(yè)為代表。

2、技術(shù)擁有型企業(yè)

具有技術(shù)擁有型特征的企業(yè)是以技術(shù)見長的,專注于數(shù)據(jù)采集、存儲、分析以及可視化工具的企業(yè),主要為軟件企業(yè)、硬件企業(yè)和解決方案服務(wù)商。

3、應(yīng)用服務(wù)型企業(yè)

具有應(yīng)用服務(wù)型特征的企業(yè)是指為客戶提供云服務(wù)和數(shù)據(jù)服務(wù)的企業(yè),這類企業(yè)廣泛對接各個行業(yè),專注于產(chǎn)品的便捷化和可維護性,同時針對不同行業(yè)客戶的需求提供差異化的服務(wù)。

大數(shù)據(jù)技術(shù)在征信領(lǐng)域應(yīng)用的主要企業(yè)包括上海華夏鄧白氏、益博睿、中誠信征信、金電聯(lián)行、芝麻信用、前海征信、蘇州朗動、北京金堤等。

行業(yè)未來發(fā)展趨勢

1、各行各業(yè)對數(shù)據(jù)分析的需求將更加旺盛

隨著計算機技術(shù)的發(fā)展普及,各種信息系統(tǒng)的廣泛運用,各類系統(tǒng)中積累了大量的原始數(shù)據(jù),各行各業(yè)對于數(shù)據(jù)分析的需求越來越急迫,除了分析這些數(shù)據(jù)內(nèi)部所蘊含的規(guī)律、預測相關(guān)系統(tǒng)的運行趨勢以外,對于數(shù)據(jù)分析的廣度和速度都有了越來越高的要求。

這些需求促使 IT、互聯(lián)網(wǎng)廠商不斷加快對于數(shù)據(jù)分析技術(shù)的研發(fā)創(chuàng)新。一方面,大數(shù)據(jù)分析不再局限于結(jié)構(gòu)化的歷史數(shù)據(jù),而更傾向于分析來自社交網(wǎng)絡(luò)、各種傳感器采集的非結(jié)構(gòu)化數(shù)據(jù);另一方面,激烈的市場競爭促使大數(shù)據(jù)解決方案廠商加大了對數(shù)據(jù)的快速、實時分析、智能決策技術(shù)的研發(fā)投入。

2、人工智能化是大數(shù)據(jù)的發(fā)展方向

人工智能的實現(xiàn)以大數(shù)據(jù)和深度學習算法為基礎(chǔ)。深度學習依托于模擬人腦進行分析學習的神經(jīng)網(wǎng)絡(luò),通過模仿人腦的思維方式進行數(shù)據(jù)的分析和處理。大數(shù)據(jù)則為人工智能提供的海量數(shù)據(jù)進行算法的驗證和模型的構(gòu)建。在沒有海量數(shù)據(jù)支持的情況下,僅依靠深度學習算法上的革新是無法實現(xiàn)人工智能的。而近期人工智能之所以能取得突飛猛進的進展,是因為這些年來大數(shù)據(jù)長足發(fā)展的結(jié)果。正是由于各類感應(yīng)器和數(shù)據(jù)采集技術(shù)的發(fā)展,我們開始擁有以往難以想象的海量數(shù)據(jù),并開始在某一領(lǐng)域擁有深度的、精細化的數(shù)據(jù)。而這些,都是訓練某一領(lǐng)域智能的前提。

大數(shù)據(jù)是讓人們通過數(shù)據(jù)看到未來,幫助人類決策;而人工智能則是為了徹底將人們從勞動中解放出來,幫助或者替代人類完成任務(wù)。大數(shù)據(jù)為人工智能提供數(shù)據(jù)支持,人工智能通過主動學習、處理、分析大數(shù)據(jù),自發(fā)得到可以指導人類決策的依據(jù),指導或者直接替代人類進行決策和行動。人工智能將是各個領(lǐng)域 的大數(shù)據(jù)應(yīng)用的發(fā)展方向。

3、產(chǎn)業(yè)鏈的分工將日益清晰和細化

隨著數(shù)據(jù)價值認知的深化,用戶對于數(shù)據(jù)的質(zhì)量要求越來越高,標簽的準確性、無效或錯誤值的比例、數(shù)據(jù)檢索的效率和數(shù)據(jù)關(guān)聯(lián)的精準度等指標對產(chǎn)業(yè)鏈上各類產(chǎn)品或服務(wù)價格的影響日漸加大。同時,在綜合性的大型數(shù)據(jù)交易平臺帶動下,圍繞數(shù)據(jù)所產(chǎn)生的各類需求能夠得到最大程度的凸顯,必然會促進大數(shù)據(jù)產(chǎn)業(yè)鏈的劃分逐漸清晰和細化,諸如數(shù)據(jù)采集、匯聚、加工、交易和分析等環(huán)節(jié)在內(nèi)的細分產(chǎn)業(yè)都將得到極大的推動。

此外,企業(yè)在大數(shù)據(jù)產(chǎn)業(yè)鏈中的定位將會更加明確和聚焦。當前很多跨越了多個環(huán)節(jié)的企業(yè),將會根據(jù)自身的優(yōu)勢和特點來重新定位在大數(shù)據(jù)產(chǎn)業(yè)鏈中的角色,可以預見的是某些數(shù)據(jù)擁有者將專注于對外提供數(shù)據(jù)服務(wù),而目前橫跨分析和應(yīng)用環(huán)節(jié)的企業(yè)將會有很大一部分成為專業(yè)的分析技術(shù)提供商。

4、數(shù)據(jù)處理外包行業(yè)將興起

當前,有大量公司將各種 IT 和業(yè)務(wù)功能外包給服務(wù)提供商,這其中包含數(shù)據(jù)分析。數(shù)據(jù)外包將是繼軟件外包之后的另一大產(chǎn)業(yè)。從歷史上來看,我國的軟件外包產(chǎn)業(yè)始于 20 世紀八十年代,此后一直保持持續(xù)穩(wěn)定增長,軟件外包已經(jīng)成為發(fā)達國家的軟件公司降低成本的一種重要的手段。而數(shù)據(jù)外包作為一個新興的大數(shù)據(jù)產(chǎn)業(yè),即為企業(yè)和科研客戶提供海量數(shù)據(jù)處理的外包服務(wù),幫助客戶完成海量數(shù)據(jù)作業(yè)任務(wù),并最終交付精準無誤的數(shù)據(jù)成果。使用戶最小成本、最大利益獲得處理后的數(shù)據(jù)資產(chǎn),從而可以將更多的人力和資本投入到生產(chǎn)和科研活動中。

市場研究和咨詢公司 Hexa Research 于 2017 年公布的報告稱,全球數(shù)據(jù)分析 外包市場將在 2016 年至 2024 年間的復合年增長率超過 30%,年收入超過 60 億美元。

大數(shù)據(jù)的價值體現(xiàn)在基于海量數(shù)據(jù)形成的洞見以指導人類行為。海量數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)體量上,還體現(xiàn)在關(guān)聯(lián)性上。分離數(shù)據(jù)形成的“數(shù)據(jù)孤島”是大數(shù)據(jù)行業(yè)面臨的重要問題,其阻礙了數(shù)據(jù)的連接融合,使數(shù)據(jù)無法形成知識體系產(chǎn)生洞見,降低了數(shù)據(jù)的利用價值。只有跨領(lǐng)域的數(shù)據(jù)分析才更有可能形成真正的知識和智能從而產(chǎn)生更大的價值。同時,大數(shù)據(jù)本身具有非常強的資產(chǎn)屬性,大數(shù)據(jù)時代,數(shù)據(jù)就是金錢。因此,基于各類大數(shù)據(jù)的共享與交易也將得到蓬勃的發(fā)展。


(來源:鵬瀾財經(jīng)