IDC知識庫
IDC領域專業(yè)知識百科平臺

大數(shù)據(jù) 云計算等技術

隨著計算機技術的發(fā)展,數(shù)據(jù)量日益增長,現(xiàn)有技術也很難滿足業(yè)務的發(fā)展需求,在代碼的層層迭代和優(yōu)化之后,還是很難滿足數(shù)據(jù)的增長需求,迫切需要一項新的技術來從事數(shù)據(jù)計算,因為就產(chǎn)生了云計算和大數(shù)據(jù)等技術。

云計算是指能通過網(wǎng)絡訪問可擴展的、靈活的、可共享的物理或虛擬資源池,并按需自助獲取和管理這些資源的模式。其中資源實例包括服務器、操作系統(tǒng)、網(wǎng)絡、軟件、應用和存儲設備等。

云計算主要可分為?Iaas(基礎設施即服務)、Paas(平臺即服務)、Saas(軟件即服務)。

大數(shù)據(jù)處理關鍵技術一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應用、大數(shù)據(jù)安全等)。

一、大數(shù)據(jù)采集技術

數(shù)據(jù)采集是指通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數(shù)據(jù),是大數(shù)據(jù)知識服務模型的根本。重點要突破分布式高速高可靠數(shù)據(jù)爬取或采集、高速數(shù)據(jù)全映像等大數(shù)據(jù)收集技術;突破高速數(shù)據(jù)解析、轉換 與裝載等大數(shù)據(jù)整合技術;設計質(zhì)量評估模型,開發(fā)數(shù)據(jù)質(zhì)量技術。

大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),實現(xiàn)對結構化、半結 構化、非結構化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監(jiān)控、初步處理和管理等。必須著重攻克針對大數(shù)據(jù)源的智能識別、感知、適配、 傳輸、接入等技術。基礎支撐層:提供大數(shù)據(jù)服務平臺所需的虛擬服務器,結構化、半結構化及非結構化數(shù)據(jù)的數(shù)據(jù)庫及物聯(lián)網(wǎng)絡資源等基礎支撐環(huán)境。重點攻克分 布式虛擬存儲技術,大數(shù)據(jù)獲取、存儲、組織、分析和決策操作的可視化接口技術,大數(shù)據(jù)的網(wǎng)絡傳輸與壓縮技術,大數(shù)據(jù)隱私保護技術等。

二、大數(shù)據(jù)預處理技術

主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。1)抽?。阂颢@取的數(shù)據(jù)可能具有多種結構和類型,數(shù)據(jù)抽取過程可以幫助我們將這些復雜的數(shù)據(jù)轉化為 單一的或者便于處理的構型,以達到快速分析處理的目的。2)清洗:對于大數(shù)據(jù),并不全是有價值的,有些數(shù)據(jù)并不是我們所關心的內(nèi)容,而另一些數(shù)據(jù)則是完全 錯誤的干擾項,因此要對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)。

三、大數(shù)據(jù)存儲及管理技術

大數(shù)據(jù)存儲與管理要用存儲器把采集到的數(shù)據(jù)存儲起來,建立相應的數(shù)據(jù)庫,并進行管理和調(diào)用。重點解決復雜結構化、半結構化和非結構化大數(shù)據(jù)管理與處 理技術。主要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€關鍵問題。開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲、計算融入存 儲、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲技術;突破分布式非關系型大數(shù)據(jù)管理與處理技術,異構數(shù)據(jù)的數(shù)據(jù)融合技術,數(shù)據(jù)組織技術,研究大數(shù)據(jù)建模技 術;突破大數(shù)據(jù)索引技術;突破大數(shù)據(jù)移動、備份、復制等技術;開發(fā)大數(shù)據(jù)可視化技術。

開發(fā)新型數(shù)據(jù)庫技術,數(shù)據(jù)庫分為關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫以及數(shù)據(jù)庫緩存系統(tǒng)。其中,非關系型數(shù)據(jù)庫主要指的是NoSQL數(shù)據(jù)庫,分為:鍵值數(shù)據(jù)庫、列存數(shù)據(jù)庫、圖存數(shù)據(jù)庫以及文檔數(shù)據(jù)庫等類型。關系型數(shù)據(jù)庫包含了傳統(tǒng)關系數(shù)據(jù)庫系統(tǒng)以及NewSQL數(shù)據(jù)庫。

開發(fā)大數(shù)據(jù)安全技術。改進數(shù)據(jù)銷毀、透明加解密、分布式訪問控制、數(shù)據(jù)審計等技術;突破隱私保護和推理控制、數(shù)據(jù)真?zhèn)巫R別和取證、數(shù)據(jù)持有完整性驗證等技術。

四、大數(shù)據(jù)分析及挖掘技術

大數(shù)據(jù)分析技術。改進已有數(shù)據(jù)挖掘和機器學習技術;開發(fā)數(shù)據(jù)網(wǎng)絡挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術;突破基于對象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術;突破用戶興趣分析、網(wǎng)絡行為分析、情感語義分析等面向領域的大數(shù)據(jù)挖掘技術。

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過 程。數(shù)據(jù)挖掘涉及的技術方法很多,有多種分類法。根據(jù)挖掘任務可分為分類或預測模型發(fā)現(xiàn)、數(shù)據(jù)總結、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關系或依賴模 型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等;根據(jù)挖掘對象可分為關系數(shù)據(jù)庫、面向對象數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù) 庫以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為:機器學習方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法。機器學習中,可細分為:歸納學習方法(決策樹、規(guī)則 歸納等)、基于范例學習、遺傳算法等。統(tǒng)計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類 分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關分析法等)等。神經(jīng)網(wǎng)絡方法中,可細分為:前向神經(jīng)網(wǎng)絡(BP算法等)、自組織神經(jīng)網(wǎng)絡(自 組織特征映射、競爭學習等)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向屬性的歸納方法。

從挖掘任務和挖掘方法的角度,著重突破:1.可視化分析。數(shù)據(jù)可視化無論對于普通用戶或是數(shù)據(jù)分析專家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自 己說話,讓用戶直觀的感受到結果。2.數(shù)據(jù)挖掘算法。圖像化是將機器語言翻譯給人看,而數(shù)據(jù)挖掘就是機器的母語。分割、集群、孤立點分析還有各種各樣五花 八門的算法讓我們精煉數(shù)據(jù),挖掘價值。這些算法一定要能夠應付大數(shù)據(jù)的量,同時還具有很高的處理速度。3.預測性分析。預測性分析可以讓分析師根據(jù)圖像化 分析和數(shù)據(jù)挖掘的結果做出一些前瞻性判斷。4.語義引擎。語義引擎需要設計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。語言處理技術包括機器翻譯、 情感分析、輿情分析、智能輸入、問答系統(tǒng)等。5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。數(shù)據(jù)質(zhì)量與管理是管理的最佳實踐,透過標準化流程和機器對數(shù)據(jù)進行處理可以確保獲得 一個預設質(zhì)量的分析結果。

五、大數(shù)據(jù)展現(xiàn)與應用技術

大數(shù)據(jù)技術能夠將隱藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經(jīng)濟活動提供依據(jù),從而提高各個領域的運行效率,大大提高整個社會經(jīng)濟的集約 化程度。在我國,大數(shù)據(jù)將重點應用于以下三大領域:商業(yè)智能、政府決策、公共服務。例如:商業(yè)智能技術,政府決策技術,電信數(shù)據(jù)信息處理與挖掘技術,電網(wǎng)數(shù)據(jù)信息處理與挖掘技術,氣象信息分析技術,環(huán)境監(jiān)測技術,警務云應用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安信息系 統(tǒng)),大規(guī)模基因序列分析比對技術,Web信息挖掘技術,多媒體數(shù)據(jù)并行化處理技術,影視制作渲染技術,其他各種行業(yè)的云計算和海量數(shù)據(jù)處理應用技術等。

浜戞湇鍔″櫒
域名頻道為客戶提供服務器代維服務,為客戶節(jié)約服務器維護成本,費用不到專職人員的十分之一。
我們在您成功付款后72小時內(nèi)會為您安排服務器的上架和遠程接入管理服務。
我們的服務器機房是上海五星級電信級機房,超過100G出口帶寬,國內(nèi)領先。
域名頻道選擇專業(yè)的獨立服務器托管服務,詳情鏈接點擊http://m.chouwenlao.cn/server/trusteehost.asp

贊(0)
分享到: 更多 (0)

中國專業(yè)的網(wǎng)站域名及網(wǎng)站空間提供商

買域名買空間