Big Data BigInsights Streams 大數據

  • 大數據來勢洶洶 你HOLD住嗎?

    企業安全的挑戰

       企業網關注的安全需求主要有DDoS攻擊導致的服務癱瘓和APT攻擊導致的敏感性資料洩露。DDoS攻擊,關注的企業類型有各類服務提供者,遊戲、電商、DNS等,攻擊一段時間造成的損失很大。除此之外,新一代威脅防護廠商把目光分分紛紛投向了APT的難題。

        Zero-day attack、target attack是APT的特點,這也決定了以往基於Signature DB模式的IPS模式顯得力不從心。而大資料分析為發現APT的蛛絲馬跡提供了可能性。

    大資料分析的基礎框架

       大資料分析是一個新的概念,但基於資料分析來做安全,卻是長久採用的策略。實際上號稱開創性地提供IT search價值的splunk就是以大資料搜索起家的。而IBM QRadar SIEM類產品,結合大資料分析的手段,快速、準確發現威脅所在,提升了傳統資料分析產品的價值。

    典型的大資料分析平臺的框架可以分成下面幾個組成部分:

     

    1.資料獲取

        大資料平臺除了資料量大、異構(結構、半結構、非結構)的特點外,其資料獲取的種類,超越了以往SIEM類產品關注的存取日誌、資源、vulnerability資料的範疇,擴展到了netflow流量記錄和封包的抓取,甚至包括系統上process活動記錄、windows register file access記錄、VM與VM之間的流量封包。網路設備的監控資料最近也被重視起來了。借道SSL encryption、Convert channel的資料也需要識別和獲取出來。

    2.資料倉庫

       資料倉庫能夠將異構的資料高效、可靠的存儲起來。軟體系統較多考慮採用開源解決方案。

    3.分散式任務運行架構

       分散式任務運行環境,分批分析處理資料,一般採用較為成熟的Hadoop方案。

    4.關聯分析引擎

       關聯分析引擎,也稱智慧分析引擎,是安全威脅發現取得最終效果的核心保障。為分析人員提供查找和判斷的線索和診斷的方向。做的不好,大資料就是死資料,要從大資料中找出威脅的蛛絲馬跡,需要關聯分析引擎把各種可能的組合情況呈現出來。

       分析引擎有外掛程式式的,有根據異常行為不同而劃分的引擎,也有按檢測方法的不同做成不同的引擎嵌入到分析模組裡的。

    5.視覺化與搜索

       視覺化和搜索是在關聯分析引擎的基礎上提供便利的排查和監控的手段,強調操作的直觀和易用性、快速和查詢準則靈活組合的搜索能力。

       文本內容的全文檢索搜尋能力是基礎配置。

    6.資料規範化整合

        資料的來源多樣,格式不一致,需要一致化地整合。同時需要對大資料量的各種類型資料建立索引以供快速檢索。異構、大資料的索引是快速資料獲取要解決的關鍵問題。

    7.規則庫

       分析的方法大致有三類,一類是利用Signature DB、Rule DB來定位監控對象的惡意的行為,SIEM類產品在RULE DB方面積累了比較多的經驗;一類是先學習或定義監控物件的正常pattern、baseline的行為模型,檢測到的行為不符合正常行為模型的,就認為是可疑的行為;還有一類是機器學習的方式。Red lambda和Narus兩個公司利用機器學習的演算法來輔助發現異常的行為,採用如clustering、classification、supervision等智慧演算法。

       當前Rule DB方式的威脅發現手段比較直接和有效,市場上占統治地位的日誌事件分析類產品主要還是採用規則庫判斷的模式。

    8.事件回應與取證

       威脅發現後的行為一般有郵件、短信告警和取證。能否取證是大資料分析比較重要的一環,因為資料分析結果的誤報帶來的不確定性需要從取證環節來確定。IBM QRadar Incident Forensics 致力於抓取全網的封包並在應用和內容層面上將封包還原。

    數據

    數據資料的產生源可以是下面幾個。

    1.網路流量、主機流量

       進出這些主機的流量是否異常?流量協議的分佈是否可疑?資料是否經過了加密?目的地是否可疑?

    2.應用層資料,如Web會話

        Web服務日誌是否發現可疑的行為?

    3.伺服器、網路設備

       伺服器是否被控制了,是否存在漏洞,最近的配置是否被修改了,其配置和系統、元件是否符合安全管理規則?

    4.資訊資料資產

       該系統存儲、傳輸、處理何種資料,這些資料是否具有值得監控的價值?

    5.存取者的身份

       哪些使用者登入進系統了?他們的許可權是否經過了提升?從哪個途徑進入了系統?該用戶還存取了哪些資源?

    資料按層次分日誌記錄資料、上下文資料和內容資料三種。

    1.日誌記錄資料

       日誌資料顯示過去發生、成功、失敗、嘗試的行為活動,常見有下面幾類:

        1) policy,access list日誌:防火牆、路由器、交換機日誌包含被阻斷或允許透過的連接記錄。

        2) Netflow記錄:包含主機到主機間,PC與主機間,PC對外連線,外部對內連線…等流量封包的資訊,如來源IP位址,來源Port,目的IP位址,目的Port、傳輸層協定、會話開始時間、持續長度、協議、應用類型、封包長度等。

        3) NIDS/NIPS告警:包含發現和阻止的安全威脅記錄,也包含可疑的行為記錄。

        4)作業系統日誌:一般指windows系統的event log和Unix、Linux的syslog,包含操作記錄、資源存取記錄,也有錯誤和失敗的記錄。

        5)郵件伺服器日誌:包含發送和接收的郵件,發送者和接受者的位址,錯誤,郵件大小等參數。

        6)代理日誌(Proxy):記錄透過該代理伺服器的連接,包含來源位址和目的地。

        7)漏洞評估結果:針對主機系統和應用軟體的漏洞掃描結果,提供詳細的資源發現列表。

        8)資料庫記錄:記錄存取資料庫的query語句、資料庫的操作、操作使用者、時間等。

        9)應用日誌:需要記錄的內容很靈活,沒有固定的標準,目的是要把使用者的存取行為留下來。

        10)身份存取管理系統日誌:使用者登入記錄,許可權、策略的記錄,為資料分析提供上下文資料。

        11)配置管理系統日誌:記錄配置的修改,誰修改了,修改時間。

    2.上下文數據(Context data)

       事件日誌在上下文資料的補充解釋下更有價值。上下文資料與日誌來源不一樣,通常來源於周圍的IT環境,來自位於組織內部或外部的資訊系統。

       常見的上下文資料來源和種類:

        1) Windows功能變數名稱服務, DNS and NIS 服務:實現位址與功能變數名稱的映射。

        2)資料資源組:預定義的資源標示,可用IP來標示定義。

        3) Whois伺服器:可從Whois伺服器查詢擁有IP位址的組織和組織的駐地。

        4) Geo-location:獲取外部IP的物理位元址,可用精確到國家、省份、城市、甚至學校、街道、社區、房間。

        5) Active directory and LDAP伺服器:實現user id與user name的映射,包含user所處的組織結構、資源存取權限。

        6)資源管理系統:收集系統資訊,包括擁有者、存取者的設置、所處位置、IP標示、合規性等資訊。

        7)應用類別:區別流量封包所屬何種應用。

    3.內容資料(Content data)

       應用的載荷,即網路上實際傳輸或共用的內容。日誌描述在系統或網路上發生的何種行為的事實。而內容資料則是行為事件的本體內容。比如,封包、郵件內容、郵件附件、IM聊天內容、傳輸的檔、論壇發帖、資料庫查詢和回應內容等。

    資料分析方法

       大資料安全分析常用的手段是規則自動判斷和視覺化工具輔助的人工分析。

    規則庫的使用

       安全性記錄檔資料分析產品都會有一個定義已知異常行為的規則庫,也提供讓使用者配置規則的能力。

       常用規則舉例:

        R1:主機上出現新的服務。

        R2:伺服器出現不該有的主動向外發起的網路連接現象。

        R3:發現正常環境下不該有的透過Convert channel或外部代理傳輸資料。

        R4:公司下班後出現大量向外發送的流量。

        R5:有網路流量發送到了一個與公司沒有業務往來的國家,且流量不應該發往這個國家。

        R6:IRC、SSH、VPN、VNC、RDP類應用流量在非IT部分使用的主機上檢測到了。

        R7:FTP流量在財務部門的主機上檢測到了,而財務部門的主機上之前從來沒有檢測到過。

        

    IBM QRadar SIEM可以透過與或運算式將多條規則組合成一條複雜的規則。如果安全分析員越熟悉公司提供的網路服務、存取權限、使用者存取習慣,就越容易設置出明確有效的規則。如果網路業務環境很簡單,簡單的規則就可以達到很到的威脅判斷效果。

        R8:如果一位用戶企圖登入10次,且都失敗了,但接著成功了,可以報“密碼猜測成功”的告警。

        R9(帶上下文資訊的規則):如果一位用戶屬於IT組,不屬於IT支撐小組,企圖登入財務組的一台伺服器,可以報“可能是非授權的存取”的告警。

        R10:如果1000份郵件從公司內部發出,可以報“匿名郵件行為”告警。

        R11(帶上下文資訊的規則):如果1000份郵件從公司內的非SMTP主機發出,且發給1000個不同的位址,可以報“可能是垃圾郵件僵屍”告警。

        R12(帶內容的規則):如果1000份帶有回覆位址屬於外部區域的郵件從公司內非SMTP主機發出,發送位址為1000個不同位址,郵件正文內含有“帳號”“密碼”詞句的,就需要報“可能是垃圾郵件僵屍”的嚴重告警

        R13(帶內容的規則):如果應用外發內容含有敏感詞彙,比如“季度報告”,就可報“可能是保密資料洩露”告警。

        R14(複合規則):如果用戶的角色是“財務”,且即時聊天主題是“季度報告”,且即時聊天應用屬於公司禁止使用的範圍,可以報“可能是欺詐行為”告警。

    視覺化分析

       視覺化與查詢是手工進行資料分析的主要手段。在規則庫無能為力的地方,可以用視覺化與取證手段結合的方式來從大資料中定位威脅的存在。

       首先智慧化的機器學習將可疑的感興趣的事件提煉出來,並透過視覺化的手段呈現出來。在獲取需要關注的物件後,安全分析員繼續用多維度、drilldown視覺化手段繼續分析資料。更深入的資料查詢、過濾、集合、關聯分析,可定位到高度可疑的物件。最後用Network Forensic取證的手段來明確系統是否被入侵和控制。

       視覺化的核心目標就是透過統計方法計算得出的指標告訴分析員哪些現象和事件值得關注,關注的原因是異常的指標值的偏離程度。統計指標採用的方法一般有baseline, clustering等。

       常用的統計指標與異常現象舉例:

        C1:頻寬、連接等網路資源的消耗超過閾值。

        C2:呈現DNS請求呈現Fastflux的行為現象。

        C3:Firewall policy deny記錄呈現突發性、個別地址上持續性的現象。

        C4:DNS/HTTP請求失敗記錄大面積發生。

        C5:網路掃描、DDoS攻擊的次數超過閾值。

        C6:檔共用服務埠上有大量流量。

        C7:大量TCP reset、ICMP不可達回應封包。

  • 「大數據」收集個資 問題不小

    2015-07-22 02:52:39 經濟日報 記者黃晶琳/台北報導

    大數據分析是未來產業發展的重要趨勢,但「大數據」需要透過一個個「小個資」累積而成,在大數據蓬勃發展的同時,如何拿捏個資保護,界線難分。

    中華電信總經理石木標表示,中華電信重視個資考量,因此進行大數據分析,都採「去個人化」的統計。

    行政院副院長張善政日前也指出,政府已經陸續舉行大數據分析實驗,預計7月底完成個資使用的標準法規,建立產業運作模式。

    日前國家通訊傳播委員會裁處通訊傳播事業違反個資法的罰鍰處理要點中,副主委虞孝成就曾發表不同意見書,認為個人資料種類繁多,個人資料利用應該讓各個人自己決定,不宜以立法統一限制。虞孝成表示,個資法精神應該符合個資蒐集、處理及利用作業規範。

     

    透過 IBM Optim 在資料進入大數據平台前,進行資料去識別化或資料隱碼。

    IBM BigInsights 大數據平台。

  • IBM加入Spark社群計畫 培養100多萬資料科學家

    發佈時間:2015-06-19

      近日,IBM宣布承諾大力推進Apache Spark項目,並稱該項目為:在以資料為主導的,未來十年最為重要的新的開源項目。這一承諾的核心是將Spark嵌入IBM業內領先的分析和商務平臺, 並將Spark作為一項服務,在IBM Bluemix平臺上提供給客戶。IBM還將投入超過3500名研究和開發人員在全球十餘個實驗室開展與Spark相關的專案,並將為Spark開源生態 系統無償提供突破性的機器學習技術——IBM SystemML,同時,IBM還將培養超過100萬名Spark資料科學家和資料工程師。

      從流行的應用程式到物聯網,資料與分析已經深深的嵌入到商業和社會的組織機構之中,Spark無疑為大規模資料處理帶來了革命性的突破。首先,它極大的提升了資料依賴型應用程式的性能;其次,它從根本上簡化了由資料驅動的智慧應用程式的開發流程。

      六大舉措,加速Spark生態系統創新

      為了加速Spark生態系統的開源創新進程,IBM將採取如下具體措施:

    1.  IBM將把Spark構建在自有的分析與商務平臺的核心中。
    2.  IBM將把Spark作為沃森健康雲洞察平臺的核心基礎之一,以便醫療服務人員和研究人員在圍繞新的人口健康資料進行分析時,更快地將資料轉化為價值。
    3.  IBM將對IBM突破性的IBM SystemML機器學習技術開源,並與Databricks協作提高Spark的機器學習能力。
    4.  IBM將把Spark作為一項服務在Bluemix平臺上提供給客戶,任何開發人員都可以快速載入資料、建模,並匯出預測性工具用於他們的應用程式。
    5.  IBM將投入超過3500名IBM研究和開發人員在全球十餘個實驗室開展與Spark相關的專案,並在舊金山設立Spark技術中心,説明資料科學與開發者社群在開發智慧應用時,實現以設計為先導的創新。
    6.  IBM將通過與AMPLab、DataCamp、MetiStream、Galvanize 和MOOC,等多種合作方式,培養至少100萬名Spark資料科學家和資料工程師。

      IBM大中華區大數據與分析事業部總經理鐘澤敏先生表示:“在開源創新領域IBM已經引領行業十年之久。我們深信開源的力量是為客戶創造價值的源泉,我們將全力支持Spark, 將其作為推動分析的基礎性技術平臺,從根本上推動所有業務領域加速創新。我們將説明客戶部署和利用Spark推動資料戰略,以實現業務轉型和差異化競爭, 並從中獲益。”

      Spark推動IBM客戶的業務轉型

      Spark已受到開發者與資料科學家們的熱烈追捧。作為一個可以幫助企業便捷整合大資料至應用程式中的重要平臺,Spark勢頭強勁,充分為IBM的客戶提供業務轉型的決策:

      Optibus的即時交通規劃軟體正在改變公共交通的組織方式。Optibus首席技術官兼共同創始人Amos Haggiag表示“Spark與IBM的合作,能夠為Optibus提供高度擴展的平臺,使我們的軟體即服務產品進入新市場變得更容易,並簡化我們在全球交通運輸公司的部署、維護與應用開發過程。”

      全球諮詢與上下文資料技術解決方案公司Findability Sciences正在使用IBM Analytics與Spark平臺説明客戶挖掘大資料的價值。Findability Sciences首席執行官Anand Mahurkar表示“IBM BigInsights與Apache Spark的結合賦予了我們應對中小型企業需求的巨大能力,這種能力是MapReduce無法提供的。借助Spark平臺,公司業績大大提升了。現在,我們能夠處理來自物聯網的流資料,並提供諸如交通、乘客、停車等動態資料的分析。”

      美國費城地區最大的健康保險公司Independence Blue Cross (IBC),在該區域的服務物件超過200萬人,在全美的服務物件超過700萬人。IBC利用Spark平臺助其推動產品的創新和新型服務的開發。IBC資訊部總監Darwin Leung表示,“Apache Spark正在迅速成為開發機器學習分析應用程式的有力工具。它能夠讓IBC的研究人員與學術合作夥伴們更緊密地協作,幫助我們更快地實現客戶的理賠。”

      IBM、NASA與SETI Institute正在利用Spark的機器學習能力,分析兆兆級位元組的複雜外太空無線信號,以新的模式尋找外星智慧生命的存在。SETI研究中心資深天文學家兼總監Seth Shostak博士表示,“借助Bluemix平臺上的Spark服務,我們將能夠與IBM共同合作,開發出分析信號資料的新方式,説明我們在宇宙中尋找 智慧生物。這也是在科學服務領域中,一次關於協同的成功嘗試。”

      IBM是UC Berkeley AMPLab的4家創始成員之一,Spark正是於2009年初創於此,經過夜以繼日的研究實驗、提供建議、結合務實的洞察,並與研究人員就共同感興趣的話題密切互動,Spark應運而生。UC Berkeley AMPLab的總監Michael Franklin教授表示,“作為AMPLab的贊助者,IBM致力于發展Spark社群,並為Berkeley Data Analytics Stack的持續發展與改進提供指導,對於該開源平臺,Spark是不可或缺的關鍵組成部分。”

      Spark具有敏捷快速,便於應用的特徵。良好的開源屬性使其可以在全球範圍內持續改進。在接下來的幾個月裡,IBM的科學家和工程師將與 Apache Spark開放社群合作,迅速推動先進機器學習技術的普及,並加快智慧業務應用開發的創新速度。通過無償提供SystemML,IBM將説明資料科學家提 高反覆運算速度以應對不斷變化的業務需求,並為不斷發展壯大的應用程式開發人員生態系統提供支援,使智慧技術在所有領域得到深度應用。

  • IBM加入Apache Spark社群,打算培育百萬名資料科學家:可能是未來十年最重要的開放源碼計畫

    IBM宣佈加入Apache Spark社群,以及多項與Spark專案相關的計畫,IBM把這次的宣布稱為「可能是未來10年最重要的開放源碼新計畫」,IBM並計畫培育超過一百萬名資料科學家。

    ITHOME 文/林妍溱 | 2015-06-16發表

    IBM宣佈加 入Apache Spark社群,以及多項與Spark專案相關的計畫,包括以Spark作為其分析及商務平台的核心,並在IBM Cloud雲端平台提供Spark服務。IBM的機器學習技術SystemML也將捐給Spark開放源碼生態圈。IBM把這次的宣布稱為「可能是未來 10年最重要的開放源碼新計畫」,IBM並計畫培育超過一百萬名資料科學家。


    Spark為2009年由加州柏克萊大學AMPLab研究人員所創,在2010年以開放源碼專案釋出,而IBM則是AMP Lab四個創始成員公司之一。它的發明人後來成立Databricks。 Spark在大資料處理上的能力優於Hadoop的MapReduce,近年來,獲得愈來愈多組織的青睞。IBM指出,從一般知名應用程式到物聯網,隨著 資料和分析能力已漸漸成為企業及社會運作的一部份,Spark一方面大幅提升仰賴資料處理的應用效能,另一方面也簡化了開發智慧型應用的流程。

     

    為加速壯大Spark專案,IBM將利用Spark作為該公司分析及商務軟體平台的核心,IBM Watson Health Cloud也將以Spark作為分析平台的底層架構,以加速醫療服務供應商及研究人員分析人口健康資料的速度。IBM也將把自己的SystemML機器學習技術以開放源碼釋出,並與Databricks合作共同推進Spark機器學習的能力。此外,IBM的Bluemix Paas將提供Spark as a Cloud,讓開發人員可建立資料分析應用,執行預測式分析。

    IBM BigInsights 4.0 亦包含Spark技術


    IBM強調,Spark既靈巧、迅速又容易使用。而且因為是開放源碼軟體之故,能藉全球社群力量持續精進。過去幾個月來IBM的科學家及工程師已經 和Apache Spark社群合作,以加速進階機器學習能力的交換,及智慧商業應用的開發。有了SystemML的投入,將可協助資料科學家解決多變的企業需求,讓開發 者能夠運用深度人工智慧於各項事物。


    未來IBM全球十多個實驗室將有超過3500名研究人員及開發人員投入Spark相關專案,並將在舊金山成立Spark技術中心,以促進智慧型應用的開發。IBM並將與多家學術教育單位合作,包括AMPLab、DataCamp、MetiStream、Galvanize及MOOC的Big Data University,培育超過100萬名資料科學家及資料工程師。


    IBM指出,該公司將協助客戶運用Spark提升其資料策略,以促進企業轉型與競爭力區隔化。IBM並宣佈多家採用Spark及IBM產品的客戶, 包括即時運輸規劃軟體供應商Optibus、資料分析顧問Findability Sciences、保險公司Blue Cross、美國太空總署(NASA)及SETI研究院等。(編譯/林妍溱)

  • 大數據分析 — 資訊安全下一站

    2015-04-10 轉載


      2012年3月,Gartner在一份報告中明確指出——資訊安全正在成為一個大數據分析問題。


       誠然,安全威脅千變萬化,特別是近年來APT攻擊等新型安全威脅的出現,讓企業、非盈利組織乃至政府機構等攻擊目標防不勝防。攻擊方總是想盡辦法突破原 有的攻擊思路,創新攻擊技術和手段,從而達到攻陷對手的目的。而防守方面對變化莫測、創新不斷的攻擊,很難找到統一的、行之有效的方案,來主動應對威脅。 更多的時候,他們只能頭痛醫頭腳痛醫腳,被動挨打。


      真的沒有這樣的方案嗎?


      答案並非如此。

      曙光已至


      正如Gartner指出的那樣,大數據分析或許就是這樣一個方案。大數據分析的巨大價值,不僅可以用於為消費者畫像,幫助企業進行精准行銷。它同樣可以用於為攻擊者畫像,從而主動預測、識別、防範攻擊,搶先進行處置。


      與沙箱等被動的防護方式不同,如果通過大數據分析真的能把隱匿在資料海洋中的攻擊者或者潛在攻擊者“揪”出來,那麼攻擊方在暗處,防守方在明處,攻擊方主動,防守方被動,攻擊方出招,防守方只能接招的不利局面將被徹底扭轉。

      面對一絲曙色,我們有理由相信,大數據分析不僅為資訊安全防護提供一個新的思路,它還有可能改變整個資訊安全產業。
      葉蓬認為,大數據分析技術能夠給網路與資訊安全帶來全新的技術提升,突破傳統技術的瓶頸,可以更好地解決已有的安全問題,也可以幫助我們應對新的安全問題。

       簡言之,安全資料的大數據化、傳統安全分析面臨的諸多挑戰,以及正在興起的智慧安全和情境感知理念都將大數據分析視作關鍵的解決方案。於是,業界出現了 將大數據分析技術應用于資訊安全的技術——大數據安全分析(Big Data Security Analytics,簡稱BDSA),也有人稱做針對安全的大數據分析(Big Data Analytics for Security)。

      借助大數據安全分析技術,人們能夠更好地解決海量安全要素資訊的採集、存儲的問題,借助基於大數據分析技術的機器學習和資料挖據演算法,能夠更加智慧地洞悉資訊與網路安全的態勢,更加主動、彈性地應對新型複雜的威脅和未知多變的風險。

       攻擊者的攻擊行為隱藏在海量的安全事件中,通過包捕獲,也能拿到海量的包含攻擊流量的資料。所有這些海量資料彙聚起來就是安全大數據。通過對這些安全大 資料進行即時分析和歷史分析,建立行為輪廓,並進行行為建模和資料採擷,就能幫助安全分析師識別出攻擊者及其攻擊行為和過程,並提取攻擊特徵,回饋給安全防禦設施進行阻斷。

      “其實,這類分析方法很早就提出來了,只是受限於當時的技術實現手段,難以落地。大數據技術的成熟,以及大數據生態系統的日益壯大,使得這些分析方法有了落地的可性能。”葉蓬告訴記者。

     

      防禦思想變革


      毫無疑問,資訊安全始終是一場攻與防的博弈,此消彼長。當攻擊方不斷創新和突破的時候,那防守方呢?
       “現在業界討論更多的不是有沒有遭到攻擊,而是何時會遭受攻擊,甚至是當我們已經遭受攻擊時,如何迅速、準確地找到網路中已經存在的攻擊!”葉蓬認為, 面對越來越高級和新型的安全威脅,當前整個網路安全防禦體系已經失效,因而安全防禦的思想方法論也需要進行重大的變革。

      “當然,這並不是說傳統的防禦思想一無是處,而是需要進行反思和提升。”葉蓬告訴記者,當前的資訊安全發展趨勢正在從面向合規的安全向面向對抗的安全轉變;從消極被動防禦到積極主動防禦,甚至是攻防兼備、積極對抗的轉變。

       一種防禦思想是縱深防禦。儘管這個防禦思想經常被提及,但是當下要更加深化對“縱深”的理解。“這種縱深不能僅僅是防範某類些攻擊路徑上的縱深,還需要 考慮防範攻擊的時間縱深、管理縱深、物理縱深。總之,我們要從更高的維度來進行縱深防禦,因為我們的對手也正在研究如何從更高的維度來發起攻擊。”葉蓬 說。

      隨著網路安全日漸上升到國家層面,以及網路戰風險的加大,很多軍事理論也被引入了網路安全領域,譬如更加重視情報,尤其是威脅情報 在網路威脅檢測中的作用。情報的獲得與分享將大大提升對高級威脅防禦的有效性。而情報的分析與分享需要大數據平臺來做支撐。又譬如,軍事領域的偽裝、誘餌 技術也應用于網路安全,安全防禦體系中正在加入偽裝的核心資料庫和伺服器,對設備、主機、系統和應用的特徵指紋進行偽裝,以及部署蜜網等。

       “100%的守住網路安全是絕不可能的。因此,我們不能被動地防守,我們需要更快更好地識別潛在的威脅和敵人。從國家網路空間安全的角度來看,就是要具 備先發制人的能力,以及網路空間威懾的能力。從一般企業和組織的角度來看就是要具備主動防禦能力,包括提前獲悉網路中的暴露面,獲悉網路威脅情報。”葉蓬 表示。

      還有一種防禦思維是積極防禦、積極對抗。這種思想的終極目標是不求阻止任何攻擊,而是盡可能地延緩攻擊,拖延攻擊者的時間,以便為找到對策爭取時間。網路攻防很多時候就是一場奪取時間的戰鬥,誰得到的時間越多,誰就越有可能掌握對抗的主動權,而掌握主動就意味著更有可能獲取對抗的勝利。

       葉蓬告訴記者,諸如美國國防部提出了移動目標防禦(Moving Target Defense,簡稱MTD)的理論,並投入大量資金進行研究和產業化。移動目標防禦的核心就是不斷變換己方關鍵目標的工作姿態,從而使得對方疲于破解, 消耗對方的時間,為己方贏得防禦時間,提升系統的可生存性。

      “這種積極防禦就像踢足球一樣。過去,我們的防守也有陣型,但是更像是站樁 式防守,對方一變陣,就完全無法應對。我們過去部署的大量安全設備和系統基本上都是站樁式的,缺乏協作與變換,相互協作和補防能力都沒有。積極防禦就是要 求防守隊員都跑動起來,相互之間更好地協同,對於網路安全防護設備而言就是要相互協同聯動起來。再厲害一點,連球門(關鍵保護物件)的位置也要能夠變化, 譬如隱匿IP,動態化IP等。”葉蓬說。

      “除了場上的隊員要積極起來,場下的教練和分析師智囊團也要積極起來,要根據場上的形勢變化做 出合理的戰術佈置和調整。對於網路安全防禦,就是要有一個決策分析與研判的機制,要有一個安全分析的大腦。這個大腦能夠能夠基於歷史資料採擷分析,找到合 適的設備,將其部署到合適的位置,讓各種安全設備和機制發揮最大的作用;同時,能夠即時分析對抗過程中產生的資訊,做出合理的防守變化。”葉蓬的比喻非常形象。

      顯然,這個安全分析的大腦就是大數據安全分析平臺。

      大數據安全分析平臺


       “在一個較為完備的基於大數據安全分析的解決方案中,通常會有一個大數據安全分析平臺作為整個方案的核心部件,承載大數據分析的核心功能,將分散的安全 要素資訊進行集中、存儲、分析、視覺化,對分析的結果進行分發,對分析的任務進行調度,將各個分散的安全分析技術整合到一起,實現各種技術間的互動。”葉蓬表示,通常意義上的SIEM(安全資訊與事件分析系統)、安全運營中心(SOC、安管平臺)、DLP(資料防洩露系統)、4A系統(認證、帳號、授權、 審計)等都在這個大數據安全分析平臺之下。

     

      葉蓬介紹,大數據安全分析平臺架構分為採集層、大數據層、分析層、管控層和呈現層,分別完成海量異構資料測採集、預處理、存儲、分析和展示,採用多種分析方法,包括關聯分析、機器學習、運維分析、統計分析、 OLAP分析、資料採擷和惡意程式碼分析等多種分析手段對資料進行綜合關聯,完成資料分析和挖掘的功能,並整合了業界領先的智慧威脅情報管理功能,結合內外部威脅情報,可以為安全分析人員和管理人員提供快捷高效的決策支援。

          IBM QRADAR SIEM 結合外部威脅情報 (IBM X-Force Exchange 與 VirusTotal),讓資安人員判斷更明確與精準


      重塑資訊安全產業


       “做大數據分析,資料品質非常關鍵,如果提供分析的資料本身就有問題或者錯誤,那麼分析結果必然有問題。尤其是大數據安全分析中,資料的真實性和原始性更加重要。具體來說,如果我們僅針對海量日誌進行分析,可能由於攻擊者將關鍵日誌抹除,或者故意摻入假日志,反而會讓基於日誌的大數據安全分析誤導我們。 這時,我們很強調對原始網路流量的分析,將這些流量轉換為流(中繼資料),然後進行大數據分析,配合日誌分析,效果更佳。”葉蓬說。

     

          IBM QRADAR SIEM 結合 QFlow Collector 收集第七層 (Layer 7)網路幫包內容,減少事件誤判


      當然,整體上而言,和大數據分析在其他行業的應用一樣,大數據安全分析還處於早期,尚未成熟,但前景樂觀。葉蓬認為,一方面,大數據分析自身的生態還未真正 建立,大數據技術本身還在迅速演化;另一方面,基於大數據的安全分析演算法還不夠豐富,安全分析演算法的設計人員和資料分析師匱乏,大部分分析結果還需要富有經驗的安全分析師才能解讀,分析結果還做不到一目了然。因此,目前大數據安全分析主要用於針對APT等新型威脅的檢測分析,因為這類需求本身很複雜,值得做這個投入。葉蓬強調,使用者在建設大數據安全系統之前,一定要確認清晰的目標,要有對發展現狀和自身能力的正確認知,切不可盲從。


      大數據時代的到來,使得安全資料的地位和價值得到了空前的提升,資料成為了網路安全的關鍵資源。葉蓬指出,大數據安全分析本質上還是一種知識的運用和提取。在大數據時代,安全對抗往往體現為資料和知識的對抗。


      葉蓬也強調,大數據安全分析不是一個產品分類,而是一種技術,一種安全分析理念和方法。大數據安全分析技術正在重塑整個資訊安全產業,體現在安全防護架構、安全分析體系和業務模式等諸多方面,各種安全產品也正在被大數據安全分析技術重塑。