IBM BigInsights 大數據分析平台

以符合成本效益的方式,儲存與管理海量資料(Big Data),洞察資料意義

產品特色

• 提供企業級的海量資料 (Big Data) 分析平台

• 以開放源碼巨量資料分散式應用框架Hadoop為基礎,提供企業所需的技術來進階分析,以符合海量資料分析需求

• 整合非 IBM 解決方案與熱門的 IBM 產品及服務(如 IBM® Netezza® 設備、IBM DB2® 資料庫軟體、IBM Streams與 IBM DataStage)

• 支援結構化、半結構化與非結構化的多種資料源,彈性極佳,協助零售、製造、能源、健康醫療及旅遊運輸業監控營運效率、安全事件、設備維運及故障排除,並防止停機等事件。

• 內建加速器以加快分析速度,而社交媒體分析加速器則可針對社交媒體內容了解客戶喜好、消費行為等,以強化市場區隔及行銷活動效果

許多企業的業務活動資訊,無論種類、產生速度與數量都急遽成長,企業疲於管理大量且多元化的資料,無論是傳統結構化、半結構化的資料,或是大量未開發的非結構化資料,這種新一類的資訊,我們稱為 「海量資料 (Big Data)」。企業瞭解若能深入分析資料,就能發揮龐大資料潛能,讓決策更迅速、明確與精細,但首先資料管理與分析工具效率必須大幅提升。

IBM BigInsights 讓企業創造新解決方案,以符合成本效益的方式,洞察大量複雜資料的意義。此分析平台符合企業需求,結合 Apache Hadoop 與 IBM 獨特創新技術,具復原與容錯能力,能處理、分析大量的擴充式(scale-out) 資料。

BigInsights Component 

2014年Forrester Wave Big Data Hadoop Solution報告中指出,IBM BigInsights居於Big Data 領導地位

Big Data Hadoop Forrester Wave

將海量資料 (Big Data) 融入企業

IBM BigInsights 採用開放原始碼 Hadoop,新增企業級功能與整合,滿足關鍵業務需求,企業可利用具成本效益的眾多伺服器,執行大規模且分散的分析工作。此基礎架構運用 Hadoop 的 MapReduce 架構,分解許多節點上的資料,協調大量平行操作的資料處理,以因應大量資料集。原始資料儲存在分散的叢集後,就能有效查詢及分析資料,即時動態解讀資料。

IBM BigInsights 整合式解決方案經過完整的測試,結合最先進技術與成熟功能,符合企業需求,管理者可運用 GUI 型安裝工具,快速啟用執行,並能透過引導,安裝指定的元件並配置平台,安裝進度即時報告,內建的狀態檢查可自動驗證安裝是否成功;這些進階的安裝功能可縮短安裝與調整時間,讓管理者能進行其他重要專案。

IBM BigInsights 安裝完畢後,就能發揮企業級的功能,協助簡化工作量與系統管理。舉例來說,強大的工作管理功能可讓企業精密控制 IBM BigInsights 工作的所有層面,技術人員能輕鬆地建立、送出與取消工作;此外,內建工作狀態顯示、工作日誌與技術器,讓管理者瞭解配置、作業、嘗試與重要資訊,隨時掌握工作進度。

IBM BigInsights 也包含各種管理功能,包括Hadoop Distributed File System (HDFS) 與 MapReduce管理、叢集與伺服器管理、檢視 HDFS 檔案內容、角色特定檢視等。

提升海量資料 (Big Data) 分析的安全性

企業對安全有非常嚴格的要求,IBM BigInsights 可精密調整,維護資料安全與隱私。

身份驗證:IBM BigInsights 主控台可選擇純文字檔、輕量型目錄存取通訊協定 (LDAP) 或未驗證。有了 LDPA驗證,IBM BigInsights 安裝程式能與 LDAP 憑證儲存庫聯繫,進行驗證,接著,管理者可根據使用角色成員資格,設定使用者群組存取 IBM BigInsights 主控台的權限。

授權IBM BigInsights 根據使用角色,提供 4 個層級的使用者授權:系統管理員、資料管理員、應用程式管理員與非管理使用者;使用者存取資料與功能的權限,視其角色而定。

提升效能,簡化工作處理

IBM 新增數種功能, 可提高效能, 讓 IBM BigInsights 更具彈性且能相容於企業環境。

BigInsights Scheduler 配置工作流程

並非所有工作都優先順序都相同,BigInsights Scheduler (排程器)提供 MapReduce 工作可調整的工作流程配置方案,根據使用者選擇的原則,最佳化處理。排程器是 Hadoop Fair Scheduler 的延伸套件,能爲所有工作公平分配叢集資源。

• 從網頁儲存庫整合龐大的非結構化資料

• 從使用者定義的 URL 種子,收集各式各樣非結構化網頁資料

• 分析文字,擷取與擴充網頁資料

• 分析使用者定義環境的資料,以圖形呈現BigSheets 工具可為海量資料 (Big Data) 進行特定分析,無需 IT 協助,也能深入了解資料。

進階文字分析加速器(Advanced Text Analytics Accelerator)

業界最好的文本分析引擎;BigInsights 包含 IBM 開發的強大文字分析引擎 (Text Analytics Engine),IBM Watson ™ 便是運用此引擎,在 Jeopardy! 機智問答賽中擊敗兩名最優秀的參賽者。開發人員運用無所不包的規則庫 (Library of Rules)(或自訂規則),迅速查詢、辨識文件及訊息中關注的項目,包括人員、電子郵件位址、地址、電話號碼、網址、合資企業、聯盟等。文字分析引擎支援英文、荷蘭文/法蘭德斯語、法文、德文、義大利文、葡萄牙文、西班牙文、日文與中文。

Jaql

Jaql 由 IBM 開發,為強大、高階的宣告式查詢語言(declarative query language),支援開放標準,能處理結構化與非結構化資料。Jaql 介面以類 SQL (SQLlike),讓熟悉 SQL 語言的開發人員輕鬆上手,整合相關資料庫更輕鬆。IBM BigInsights 内含預先安裝的Jaql 模組,包括Lucene 索引、Netezza 資料倉儲應用程式系列、HBase(Hadoop 資料庫)與工作流程(包括 IBM BigInsights 內建文字分析功能)。

IB Analyzing Social Media

BigSheets 
BigSheets 是 IBM 在商業分析領域的一項最新技術,可以對非結構化或者半結構化的海量資料進行快速分析,這項技術已經應用于大英圖書館中。BigSheets 提供了一個基於 web 的介面來輕鬆載入、分析和匯出資料,目前已經整合在 BigInsights Enterprise 版本中。

IB Visualize
BigSheets 主要提供了以下功能特性:

  • 對非結構化、半結構化資料的分析處理能力。
  • 以表格的形式展示資料結果,並提供圖形化展示例如圓形圖、柱狀圖等,分析結果一目了然。
  • 提供了過濾、連接、分組查詢、載入、複製等多種公式以及條件、選擇、數學計算、文本操作等豐富的函式程式庫,能滿足大部分場景中的資料分析需求。
  • 支援多種檔案格式分析包括 CSV,TSV,JSON,網路爬蟲資料、自訂字元分割檔等。
  • 基於 Apache Hadoop,因此比傳統的商業分析工具擁有更快速、強大的海量資料處理能力。
  • 支持分析結果以多種格式匯出。

BigSheets 提供了擴展性:使用者可以自訂閱讀器、巨集、圖形化工具甚至自訂 MapReduce 程式來導入資料。
BigSheets 用資料集合(Collection)來代表一個資料集(可以是原始資料或者分析資料),它是使用者操作的主要對象。資料集合的形式類似於 Excel 中的資料表,行代表資料集中的值,列代表資料集的各個屬性。BigSheets 利用閱讀器來對導入的檔進行解析與顯示,支援 7 種默認的閱讀器以及用戶自訂閱讀器。

chart-columnchartchart-piechart

chart-tagcloudchart-timeline

將海量資料 (Big Data) 融入現有資訊架構

分析海量資料 (Big Data) 對企業資訊供應鏈大有幫助,但必須先與現有系統密切整合。IBM 瞭解這點,因此 IBM BigInsights 企業版提供 IBM Netezza資料倉儲應用程式系列、IBM DB2、IBM InfoSphere Warehouse 與 IBM Smart Analytics System 的高速連接器,搭配 DB2 或 IBM 倉儲產品,可簡化與加速操作資料。

IBM BigInsights 企業版也隨附標準 Java Database Connectivity (JDBC) 連接器,讓企業能迅速整合各種資料及資訊系統,包括 Oracle、Microsoft SQL Server、MySQL 與 Teradata。

InfoSphere DataStage 工具包含一個連接器, 能在DataStage ETL 工作中運用 BigInsights 資料;IBM InfoSphere Streams 包含一個連接器,終端使用者能讀寫 BigInsights 檔案系統。

IBM BigInsights 也支援開放式標準與 Apache Nutch 網頁搜尋軟體,搜尋企業內外非結構化的資料。

HBase的企業級支持:增量備份、恢復、同步等;

BigSQL
100% ANSI SQL相容的Hadoop平臺;

提供JDBC/ODBC存取介面

更易於整合現有應用系統與商業分析工具等,例如IBM Cognos 或報表工具

Big R

Big R和機器學習,對R語言和眾多機器學習演算法的支援。Big R是一組功能庫,提供了終端到終端的 R語言與IBM BigInsights整合。Big R可以被用於IBM BigInsights伺服器上的數據綜合分析,降低親自編寫MapReduce作業的複雜性,讓用戶回歸常見的R語法和範例。

可直接執行原有的 R 程式,並採用現有的 R 涵數進行分析,透過 BigR 將分析工作分散於 BigInsights 叢集中運算。

獲得企業級的支援

開放原始碼軟體原本就沒有技術支援,其法律條款可能不適用於部分企業。相形之下,IBM BigInsights 企業版具備標準 IBM 軟體授權與支援協議,企業可根據熟悉的授權條款部署此軟體,將不確定性與風險降到最低,能獲得全天候的支援供應項目、教育與全球專業服務。

IBM 的開放原始碼技術方案功能完備、方便整合且符合企業需求,能將資料分析技術導入現有的資訊供應鏈,幫助企業簡化與加速分析海量資料 (Big Data)。

IBM 解決方案效能出色且可靠性高,是企業決策程序不可或缺的一部分。

Big Data 專案應用

學校、金融、遊戲、製造、政府...等各行業均有成功案例.

● Stock Trade Analysis
Log File Root Cause Analysis
● 360 Degree Customer View
● Gamers Behaviour
● Weather Data Analysis
● Sensitive Data Access
● Tax Fraud Investigation
● Warehouse Augmentation

● Positive side effects of drugs
● CRM analysis
● Ontologies
● Document classification
● Roaming Log Analysis
● Connected Cars
● Historical Archive Research
● DNA sequencing

 

IBM BigInsights 案例應用 : 資料倉儲之資料增強 (Data Warehouse Augmentation)

Data Warehouse 之成本昂貴,可透過IBM BigInsights 所提供之BigSQL,有效節省Data Warehouse 之投資成本,並提高查詢效率。

DataWarehouse augmentation

 

 Cognos BigSQL

透過IBM Cognos 或報表工具 直接查詢BigInsights之Warehouse 裡的資料.

Cognos BigSQL Report