設為首頁 | 加入收藏 | ENGLISH
      首頁關于我們科研機構科研團隊科研平臺研究項目人才培養技術轉化招聘公告
      當前位置: 首頁>>科研平臺>>正文

      智能制造大數據服務平臺

      時間:[2018-01-02]  來源:

      一、概述

      基于工業物聯網的智能制造大數據平臺是廣州大學智能制造工程研究院信息化基礎設施建設規劃中的一個重要組成部分。以高性能的基礎硬件以及強大的spark大數據框架為支撐,平臺將實現支持用戶對數據從采集到應用的完整工作流程。平臺具有高度的普適性,在通用的架構上配合具體項目所需的個性化軟硬件,將能服務不同行業的用戶。

      二、平臺系統層次設計


      圖1 平臺系統層次設計

      圖1展示了平臺在系統層次設計。平臺通過運行在單獨的服務器上的云操作系統對服務器、存儲、網絡等資源進行虛擬化 管理,提供可以自定義的虛擬機,在虛擬機上安裝Hadoop、hbase等Nosql分布式數據庫集群, 對現有的數據ETL采集、清洗、轉換、匯總進來,使用海量數據分布存儲技術,用spark等大數據處理軟件對hbase中的數據進行分析處理,挖掘數據價值。還可以在虛擬機上運行業務 應用系統,提供負載均衡和冗余備份,達到系統的穩定、高可用和方便的擴展性。

      平臺可以自動管理和動態分配、部署、配置、重新配置以及回收資源,也可以自動安裝 軟件和應用,具有良好的彈性和靈活性,管理、使用方便。云中心可以向用戶提供虛擬基礎 架構。用戶可以自己定義虛擬基礎架構的構成,如服務器配置、數量、存儲類型和大小等等。 用戶通過自服務界面提交請求,每個請求的生命周期由平臺維護。

      平臺包括IaaS、PaaS、SaaS三層服務:

      1)SaaS:提供給客戶的服務是運營商運行在云計算基礎設施上的應用程序,用戶可以在各種設備上通過客戶端界面訪問,如瀏覽器。消費者不需要管理或控制任何云計算基礎設施,包括網絡、服務器、操作系統、存儲等等。

      2)PaaS:提供給消費者的服務是把客戶采用的開發語言和工具(例如Java、python、.Net等)開發或收購的應用程序部署到供應商的云計算基礎設施上去??蛻舨恍枰芾砘蚩刂频讓拥脑苹A設施,包括網絡、服務器、操作系統、存儲等,但客戶能控制部 署的應用程序,也可控制運行應用程序的托管環境配置;可以使用docker容器完成應用系統的部署和管理。

      3)IaaS:提供給消費者的服務是對所有計算基礎設施的利用,包括處理CPU、內存、存 儲、網絡和其它基本的計算資源,用戶能夠部署和運行任意軟件,包括操作系統和應用程序。消費者不管理或控制任何云計算基礎設施,但能控制操作系統的選擇、存儲空間、部署的應用,也能獲得有限制的網絡組件(例如路由器、防火墻、負載均衡器等)的控制。

      平臺采用xen、kvm、VMware進行虛擬化,LXC(linux container)提供Linux容器,支持docker應用容器。

      三、平臺大數據處理框架設計


      圖2 平臺系統層次設計

      圖2展示了平臺的大數據處理框架的設計。以材料基因工程項目為例,紅色框指代項目的個性化訂制(基礎資源,大數據應用…),其余部分為平臺的通用架構。通過在虛擬機上安裝Hadoop、HBase等NoSQL數據庫集群,用sqoop把現有的數據匯總進來,要對現有數據做個總的分析,對字段統一定義規劃,制定轉換策略,做到正確性、唯 一性、可用性,去除重復字段,通過ETL抽取、清洗數據,把數據導入HBase,這樣就可以消除信息孤島,用spark等大數據處理軟件對HBase中的數據進行分析處理,挖掘數據價值。

      平臺通過調度系統自動采集、加工、存儲數據,為應用系統提供支持:

      1)HDFS文件系統,Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost) 硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。

      2)YARN是一套資源統一管理和調度平臺,可管理各種計算框架,包括MapReduce,Spark,MPI等。包括以下內容:

      ResourceManager(RM):整個系統只有一個RM,它就只管調度方面的事情,并且為集群應用而優化,因而具有很好的性能。RM的一個核心是它的Scheduler。調度包含兩個過程,一要搜集各節點的情況;二要根據某種調度策略,分配合適的節點。搜集節點情況是基于一個資源容器(resource container)的概念,該容器包括cpu、disk、network等(目前只用到cpu)。

      NodeManager(NM):NM是每個節點一個實例,管理每個節點,它觸發應用容器(application container),監控節點的資源(cpu/disk等),并向RM報告資源的情況。

      ApplicationMaster(AM):AM是每個應用一個實例,它是一個特定的框架接口庫,一方面與RM中的Scheduler協商得到resource container,另一方面與NM一起執行和監控各子任務部件,從系統的角度,AM本身也一種container。

      Container:從邏輯上,container可認為是資源的分配容器,它包括hostname、cpu、memory等屬性。AM發送ResourceRequest給RM,然后RM分配合適的Container給AM,AM再將此Container提交給它所在節點的NM,NM采用此資源容器運行任務。實際上,Container是一種使用資源的“授權”,AM得到此授權后,在NM的管理下,可以運行任何進程。

      總的來說,平臺部署了大數據處理的基本組件。在數據采集層上,Sqoop作為數據交換系統處理各類結構化與非結構化數據。而HDFS、YARN、Ambari、Oozie、Zookeeper和NoSQL則在數據儲存與管理層上負責對文件和數據進行管理、儲存和調度。在應用支撐與應用層上,平臺提供以下組件:用于數據挖掘、報表服務等功能的一系列Business Intelligent工具, 分布式內存計算框架spark,機器學習算法庫和深度學習框架Mlib、TensorFlow,流處理工具spark Streaming,圖計算工具spark GraphX,圖形化數據管理平臺spark Notebook以及大數據分析查詢系統sparkSQL。所有這些都將預先部署好,大幅簡化用戶的集群配置/安裝及運維步驟。用戶可以方便地在平臺進行資源服務管理、計費管理、維護管理和運行監控等運營任務。利用平臺自帶的應用支撐結合客戶需要的個性化軟件,客戶可以實現行業所需的大數據應用,例如圖中材料基因工程項目則可進行材料性能分析、新材料研發、行業分析、工作流生成等任務。

      四、平臺與智能制造工程研究院

      廣州大學智能制造工程研究院擁有高性能的硬件設備,其結合前沿的大數據技術打造的基于工業物聯網的智能制造大數據平臺具有優越的性能,輕量且集中的管理。平臺極大簡化了客戶的部署步驟,同時允許企業根據大數據分析應用的擴建方便的對基礎架構進行擴展,進而創造更強大的數據處理平臺。

      上一條:智能機器人研發平臺

      下一條:"人工智能+智能制造+網絡空間技術"大數據中心

      彩票联盟