《大數據安全和性能開源解決方案Apache Eagle,畢業成為Apache頂級項目》要點:
本文介紹了大數據安全和性能開源解決方案Apache Eagle,畢業成為Apache頂級項目,希望對您有用。如果有疑問,可以聯系我們。
翻譯|尚劍
審校|王純超
Apache Eagle是一個識別大數據平臺上的平安和性能問題的開源解決方案,2017年1月10日,Apache Eagle畢業成為Apache頂級項目.
Eagle首先由eBay在2015年10月開源,它主要用來即時監測敏感數據拜訪和惡意活動,并及時采取行動.除了數據活動管理,Eagle也可以用于節點異常檢測,集群和作業性能分析.
作業性能分析是通過處理YARN應用日志和對YARN中所有運行的作業進行快照分析來完成的.Eagle可以檢測單個作業趨勢、數據偏斜問題、故障原因和考慮所有運行的作業情況下評估集群的整體性能.Eagle通過計算每個節點的任務失敗率來監測行為異常和需要關注的節點.至于集群性能,Eagle通過計算每個YARN作業占用的資源并把它與橫向服務的指標(比如HDFS namenode)來贊助識別整體集群緩慢的原因.
Apache Eagle依賴于Apache Storm來進行數據活動和操作日志的流處理,并且可以執行基于策略的檢測和報警.它提供多個API:作為基于Storm API上的一層抽象的流式處理API和policy engine provider API的抽象,它將WSO2的開源Siddhi CEP engine作為第一類對象.Siddhi CEP engine支持報警規則的熱部署,并且警報可以使用屬性過濾和基于窗口的規則(例如,在10分鐘內三次以上的拜訪)來定義.
Apache Eagle中還包括一個基于機器學習的policy provider.它從過去的用戶行為中學習,來將數據拜訪分類為異常或者正常.這個機器學習policy provider評估在Apache Spark框架中離線訓練的模型.Eagle用兩種機器學習方法來計算用戶配置信息:一個方法是密度估計,用來計算每個用戶/活動的高斯概率密度和一個閾值,另一個方法是特征值分解,通過減少用戶和活動的特征維度來提取其行為模式.
數據集成是使用Apache Kafka通過logstash forwarder 代理或通過log4j kafka appender來實現的.來自多個Hadoop守護進程(例如,namenode,datanode等)的日志條目被反饋到Kafka并由Storm處理.Eagle支持將數據資產分類為多個靈敏度類型.
Eagle支持使用Apache HBase和關系數據庫持久化警報.警報可通過電子郵件、Kafka或存儲在Eagle支持的存儲中進行通知.你也可以開發本身的警報通知插件.
歡迎參與《大數據安全和性能開源解決方案Apache Eagle,畢業成為Apache頂級項目》討論,分享您的想法,維易PHP學院為您提供專業教程。