當(dāng)前位置：維易PHP培訓(xùn)學(xué)院 > 服務(wù)器運維 > 內(nèi)容正文

史上最全的“大數(shù)據(jù)”學(xué)習(xí)資源（上）

作者：VEPHP 時間 2017-09-18

《史上最全的“大數(shù)據(jù)”學(xué)習(xí)資源（上）》要點：
本文介紹了史上最全的“大數(shù)據(jù)”學(xué)習(xí)資源（上），希望對您有用。如果有疑問，可以聯(lián)系我們。

資源列表：

??關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)
??框架
??分布式編程
??分布式文件系統(tǒng)
??文件數(shù)據(jù)模型
??Key -Map 數(shù)據(jù)模型
??鍵-值數(shù)據(jù)模型
??圖形數(shù)據(jù)模型
??NewSQL數(shù)據(jù)庫
??列式數(shù)據(jù)庫
??時間序列數(shù)據(jù)庫
??類SQL處理
??數(shù)據(jù)攝取
??服務(wù)編程
??調(diào)度
??機器學(xué)習(xí)
??基準(zhǔn)測試
??安全性
??系統(tǒng)部署
??應(yīng)用程序
??搜索引擎與框架
??MySQL的分支和演化
??PostgreSQL的分支和演化
? Memcached的分支和演化
??嵌入式數(shù)據(jù)庫
??商業(yè)智能
??數(shù)據(jù)可視化
??物聯(lián)網(wǎng)和傳感器
??文章
??論文
??視頻

關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)

??MySQL：世界最流行的開源數(shù)據(jù)庫；
??PostgreSQL：世界最先進的開源數(shù)據(jù)庫；
??Oracle 數(shù)據(jù)庫：對象-關(guān)系型數(shù)據(jù)庫管理系統(tǒng).

框架

??Apache Hadoop：分布式處理架構(gòu),結(jié)合了?MapReduce(并行處理)、YARN(作業(yè)調(diào)度)和HDFS(分布式文件系統(tǒng))；
??Tigon：高吞吐量實時流處理框架.

分布式編程

??AddThis Hydra?：最初在AddThis上開發(fā)的分布式數(shù)據(jù)處理和存儲系統(tǒng)；
??AMPLab SIMR：用在Hadoop MapReduce v1上運行Spark；
??Apache Beam：為統(tǒng)一的模型以及一套用于定義和執(zhí)行數(shù)據(jù)處理工作流的特定SDK語言；
??Apache Crunch：一個簡單的Java API,用于執(zhí)行在普通的MapReduce實現(xiàn)時比較單調(diào)的連接、數(shù)據(jù)聚合等任務(wù)；
??Apache DataFu：由LinkedIn開發(fā)的針對Hadoop and 和Pig的用戶定義的函數(shù)集合；
??Apache Flink：具有高性能的執(zhí)行時間和自動程序優(yōu)化；
??Apache Gora：內(nèi)存中的數(shù)據(jù)模型和持久性框架；
??Apache Hama：BSP(整體同步并行)計算框架；
??Apache MapReduce?：在集群上使用并行、分布式算法處理大數(shù)據(jù)集的編程模型；
??Apache Pig?：Hadoop中,用于處理數(shù)據(jù)分析程序的高級查詢語言；
??Apache REEF?：用來簡化和統(tǒng)一低層大數(shù)據(jù)系統(tǒng)的保留性評估執(zhí)行框架；
??Apache S4?：S4中流處理與實現(xiàn)的框架；
??Apache Spark?：內(nèi)存集群計算框架；
??Apache Spark Streaming?：流處理框架,同時是Spark的一部分；
??Apache Storm?：Twitter流處理框架,也可用于YARN；
??Apache Samza?：基于Kafka和YARN的流處理框架；
??Apache Tez?：基于YARN,用于執(zhí)行任務(wù)中的復(fù)雜DAG(有向無環(huán)圖)；
??Apache Twill?：基于YARN的抽象概念,用于減少開發(fā)分布式應(yīng)用程序的復(fù)雜度；
??Cascalog：數(shù)據(jù)處理和查詢庫；
??Cheetah?：在MapReduce之上的高性能、自定義數(shù)據(jù)倉庫；
??Concurrent Cascading?：在Hadoop上的數(shù)據(jù)管理/分析框架；
??Damballa Parkour?：用于Clojure的MapReduce庫；
??Datasalt Pangool?：可選擇的MapReduce范例；
??DataTorrent StrAM?：為實時引擎,用于以盡可能暢通的方式、最小的開支和對性能最小的影響,實現(xiàn)分布式、異步、實時的內(nèi)存大數(shù)據(jù)計算；
??Facebook Corona?：為Hadoop做優(yōu)化處理,從而消除單點故障；
??Facebook Peregrine?：MapReduce框架；
??Facebook Scuba?：分布式內(nèi)存數(shù)據(jù)存儲；
??Google Dataflow?：創(chuàng)建數(shù)據(jù)管道,以幫助其分析框架；
??Netflix PigPen?：為MapReduce,用于編譯成Apache Pig；
??Nokia Disco?：由Nokia開發(fā)的MapReduc獲取、轉(zhuǎn)換和分析數(shù)據(jù)；
??Google MapReduce?：MapReduce框架；
??Google MillWheel?：容錯流處理框架；
??JAQL?：用于處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)工作的聲明性編程語言；
??Kite?：為一組庫、工具、實例和文檔集,用于使在Hadoop的生態(tài)系統(tǒng)上建立系統(tǒng)更加容易；
??Metamarkets Druid?：用于大數(shù)據(jù)集的實時e框架；
??Onyx?：分布式云計算；
??Pinterest Pinlater?：異步任務(wù)執(zhí)行系統(tǒng)；
??Pydoop?：用于Hadoop的Python MapReduce和HDFS API；
??Rackerlabs Blueflood?：多租戶分布式測度處理系統(tǒng)；
??Stratosphere?：通用集群計算框架；
??Streamdrill?：用于計算基于不同時間窗口的事件流的活動,并找到最活躍的一個；
??Tuktu?：易于使用的用于分批處理和流計算的平臺,通過Scala、?Akka和Play所建；
??Twitter Scalding：基于Cascading,用于Map?Reduce工作的Scala庫；
??Twitter Summingbird?：在Twitter上使用Scalding和Storm串流MapReduce；
??Twitter TSAR?：Twitter上的時間序列聚合器.

分布式文件系統(tǒng)

??Apache HDFS：在多臺機器上存儲大型文件的方式；
??BeeGFS：以前是FhGFS,并行分布式文件系統(tǒng)；
??Ceph Filesystem：設(shè)計的軟件存儲平臺；
??Disco DDFS：分布式文件系統(tǒng)；
??Facebook Haystack：對象存儲系統(tǒng)；
??Google Colossus：分布式文件系統(tǒng)(GFS2)；
??Google GFS：分布式文件系統(tǒng)；
??Google Megastore：可擴展的、高度可用的存儲；
??GridGain：兼容GGFS、Hadoop內(nèi)存的文件系統(tǒng)；
??Lustre file system：高性能分布式文件系統(tǒng)；
??Quantcast File System QFS：開源分布式文件系統(tǒng)；
??Red Hat GlusterFS：向外擴展的附網(wǎng)存儲(Network-attached Storage)文件系統(tǒng)；
??Seaweed-FS：簡單的、高度可擴展的分布式文件系統(tǒng)；
??Alluxio：以可靠的存儲速率在跨集群框架上文件共享；
??Tahoe-LAFS：分布式云存儲系統(tǒng)；

文件數(shù)據(jù)模型

??Actian Versant：商用的面向?qū)ο髷?shù)據(jù)庫管理系統(tǒng)；
??Crate Data：是一個開源的大規(guī)模可擴展的數(shù)據(jù)存儲,需要零管理模式；
??Facebook Apollo：Facebook的Paxos算法,類似于NoSQL數(shù)據(jù)庫；
??jumboDB：基于Hadoop的面向文檔的數(shù)據(jù)存儲；
??LinkedIn Espresso：可橫向擴展的面向文檔的NoSQL數(shù)據(jù)存儲；
??MarkLogic：模式不可知的企業(yè)版NoSQL數(shù)據(jù)庫技術(shù)；
??MongoDB：面向文檔的數(shù)據(jù)庫系統(tǒng)；
??RavenDB：一個事務(wù)性的,開源文檔數(shù)據(jù)庫；
??RethinkDB：支持連接查詢和群組依據(jù)等查詢的文檔型數(shù)據(jù)庫.

Key Map 數(shù)據(jù)模型

注意：業(yè)內(nèi)存在一些術(shù)語混亂,有兩個不同的東西都叫做“列式數(shù)據(jù)庫”.這里列出的有一些是圍繞“key-map”數(shù)據(jù)模型而建的分布式、持續(xù)型數(shù)據(jù)庫,其中所有的數(shù)據(jù)都有(可能綜合了)鍵,并與映射中的鍵-值對相關(guān)聯(lián).在一些系統(tǒng)中,多個這樣的值映射可以與鍵相關(guān)聯(lián),并且這些映射被稱為“列族”(具有映射值的鍵被稱為“列”).

另一組也可稱為“列式數(shù)據(jù)庫”的技術(shù)因其存儲數(shù)據(jù)的方式而有別于前一組,它在磁盤上或在存儲器中——而不是以傳統(tǒng)方式,即所有既定鍵的鍵值都相鄰著、逐行存儲.這些系統(tǒng)也彼此相鄰來存儲所有列值,但是要得到給定列的所有值卻不需要以前那么繁復(fù)的工作.

前一組在這里被稱為“key map數(shù)據(jù)模型”,這兩者和Key-value 數(shù)據(jù)模型之間的界限是相當(dāng)模糊的.后者對數(shù)據(jù)模型有更多的存儲格式,可在列式數(shù)據(jù)庫中列出.若想了解更多關(guān)于這兩種模型的區(qū)分,可閱讀Daniel Abadi的博客：Distinguishing two major types of Column Stores.

??Apache Accumulo：內(nèi)置在Hadoop上的分布式鍵/值存儲；
??Apache Cassandra：由BigTable授權(quán),面向列的分布式數(shù)據(jù)存儲；
??Apache HBase：由BigTable授權(quán),面向列的分布式數(shù)據(jù)存儲；
??Facebook HydraBase：Facebook所開發(fā)的HBase的衍化品；
??Google BigTable：面向列的分布式數(shù)據(jù)存儲；
??Google Cloud Datastore：為完全管理型的無模式數(shù)據(jù)庫,用于存儲在BigTable上非關(guān)系型數(shù)據(jù)；
??Hypertable：由BigTable授權(quán),面向列的分布式數(shù)據(jù)存儲；
??InfiniDB：通過MySQL的接口訪問,并使用大規(guī)模并行處理進行并行查詢；
??Tephra：用于HBase處理；
??Twitter Manhattan：Twitter的實時、多租戶分布式數(shù)據(jù)庫.

鍵-值數(shù)據(jù)模型

??Aerospike：支持NoSQL的閃存優(yōu)化,數(shù)據(jù)存儲在內(nèi)存.開源,“’C’(不是Java或Erlang)中的服務(wù)器代碼可精確地調(diào)整從而避免上下文切換和內(nèi)存拷貝”.
??Amazon DynamoDB：分布式鍵/值存儲,Dynamo論文的實現(xiàn)；
??Edis：為替代Redis的協(xié)議兼容的服務(wù)器；
??ElephantDB：專門研究Hadoop中數(shù)據(jù)導(dǎo)出的分布式數(shù)據(jù)庫；
??EventStore：分布式時間序列數(shù)據(jù)庫；
??GridDB：適用于存儲在時間序列中的傳感器數(shù)據(jù)；
??LinkedIn Krati：簡單的持久性數(shù)據(jù)存儲,擁有低延遲和高吞吐量；
??Linkedin Voldemort：分布式鍵/值存儲系統(tǒng)；
??Oracle NoSQL Database：Oracle公司開發(fā)的分布式鍵值數(shù)據(jù)庫；
??Redis：內(nèi)存中的鍵值數(shù)據(jù)存儲；
??Riak：分散式數(shù)據(jù)存儲；
??Storehaus：Twitter開發(fā)的異步鍵值存儲的庫；
??Tarantool：一個高效的NoSQL數(shù)據(jù)庫和Lua應(yīng)用服務(wù)器；
??TiKV：由Google Spanner和HBase授權(quán),Rust提供技術(shù)支持的分布式鍵值數(shù)據(jù)庫；
??TreodeDB：可復(fù)制、共享的鍵-值存儲,能提供多行原子寫入.

圖形數(shù)據(jù)模型

??Apache Giraph：基于Hadoop的Pregel實現(xiàn)；
??Apache Spark Bagel：可實現(xiàn)Pregel,為Spark的一部分；
??ArangoDB：多層模型分布式數(shù)據(jù)庫；
??DGraph：一個可擴展的、分布式、低時延、高吞吐量的圖形數(shù)據(jù)庫,旨在為Google生產(chǎn)水平規(guī)模和吞吐量提供足夠的低延遲,用于TB級的結(jié)構(gòu)化數(shù)據(jù)的實時用戶查詢；
??Facebook TAO：TAO是facebook廣泛用來存儲和服務(wù)于社交圖形的分布式數(shù)據(jù)存儲；
??GCHQ Gaffer：GCHQ中的Gaffer是一個易于存儲大規(guī)模圖形的框架,其中節(jié)點和邊緣都有統(tǒng)計數(shù)據(jù)；
??Google Cayley：開源圖形數(shù)據(jù)庫；
??Google Pregel?：圖形處理框架；
??GraphLab PowerGraph：核心C ++ GraphLab API和建立在GraphLab API之上的高性能機器學(xué)習(xí)和數(shù)據(jù)挖掘工具包的集合；
??GraphX：Spark中的彈性分布式圖形系統(tǒng)；
??Gremlin：圖形追蹤語言；
??Infovore：以RDF為中心的Map / Reduce框架；
??Intel GraphBuilder：在Hadoop上構(gòu)建大規(guī)模圖形的工具；
??MapGraph：用于在GPU上大規(guī)模并行圖形處理；
??Neo4j：完全用Java寫入的圖形數(shù)據(jù)庫；
??OrientDB：文檔和圖形數(shù)據(jù)庫；
??Phoebus：大型圖形處理框架；
??Titan：建于Cassandra的分布式圖形數(shù)據(jù)庫；
??Twitter FlockDB：分布式圖形數(shù)據(jù)庫.

NewSQL數(shù)據(jù)庫

??Actian Ingres：由商業(yè)支持,開源的SQL關(guān)系數(shù)據(jù)庫管理系統(tǒng)；
??Amazon RedShift：基于PostgreSQL的數(shù)據(jù)倉庫服務(wù)；
??BayesDB：面向統(tǒng)計數(shù)值的SQL數(shù)據(jù)庫；
??CitusDB：通過分區(qū)和復(fù)制橫向擴展PostgreSQL；
??Cockroach：可擴展、地址可復(fù)制、交易型的數(shù)據(jù)庫；
??Datomic：旨在產(chǎn)生可擴展、靈活的智能應(yīng)用的分布式數(shù)據(jù)庫；
??FoundationDB：由F1授意的分布式數(shù)據(jù)庫；
??Google F1：建立在Spanner上的分布式SQL數(shù)據(jù)庫；
??Google Spanner：全球性的分布式半關(guān)系型數(shù)據(jù)庫；
??H-Store：是一個實驗性主存并行數(shù)據(jù)庫管理系統(tǒng),用于聯(lián)機事務(wù)處理(OLTP)應(yīng)用的優(yōu)化；
??Haeinsa：基于Percolator,HBase的線性可擴展多行多表交易庫；
??HandlerSocket：MySQL/MariaDB的NoSQL插件；
??InfiniSQL：無限可擴展的RDBMS；
??MemSQL：內(nèi)存中的SQL數(shù)據(jù)庫,其中有優(yōu)化的閃存列存儲；
??NuoDB：SQL / ACID兼容的分布式數(shù)據(jù)庫；
??Oracle TimesTen in-Memory Database：內(nèi)存中具有持久性和可恢復(fù)性的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)；
??Pivotal GemFire XD：內(nèi)存中低延時的分布式SQL數(shù)據(jù)存儲,可為內(nèi)存列表數(shù)據(jù)提供SQL接口,在HDFS中較持久化；
??SAP HANA：是在內(nèi)存中面向列的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)；
??SenseiDB：分布式實時半結(jié)構(gòu)化的數(shù)據(jù)庫；
??Sky：用于行為數(shù)據(jù)的靈活、高性能分析的數(shù)據(jù)庫；
??SymmetricDS：用于文件和數(shù)據(jù)庫同步的開源軟件；
??Map-D：為GPU內(nèi)存數(shù)據(jù)庫,也為大數(shù)據(jù)分析和可視化平臺；
??TiDB：TiDB是分布式SQL數(shù)據(jù)庫,基于谷歌F1的設(shè)計靈感；
??VoltDB：自稱為最快的內(nèi)存數(shù)據(jù)庫.

列式數(shù)據(jù)庫

注意：請在鍵-值數(shù)據(jù)模型?閱讀相關(guān)注釋.

??Columnar Storage：解釋什么是列存儲以及何時會需要用到它；
??Actian Vector：面向列的分析型數(shù)據(jù)庫；
??C-Store：面向列的DBMS；
??MonetDB：列存儲數(shù)據(jù)庫；
??Parquet：Hadoop的列存儲格式；
??Pivotal Greenplum：專門設(shè)計的、專用的分析數(shù)據(jù)倉庫,類似于傳統(tǒng)的基于行的工具,提供了一個列式工具；
??Vertica：用來管理大規(guī)模、快速增長的大量數(shù)據(jù),當(dāng)用于數(shù)據(jù)倉庫時,能夠提供非常快的查詢性能；
??Google BigQuery?：谷歌的云產(chǎn)品,由其在Dremel的創(chuàng)始工作提供支持；
??Amazon Redshift?：亞馬遜的云產(chǎn)品,它也是基于柱狀數(shù)據(jù)存儲后端.

時間序列數(shù)據(jù)庫

??Cube：使用MongoDB來存儲時間序列數(shù)據(jù)；
??Axibase Time Series Database：在HBase之上的分布式時間序列數(shù)據(jù)庫,它包括內(nèi)置的Rule Engine、數(shù)據(jù)預(yù)測和可視化；
??Heroic：基于Cassandra和Elasticsearch的可擴展的時間序列數(shù)據(jù)庫；
??InfluxDB：分布式時間序列數(shù)據(jù)庫；
??Kairosdb：類似于OpenTSDB但會考慮到Cassandra；
??OpenTSDB：在HBase上的分布式時間序列數(shù)據(jù)庫；
??Prometheus：一種時間序列數(shù)據(jù)庫和服務(wù)監(jiān)測系統(tǒng)；
??Newts：一種基于Apache Cassandra的時間序列數(shù)據(jù)庫.

類SQL處理

??Actian SQL for Hadoop：高性能交互式的SQL,可訪問所有的Hadoop數(shù)據(jù)；
??Apache Drill：由Dremel授意的交互式分析框架；
??Apache HCatalog：Hadoop的表格和存儲管理層；
??Apache Hive：Hadoop的類SQL數(shù)據(jù)倉庫系統(tǒng)；
??Apache Optiq：一種框架,可允許高效的查詢翻譯,其中包括異構(gòu)性及聯(lián)合性數(shù)據(jù)的查詢；
??Apache Phoenix：Apache Phoenix 是 HBase 的 SQL 驅(qū)動；
??Cloudera Impala：由Dremel授意的交互式分析框架；
??Concurrent Lingual：Cascading中的類SQL查詢語言；
??Datasalt Splout SQL：用于大數(shù)據(jù)集的完整的SQL查詢工具；
??Facebook PrestoDB：分布式SQL查詢工具；
??Google BigQuery：交互式分析框架,Dremel的實現(xiàn)；
??Pivotal HAWQ：Hadoop的類SQL的數(shù)據(jù)倉庫系統(tǒng)；
??RainstorDB：用于存儲大規(guī)模PB級結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫；
??Spark Catalyst：用于Spark和Shark的查詢優(yōu)化框架；
??SparkSQL：使用Spark操作結(jié)構(gòu)化數(shù)據(jù)；
??Splice Machine：一個全功能的Hadoop上的SQL?RDBMS,并帶有ACID事務(wù)；
??Stinger：用于Hive的交互式查詢；
??Tajo：Hadoop的分布式數(shù)據(jù)倉庫系統(tǒng)；
??Trafodion：為企業(yè)級的SQL-on-HBase針對大數(shù)據(jù)的事務(wù)或業(yè)務(wù)工作負(fù)載的解決方案.

數(shù)據(jù)攝取

??Amazon Kinesis：大規(guī)模數(shù)據(jù)流的實時處理；
??Apache Chukwa：數(shù)據(jù)采集系統(tǒng)；
??Apache Flume：管理大量日志數(shù)據(jù)的服務(wù)；
??Apache Kafka：分布式發(fā)布-訂閱消息系統(tǒng)；
??Apache Sqoop：在Hadoop和結(jié)構(gòu)化的數(shù)據(jù)存儲區(qū)之間傳送數(shù)據(jù)的工具；
??Cloudera Morphlines：幫助 Solr、HBase和HDFS完成ETL的框架；
??Facebook Scribe：流日志數(shù)據(jù)聚合器；
??Fluentd：采集事件和日志的工具；
??Google Photon：實時連接多個數(shù)據(jù)流的分布式計算機系統(tǒng),具有高可擴展性和低延遲性；
??Heka：開源流處理軟件系統(tǒng)；
??HIHO：用Hadoop連接不同數(shù)據(jù)源的框架；
??Kestrel：分布式消息隊列系統(tǒng)；
??LinkedIn Databus：對數(shù)據(jù)庫更改捕獲的事件流；
??LinkedIn Kamikaze：壓縮已分類整型數(shù)組的程序包；
??LinkedIn White Elephant：日志聚合器和儀表板；
??Logstash：用于管理事件和日志的工具；
??Netflix Suro：像基于Chukwa 的Storm和Samza一樣的日志聚合器；
??Pinterest Secor：是實現(xiàn)Kafka日志持久性的服務(wù)；
??Linkedin Gobblin：LinkedIn的通用數(shù)據(jù)攝取框架；
??Skizze：是一種數(shù)據(jù)存儲略圖,使用概率性數(shù)據(jù)結(jié)構(gòu)來處理計數(shù)、略圖等相關(guān)的問題；
??StreamSets Data Collector：連續(xù)大數(shù)據(jù)采集的基礎(chǔ)設(shè)施,可簡單地使用IDE.

轉(zhuǎn)載請注明本頁網(wǎng)址：
http://www.fzlkiss.com/jiaocheng/4365.html

標(biāo)簽：

乱爱性全过程免费视频/午夜毛片视频/中文字幕av三区/一级视频网址

PHP教程

WEB前端開發(fā)

數(shù)據(jù)庫

WEB服務(wù)器

APP開發(fā)

LINUX學(xué)習(xí)

后端開發(fā)課程

前端開發(fā)課程

數(shù)據(jù)庫課程

史上最全的“大數(shù)據(jù)”學(xué)習(xí)資源（上）

關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)

框架

分布式編程

Key Map 數(shù)據(jù)模型

同類教程排行

特輯教程