kudu数据库调研报告_早标降重系统

问：如何评价kudu存储引擎

答：Kudu最初由Cloudera开发，但现在已经开始作为Apache的项目孵化。Kudu - ASF JIRA
定位是OLAP数据库，说白了就是可以随机读但主要是针对顺租滚序读做优化。所以在小米也是计算组搞而非存储组。数据的模型个人觉得很像Cassandra的伪SQL——结构化的数据、SQL类似的语法但本质上还是NoSQL，可以设定是Hash还是range或者两者结合来做partition分配到若干个tablet，每个拿贺tablet用raft协议写在多个节点上。之前扫了眼论文似乎是没写如何做tablet的split/merge，也许现在还不支持也许我看漏了。
从数据库的角度讲，比较重要的两个点是C++和raft。
C++的性能比较有保障，还消型派没有gc的停顿导致的.99响应时间不可控等问题，raft的心跳也因为没有gc可以设的敏感一些，可用性更好，而这些都是HBase的痛点。当然这是题外话，毕竟Kudu不是用来代替HBase的。
用raft协议搞replication意味着不需要比较蛋疼的HDFS了，表面上似乎还在说Kudu属于“Hadoop生态系统”，但我觉得他们的心思肯定不止于此。而且Raft的一致性也比较自由，追求性能可以最终一致性地读。
此外可以看下Apache Kudu as a More Flexible And Reliable Kafka-style Queue ，这篇文章说，因为他顺序读吞吐比较好，并且raft协议自身提供了递增id，所以可以用来代替kafka搞消息队列，简单测试性能差不多（ “in the same realm”），还没GC。而且因为是数据库，可以随机写，相当于可以修改队列，灵活很多。

问：kudu是什么意思？

答：Kudu是一个列式存储的用于快速分析的NoSQL数据库，提供了类似SQL的查询语句，与RDBMS十分类似，有**PRIMARY KEY **，基于查询而不是HBase的RowKey。
kudu拥有毫秒级延迟
与其他早碰仿大数据数据库不同，Kudu不仅仅是一个。行访问达到毫秒级延迟，支持C++ JAVA, API PyThon API 拥有吵散简单好用的API。
kudu能与Hadoop无缝对接
你可以使用Java Client实时导入数据，同时也支持Spark(运算) impala(分析工具，比Hive快) MapReduce HDFS HBase 很容易从HDFS中获取数据，占用内存小于1G。
分布式和容错机制Kudu通过把tables切分成tablets,每个表都可以配置切分的，分区和组合。Kudu使用了Raft来复制给定的操作，保证了数据同时存储在两个节点上，因此不村子单点故障。
Kudu是为我们下一代设计的好软件，大家可以了解一下！

问：大数据主要学习什么知识

答：首先是基础阶段。这一阶段包括：关系型数据库原理、LINUX操作系统原理及应用。在掌握了这些基础知识后，会安排这些基础课程的进阶课程，即：数据结构与算法、MYSQL数据库应用及开发、SHELL脚本编程。在掌握了这些内容之后，大数据基础学习阶段才算是完成了。
接下来是大数据专业学习的第二阶段：大数据理论及核心技术。第二阶段也被分为了基础和进阶两部分，先理解基础知识，再进一步对知识内容做深入的了解和实践。基础部分包括：布式存储技术原理与应用、分布式计算技粗穗厅术、HADOOP集群搭建、运维；进阶内容包括：HDFS高可靠、ZOOKEEPER、CDH、Shuffle、HADOOP源码分析、HIVE、HBASE、Mongodb、HADOOP项目实战。
完成了这部分内容的学习，学员们就已经掌握了大数据族纤专业大部分的知识，并具有了一定的项目经验。但为了学员们在大数据专业有更好的发展，所学知识能更广泛地应用到大数据相关的各个岗位，有个更长远的发展前景。
第三阶段叫做数据分析挖掘及海量数据高级处理技术。基础部分有：PYTHON语言、机器学习岩隐算法、FLUME+KAFKA；进阶部分有：机器学习算法库应用、实时分析计算框架、SPARK技术、PYTHON高级语言应用、分布式爬虫与反爬虫技术、实时分析项目实战、机器学习算法项目实战。

kudu数据库调研报告

问：如何评价kudu存储引擎

问：kudu是什么意思？

问：大数据主要学习什么知识

猜你喜欢