kudu数据库调研报告

kudu数据库调研报告

问:如何评价kudu存储引擎
  1. 答:Kudu最初由Cloudera开发,但现在已经开始作为Apache的项目孵化。Kudu - ASF JIRA
    定位是OLAP数据库,说白了就是可以随机读但主要是针对顺租滚序读做优化。所以在小米也是计算组搞而非存储组。数据的模型个人觉得很像Cassandra的伪SQL——结构化的数据、SQL类似的语法但本质上还是NoSQL,可以设定是Hash还是range或者两者结合来做partition分配到若干个tablet,每个拿贺tablet用raft协议写在多个节点上。之前扫了眼论文似乎是没写如何做tablet的split/merge,也许现在还不支持也许我看漏了。
    从数据库的角度讲,比较重要的两个点是C++和raft。
    C++的性能比较有保障,还消型派没有gc的停顿导致的.99响应时间不可控等问题,raft的心跳也因为没有gc可以设的敏感一些,可用性更好,而这些都是HBase的痛点。当然这是题外话,毕竟Kudu不是用来代替HBase的。
    用raft协议搞replication意味着不需要比较蛋疼的HDFS了,表面上似乎还在说Kudu属于“Hadoop生态系统”,但我觉得他们的心思肯定不止于此。而且Raft的一致性也比较自由,追求性能可以最终一致性地读。
    此外可以看下Apache Kudu as a More Flexible And Reliable Kafka-style Queue ,这篇文章说,因为他顺序读吞吐比较好,并且raft协议自身提供了递增id,所以可以用来代替kafka搞消息队列,简单测试性能差不多( “in the same realm”),还没GC。而且因为是数据库,可以随机写,相当于可以修改队列,灵活很多。
问:kudu是什么意思?
  1. 答:Kudu是一个列式存储的用于快速分析的NoSQL数据库,提供了类似SQL的查询语句,与RDBMS十分类似,有**PRIMARY KEY **,基于查询而不是HBase的RowKey。
    kudu拥有毫秒级延迟
    与其他早碰仿大数据数据库不同,Kudu不仅仅是一个。行访问达到毫秒级延迟,支持C++ JAVA, API PyThon API 拥有吵散简单好用的API。
    kudu能与Hadoop无缝对接
    你可以使用Java Client实时导入数据,同时也支持Spark(运算) impala(分析工具,比Hive快) MapReduce HDFS HBase 很容易从HDFS中获取数据,占用内存小于1G。
    分布式和容错机制Kudu通过把tables切分成tablets,每个表都可以配置切分的,分区和组合。Kudu使用了Raft来复制给定的操作,保证了数据同时存储在两个节点上,因此不村子单点故障。
    Kudu是为我们下一代设计的好软件,大家可以了解一下!
问:大数据主要学习什么知识
  1. 答:首先是基础阶段。这一阶段包括:关系型数据库原理、LINUX操作系统原理及应用。在掌握了这些基础知识后,会安排这些基础课程的进阶课程,即:数据结构与算法、MYSQL数据库应用及开发、SHELL脚本编程。在掌握了这些内容之后,大数据基础学习阶段才算是完成了。
    接下来是大数据专业学习的第二阶段:大数据理论及核心技术。第二阶段也被分为了基础和进阶两部分,先理解基础知识,再进一步对知识内容做深入的了解和实践。基础部分包括:布式存储技术原理与应用、分布式计算技粗穗厅术、HADOOP集群搭建、运维;进阶内容包括:HDFS高可靠、ZOOKEEPER、CDH、Shuffle、HADOOP源码分析、HIVE、HBASE、Mongodb、HADOOP项目实战。
    完成了这部分内容的学习,学员们就已经掌握了大数据族纤专业大部分的知识,并具有了一定的项目经验。但为了学员们在大数据专业有更好的发展,所学知识能更广泛地应用到大数据相关的各个岗位,有个更长远的发展前景。
    第三阶段叫做数据分析挖掘及海量数据高级处理技术。基础部分有:PYTHON语言、机器学习岩隐算法、FLUME+KAFKA;进阶部分有:机器学习算法库应用、实时分析计算框架、SPARK技术、PYTHON高级语言应用、分布式爬虫与反爬虫技术、实时分析项目实战、机器学习算法项目实战。
kudu数据库调研报告
下载Doc文档

猜你喜欢