常用的大数据相关处理技术框架
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。
Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。
-
- 1)、Spark作业提交流程?
- 2)、Spark的内存模型?
- 3)、SparkContext创建流程?源码级别?
- 4)、简述Spark个版本区别?1.x与2.x?
- 5)、使用Spark中遇到过哪些问题?如何解决的?
- 6)、Spark的Shuffle过程? 和MR Shuffle区别?
- 7)、Spark中的数据倾斜问题有啥好的解决方案?
- 8)、Spark有哪些聚合类的算子,我们应该怎么避免使用这些算子?ReduceByKey和GroupByKey的区别?
- 9)、Spark On Yarn作业执行流程?yarn-client和yarn-cluster的区别?
- 10)、Spark中Job、Task、RDD、DAG、Stage的理解?
- 11)、Spark中RDD如何通过记录更新的方式容错?
- 12)、Spark常用调优方法?
- 13)、Spark中宽依赖和窄依赖如何理解?
- 14)、Spark中Job和Task如何理解?
- 15)、Spark中Transformation和action区别是什么?列举出常用的方法?
- 16)、Spark中persist()和cache()的区别?
- 17)、Spark中map和mapPartitions的区别?
- 18)、Spark中Worker和Executor的异同?
- 19)、Spark中提供的2**享变量是啥?
- 20)、菲波那切数列可以用Spark做出来么?
- 21)、看过哪些Spark源码?
- 22)、Spark通信机制?
- 23)、Spark的存储级别有哪些?
- 24)、Spark序列化模式有哪些?
- 25)、Spark使用到的安全协议有哪些?
- 26)、Spark部署模式有哪些?
- 27)、Spark的cache后能不能接其它算子?是不是action操作?
- 28)、Spark中reduceByKey是action算子不?reduec呢?
- 29)、Spark中数据本地性是哪个阶段确定的?
- 30)、Spark中RDD的弹性提现在哪里?
- 31)、Spark中容错机制?
- 32)、Spark中RDD的缺陷?
- 33)、Spark中有哪些聚合类的算子?应该避免什么类型的算子?
- 34)、Spark中并行度怎么设置比较合理一些?
- 35)、Spark中数据的位置由谁来管理?
- 36)、Spark中数据本地性有哪几种?
- 37)、Spark如何处理不被序列化的数据?
- 38)、Spark中collect功能是啥?其底层是如何实现的?
- 39)、Spark作业在没有获得足够资源就开始启动了,可能会导致什么问题?
- 40)、Spark中map和flatmap有啥区别?
- 41)、介绍一下join操作优化经验?
- 42)、Spark有哪些组件?
- 43)、Spark的工作机制?
- 44)、Spark中的宽窄依赖?
- 45)、Spark如何划分stage?
- 46)、spark-submit时候如何引用外部的jar包?
- 47)、Spark中RDD有哪些特性?
- 48)、Spark的一个工作流程?
- 49)、Spark on yarn与standalone区别?
- 50)、Spark优化之内存管理?
- 51)、Spark优化之广播变量?
- 52)、Spark优化之数据本地性?
- 53)、Spark中task有几种类型?
-
- 1)、Spark Streaming如何保证数据仅且消费一次?
- 2)、Spark Streaming中DataFrame和DataSet区别?
- 3)、Spark Streaming如何做checkPoint检查点?
- 4)、Spark Streaming如何设置batch大小?
- 5)、Spark Streaming程序消费过慢如何解决?
- 6)、统计实时流中某一单词出现的总个数(eg:比如一天某商品被点击的PV)?
- 7)、Spark Streaming工作流程是怎样的?和Storm以及Flink有什么区别?
- 8)、Spark Streaming输出小文件问题?
- 9)、Spark Streaming中foreachRDD如何使用?
- 10)、Spark Streaming的启动时序图?
- 11)、Spark Streaming程序调优?
- 12)、Spark Streaming窗口大小?每个窗口处理的数据量?
- 13)、Spark Streaming中updateStateByKey和mapWithState的区别与使用?
- 14)、Spark Streaming面对高峰数据如何处理?
-
- 1)、Flink如何保证数据仅且消费一次?
- 2)、Flink如何做checkPoint检查点?分布式快照原理是啥?
- 3)、Flink程序消费过慢如何解决?
- 4)、统计实时流中某一单词出现的总个数(eg:比如一天某商品被点击的PV)?
- 5)、Flink中时间有几种?
- 6)、Flink中窗口有几种?
- 7)、Flink中state如何理解?状态机制?
- 8)、Flink中Operator是啥?
- 9)、Flink中StreamExecutionEnvironment初始化流程?
- 10)、用过DataStream里面的哪些方法?
- 11)、Flink程序调优?
- 12)、Flink如何解决数据乱序问题?Watermark使用过么?EventTime+Watermark可否解决数据乱序问题?
- 13)、Flink的checkpoint存储有哪些(状态存储)?
- 14)、Flink如何实现exactly-once?
- 15)、海量key去重,双十一场景,滑动窗口长度为1小时,滑动距离为10s,亿级别用户,如何计算UV?
- 16)、Flink的checkpoint和spark streaming比较?
- 17)、Flink CEP编程中当状态没有达到时候,数据会保存在哪里?
- 18)、3种时间语义?
- 19)、Flink面对高峰数据如何处理?
- 20)、Flink程序运行慢如何优化处理?
- 21)、Flink程序延迟高如何解决?
- 22)、Flink如何做容错?
- 23)、Flink有没有重启策略?说说有哪几种?
- 24)、Flink分布式快照原理是什么?
- 25)、Flink的Kafka连接器有什么特别的地方?
- 26)、Flink的内存管理?
- 27)、Flink序列化都有哪些?怎么实现的?
- 28)、Flink的window出现了数据倾斜,如何解决?
- 29)、Flink在使用聚合函数GroupBy、KeyBy、Distinct等函数出现数据热点如何解决?
- 30)、Flink如何处理反压?和spark streaming和storm区别有了解么?
- 31)、Flink的Operator Chains算子链了解么?
- 32)、Flink什么时候会把Operator Chain在一起行程算子链?
- 33)、Flink1.7特性?Flink1.9特性
- 34)、Flink组件栈有哪些?
- 35)、Flink运行需要依赖哪些组件?必须依赖Hadoop么?
- 36)、Flink基础编程模型?
- 37)、Flink集群有哪些角色?各有什么作用?
- 38)、Flink中Task Slot概念?Slot和parallelism区别?
- 39)、Flink中常用算子有哪些?
- 40)、Flink分区策略?
- 41)、Flink并行度如何设置?
- 42)、Flink分布式缓存用过没?如何使用?
- 43)、Flink广播变量,使用时候需要注意什么?
- 44)、Flink Table&SQL熟悉不?TableEnvironment这个类有什么作用?
- 45)、Flink SQL实现原理是什么?如何实现SQL的解析?
- 46)、Flink如何支持流批一体的?
- 47)、Flink如何支如何做到高效的数据转换?
- 48)、Flink如何做内存管理?
- 49)、Flink Job提交流程?
- 50)、Flink的三层图结构是哪几个图?
- 51)、Flink中JobManager在集群中扮演的角色?
- 52)、Flink中JobManager在集群启动中扮演的角色?
- 53)、Flink中TaskManager在集群中扮演的角色?
- 54)、Flink中TaskManager在集群启动时候扮演的角色?
- 55)、Flink计算资源的调度是如何实现的?
- 56)、简述Flink的数据抽象以及数据交换过程?
- 57)、FlinkSQL的实现原理?
- 58)、Flink压测和监控?
- 59)、有了Spark为啥还要用Flink?
- 60)、Flink的应用架构有哪些?
- 61)、Flink Barrier对齐?
- 62)、Flink slot和cpu core区别?
- 63)、JobGraph生成?
- 64)、Flink和SparkStreaming区别?
- 65)、Flink中什么场景会用到state?
- 66)、Flink如何快速定位问题?
-
- 1)、简述Hive主要结构?
- 2)、Hive解析成MapReduce过程?
- 3)、Hive与传统数据库的区别?
- 4)、Hive内部表和外部表区别?
- 5)、Hive中order by、sort by、distribute by和cluster by的区别?
- 6)、Hive中row_number()、rank()和dense_rank()区别?
- 7)、Hive中常用的系统函数有哪些?
- 8)、Hive使用过udf函数么?如何使用的?
- 9)、Hive如何实现分区?
- 10)、Hive导入和导出数据的方式?
- 11)、Hive窗口函数有哪些?
- 12)、Hive中如何使用UDTF?
- 13)、Hive表关联查询,如何解决数据倾斜问题?
- 14)、Hive中数据的null在底层是如何存储的?
- 15)、Hive有哪些方式保存元数据?各有哪些特点?
- 16)、Hive中split、coalesce和collect_list函数的用法?
- 17)、Hive在join时候大表和小表放置顺序?
- 18)、Hive使用两张表关联,使用MapReduce怎么实现?
- 19)、Hive中使用什么可以代替in查询?
- 20)、所有的Hive任务底层都会执行MapReduce么?
- 21)、Hive函数中UDF、UDAF和UDTF区别?
- 22)、Hive桶表的理解?
- 23)、Hive实现UDF函数的流程?
- 24)、Hive SQL语句是怎么执行的?
- 25)、Hive用过哪些优化?
- 26)、Hive如何设置并行数?
- 27)、Hive如何合并小文件?
- 28)、Hive动态分区?
-
- 1)、HBase是什么?特点有哪些?
- 2)、HBase和Hive的区别?
- 3)、HBase的rowKey如何设计?
- 4)、简述HBase架构模块?
- 5)、描述HBase中一个cell结构?
- 6)、HBase中compact用途是什么?什么时候触发?分为哪两种?有什么区别?有哪些相关参数?
- 7)、HBase优化?
- 8)、HBase如何建立预分区?
- 9)、HBase中HRegionServer宕机如何处理?
- 10)、HBase中scan和get的功能以及实现的异同?
- 11)、HBase读流程?
- 12)、HBase写流程?
- 13)、HBase内部机制是什么?
- 14)、HBase在进行模型设计时重点在什么地方?一张表定义多个Column Family最合适?为什么?
- 15)、如何提高HBase客户端的读写性能?
- 16)、直接将时间戳作为行键存储在HBase中,在写入单个Region时候会发生热点问题,为什么?
- 17)、请描述如何解决HBase中Region太大和Region太小带来的冲突?
- 18)、简述下布隆过滤器的原理?HBase中如何使用的?
- 19)、简述下LSM树的原理?HBase中如何使用的?
- 20)、HBase中二级索引原理?有使用过么?
- 21)、HBase有put方法,那如何批量进HBase中?用什么方法?
- 22)、访问HBase有哪些方式?
- 23)、HBase中最小存储单元是什么?
- 24)、HBase中的MemStore是用来做什么的?
- 25)、HBase中scan对象的setCache和setBatch方法的使用?
- 26)、每天百亿数据存入HBase,如何保证数据的存储正确以及在规定时间里全部录入完毕,不残留数据?
- 27)、HBase的RowFilter和BloomFilter原理?
-
- 1)、自己写个HDFS需要实现哪些模块?
- 2)、HDFS读流程?
- 3)、HDFS写流程?
- 4)、HDFS的事物日志和镜像文件怎么理解?
- 5)、HDFS的SecondaryNameNode工作机制?
- 6)、HDFS的NameNode和SecondaryNameNode区别?
- 7)、HDFS节点动态上线下线怎么操作?
- 8)、HDFS的单点问题?如何解决?
- 9)、HDFS的HA如何实现?
- 10)、HDFS的Federation如何理解?
- 11)、HDFS的Block和spark的partition有什么区别?
- 12)、HDFS的压缩算法?
- 13)、HDFS的3个DataNode,其中有一个出现问题,会怎么样?
- 14)、HDFS的小文件过多时候,如何解决小文件问题?
- 15)、有一个200M文件写入HDFS,是先写入128M复制完之后再写72M,还是全部写完再复制?
- 16)、HDFS中的RPC协议,底层是如何进行封装的?
- 17)、HDFS出现文件丢失怎么处理?
- 18)、描述HDFS的SecondaryNameNode进行checkpoint的过程?
- 19)、HDFS的数据完整性如何保证?
- 20)、HDFS什么时候进入安全模式?
- 21)、HDFS的副本存放机制?
- 22)、如何理解分布式?
-
- 1)、说说Java中有哪些数据结构?
- 2)、Java中有几种基本类型,各占多少字节?
- 3)、Java中String可以被继承不?String、StringBuffer和StringBuilder有什么区别?
- 4)、Java中ArrayList和LinkedList有什么区别?
- 5)、Java中类的初始化顺序?
- 6)、Java中HashMap内部实现原理?如何扩容?线程安全不?
- 7)、描述动态代理的几种实现方式?
- 8)、Java的反射中,Class.forName和ClassLoader区别?
- 9)、Java中nio和bio区别?
- 10)、写出三种单例模式实现方式?
- 11)、垃圾回收机制?
- 12)、Java的内存模型?
- 13)、数组和链表数据结构描述?各自时间复杂度
- 14)、Java1.5中引入了泛型,泛型的存在用来解决什么问题?
- 15)、Java的HashSet内部如何实现的?
- 16)、Java中List、Set和Map之间的区别?
- 17)、Java中哪些集合类是线程安全的?
- 18)、Java中synchronized和volatile区别?
- 19)、Jvm中一次完整的GC流程?
- 20)、Java中CurrentHashMap和HashMap的区别?
- 21)、Java中int和Integer区别?
- 22)、Java中内存溢出和内存泄漏区别?
- 23)、Java中进程和线程的区别?
- 24)、深拷贝和浅拷贝区别?
- 25)、什么是值传递和引用传递?
- 26)、可以在static环境中访问非static变量吗?
- 27)、Java支持多继承么,为什么?
- 28)、构造器是否可被重写?
- 29)、char型变量中能不能存贮一个中文汉字,为什么?
- 30)、如何实现对象克隆?
- 31)、object中定义了哪些方法?
- 32)、hashCode的作用是什么?
- 34)、列举出JAVA中6个比较常用的包?
- 35)、JDK 7有哪些新特性?
- 36)、JDK 和 JRE 有什么区别?
- 37)、说说你熟悉的设计模式有哪些?
- 38)、在自己的代码中,如果创建一个java.lang.String类,这个类是否可以被类加载器加载?为什么?
- 39)、java8的新特性?
- 40)、switch是否能作用在byte 上,是否能作用在long 上,是否能作用在String上?
- 41)、是否可以从一个静态(static)方法内部发出对非静态(non-static)方法的调用?
- 42)、equals与==的区别?
- 43)、final, finally, finalize 的区别?
- 44)、重载和重写的区别?
- 45)、BIO、NIO、AIO 有什么区别?
- 46)、String,StringBuffer,StringBuilder的区别?
- 47)、Comparator与Comparable有什么区别?
- 48)、说说反射的用途及实现原理,Java获取反射的三种方法?
- 49)、Java中IO流分为几种?
- 50)、Java创建对象有几种方式?
- 51)、守护线程是什么?用什么方法实现守护线程?
- 52)、String s与new String与有什么区别?
- 53)、反射中,Class.forName和ClassLoader的区别?
-
- 1)、伴生对象Object和伴生类Class区别?
- 2)、var、val和def三个关键字之间的区别?
- 3)、trait和abstract class区别?
- 4)、case class是什么?
- 5)、apply和unapply区别?以及各自的使用场景?
- 6)、Nil、Null、None和Nothing四个类型的区别?
- 7)、Unit类型是什么?
- 8)、Option类型的定义和使用场景?
- 9)、yield如何工作?
- 10)、Scala隐士转换如何理解?什么场景下使用?
- 11)、什么是偏函数?
- 12)、什么是柯里化?
- 13)、什么是闭包?
- 14)、Array和ArrayBuffer区别?
- 15)、Scala中协变和逆变区别?
- 16)、Scala中有break么?
-
- 1)、Kafka如何保证消息的顺序?
- 2)、Kafka的receiver和direct区别?
- 3)、Kafka和Flink保证仅消费一次ExactlyOnce?
- 4)、Kafka中ISR、AR表示什么?
- 5)、Kafka中HW、LEO等表示什么意思?
- 6)、Kafka中是怎么体现消息顺序性的?
- 7)、Kafka中分区器、序列化器、拦截器是否了解?它们之间的顺序使什么?
- 8)、Kafka生产者客户端整体结构式什么样子的?使用了几个线程处理?分别是什么?
- 9)、Kafka消费组中的消费者个数如果超过了topic的分区,那么就会有消费者消费不到数据,这句话是否正确?
- 10)、Kafka中消费者提交消费位移时提交的是当前消费到的最新消息offset还是offset+1?
- 11)、Kafka中有哪些情形会造成重复消费?
- 12)、Kafka中有哪些情形会造成消息漏消费?
- 13)、当使用kafka-topics.sh创建(删除)一个topic之后,kafka背后会执行什么逻辑?
- 14)、Kafka的topic分区数可不可以增加?如果可以怎么增加?如果不可以,那又是为什么?
- 15)、Kafka的topic分区数可不可以减少?如果可以怎么增加?如果不可以,那又是为什么?
- 16)、Kafka有内部的topic么?如果有是什么?有什么用?
- 17)、Kafka分区分配的概念?
- 18)、简述Kafka日志目录结构?
- 19)、如果指定了一个offset,Kafka Controller怎么找到对应的消息?
- 20)、Kafka Controller的作用?
- 21)、Kafka中有哪些地方需要选举,这些地方的选举策略有哪些?
- 22)、Kafka失效副本是指什么?有哪些应对策略?
- 23)、Kafka的哪些设计让它有如此高的性能?
- 24)、简述Kafka的基础架构?
- 25)、Kafka的用途有哪些?适用于哪些使用场景?
- 26)、Kafka中过期数据清理?
- 27)、Kafka中幂等是怎么实现的?
- 28)、Kafka中优先副本是什么?有什么特殊的作用?
- 29)、Kafka中zookeeper作用是什么?
- 30)、Kafka的ACK机制?
- 31)、Kafka如何实现ExactlyOnce?