danan
发布于 2023-03-01 / 4 阅读
0
0

大数据基础知识汇总

1 核心技术

1.1 Linux&Shell

  1. 常用高级命令

  2. Shell常用工具及脚本编写

  3. Shell中单双引号的区别

1.2 Hadoop

  1. Hadoop常用端口号

  2. HDFS读写流程

  3. HDFS小文件处理

  4. HDFS的NameNode内存

  5. Shuffle及优化

  6. Yarn工作机制

  7. Yarn调度器

  8. HDFS块大小

  9. Hadoop脑裂的原因及解决办法

1.3 Zookeeper

  1. 常用命令

  2. 选举机制

  3. 遵循的法则

  4. Zookeeper脑裂

  5. Zookeeper用途

1.4 Flume

  1. 组成

  2. 拦截器

  3. 选择器

  4. 监控器

  5. 数据是否会丢失

  6. 如何提高吞吐量

1.5 Kafka

  1. 架构

  2. 生产端分区分配策略

  3. 是否丢数据

  4. ISR副本同步策略

  5. 数据重复问题

  6. 如何保证数据有序or怎么解决乱序

  7. 分区Leader选取机制

  8. AR的顺序

  9. 日志保存时间

  10. 过期数据清理

  11. 为什么能高效读取数据

  12. 自动创建主题

  13. 副本数设定

  14. 消费者是拉取数据还是推送数据

  15. 消费端分区分配策略

  16. 消费者再平衡的条件

  17. 指定offset消费

  18. 指定时间消费


评论