winway / commentRepo

commenyRepo

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Spark-sql生成小文件问题 | winway's blog

winway opened this issue · comments

https://winway.github.io/2022/01/16/spark-small-file/

问题 Spark2.x处理小文件问题的两种方式 问题大数据领域有一个经典的问题——小文件问题。小文件过多不仅会对HDFS NameNode的内存造成压力,还会导致数据处理过程中因为任务数量不合理,导致资源浪费,影响效率。在使用spark-sql处理数据时,也会遇到这个问题。 Spark2.x处理小文件问题的两种方式 使用hint通过在sql中指定COALESCE(n) hint,决定最终产