ORC/Parquet column name case-insensitive matching
taiyang-li opened this issue · comments
我们local_engine/下自己重写了orc/parquet的input format类,目前它的功能已经落后于社区了(比如缺少column name case-insensitive matching能力, tricky的优化引入了很多core问题),现在怎么选会比较好?
- 同步社区最新的orc/parquet input format到local_engine下。优点:之前对parquet reader读取string的性能优化得以保留。缺点:同步代码比较复杂,不排除后续还需要同步。
- 弃用local_engine下的orc/parquet input format,直接用社区的。 优缺点与上面相反。
长期方案: 将parquet reader优化的代码提到CH社区。统一使用社区中的orc/parquet input format.
duplicated