项目简介

数据越来越多，传统的关系型数据库支撑不了，分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量，如何才能高效的分析？
mdrill是由阿里妈妈开源的一套数据的软件，针对TB级数据量，能够仅用10台机器，达到秒级响应，数据能实时导入,可以对任意的维度进行组合与过滤。
mdrill作为数据在线分析处理软件，可以在几秒到几十秒的时间，分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储，其中10亿为实时的数据导入，20亿为离线导入。目前集群的总存储1000多亿80~400维度的数据。
目前有阿里、腾讯、京东、联想、一号店、美团、大街网、亚信、恒隆兴等多家公司在使用。

mdrill的特性

1.满足大数据查询需求：adhoc每天的数据量为30亿条，随着日积月累，数据会越来越大，mdrill采用列存储，索引，分布式技术，适当的分区等满足用户对数据的实时在线分析的需求。
2.支持增量更新：离线形式的mdrill数据支持按照分区方式的增量更新。
3.支持实时数据导入：在仅有10台机器的情况下，支持每天10亿级别（高峰每小时2亿）的实时导入。
4.响应时间快：列存储、倒排索引、高效的数据压缩、内存计算，各种缓存、分区、分布式处理等等这些技术，使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
5.低成本：目前在阿里adhoc仅仅使用10台48G内存的PC机，但确存储了超过千亿规模的数据。

版本下载

资源列表

mdrill contributors

母延年(子落)、秦剑(含光)、郑博文(士远)、陈鹏(伯时)、木晗、逸客、张壮、凌凝
谷磊(QQ506413250)、刘宏凯(QQ23276998)、孙磊(QQ29130962)、范宜坚(@yehaozi)

jstorm Core contributors 点击进入

封仲淹(纪君祥)、李鑫(丙吉)、母延年(子落)、周鑫(陈均)

mdrill数据量的增长

时间点	数据量	事件
12年12月	小于2亿	adhoc首次上线
13年1月	20~30亿	由2台机器扩容到了10台
13年5月2日	100亿	首次过百亿
13年7月24日	400亿	首次开源
13年11月	1000亿	全文检索模式ods_allpv_ad_d上线
13年12月	1500亿	实时数据以及无线数据的接入
14年2月	3200亿	11台机器，硬盘使用率30%
14年3月28日	4900亿	11台机器，硬盘使用率60%

其他

FAQ
mdrill技术交流群:171465049
微博：http://weibo.com/mynyannian

About

for千亿数据即席分析

https://github.com/alibaba/mdrill

Apache License 2.0

Languages

Language:Java 92.1%Language:JavaScript 6.9%Language:HTML 0.4%Language:CSS 0.3%Language:Lex 0.1%Language:XSLT 0.0%Language:Python 0.0%Language:Shell 0.0%