lndj / DaPy

A light Python library for data processing and analysis.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

DaPy - 数据分析Python库

作为一个数据分析和数据处理的库,DaPy致力于节约数据科学家的时间并提高他们的研究效率,同时它也在尽其所能为你提供舒适的体验。我们希望通过DaPy说明,**人也能开发出高质量的库。

安装 | 特性 | 快速开始 | 远期规划 | 更新日志 | 版权归属 | English

安装

最新版本1.3.2已上传至PyPi。

pip install DaPy

用下面的代码将DaPy更新至1.3.2版本。

pip install -U DaPy

特性

Ⅰ. 舒适的体验

从设计之初,我们就尽可能地让DaPy使用更多Python原生的数据结构,并 让他能支持更多Pythonic的写法特性。因此,你可以快速地适应何使用DaPy 中的数据结构和操作。另外,为了能让用户更流畅地实现他们的想法,我们尽可能 简化了DaPy中的公式或方法参数。

按照不同的字段及标准排序记录是了解数据集的常用方式。在这个功能中,DaPy支持 你使用多个不同的排序要求进行排序。

 data.sort(('A_col', 'DESC'), ('B_col', 'ASC'), ('D_col', 'DESC'))

Ⅱ. 高效性

我们在数据处理库中最常用的三个操作(加载数据、排序数据和遍历数据)测试 了DaPy的性能水平。相较于其他使用C语言优化的库,DaPy在测试中表现出了惊人的 效率。在所有的测试项目中,DaPy始终保持着与最快的C语言优化的库2倍内的耗时。

我们在搭载Intel i7-6560U处理器的平台上,通过64位2.7.13版本的Python进行了测试。 测试数据集(https://pan.baidu.com/s/1kK3_V8XbbVim4urDkKyI8A) 包含多达 450万条记录,并且总的大小为240.2MB。

测试结果 DaPy Pandas Numpy
加载数据 23.4s (1.9x) 12.3s (1.0x) 169.0s (13.7x)
遍历数据 0.53s (2.5x) 4.18s (20.9x) 0.21s (1.0x)
排序数据 1.41s (1.65x) 0.86s (1.0x) 5.37s (10.1x)
总耗时 25.4s (1.5x) 17.4s (1.0x) 174.6s (10.0x)
版本信息 1.3.2 0.22.0 1.14.0

远期规划  

  • 描述性统计

    • 汇总表(交叉表)
    • 条件查询
  • 推断性统计

    • 均值估计
    • 假设检验
    • Univariate linear regression model
  • 特征工程

    • 主成分分析
    • LDA (Linear Discriminant Analysis)
    • MIC (Maximal information coefficient)
  • 算法

    • 朴素贝叶斯
      • 支持向量机
      • K-Means
      • Lasso Regression

更新日志

  • V1.3.2 (2018-04-26)
    • 显著提高了数据加载的效率;
    • 为DaPy.DataSet添加了更多实用的功能;
    • 添加了新的数据结构DaPy.Matrix,支持常规的矩阵运算;
    • 添加了一些数据分析的函数 (例如: corr, dot, exp);
    • 添加了第一个DaPy中的机器学习算法:DaPy.multilayer_periceptron.MLP;
    • 添加了一些标准数据集.
  • V1.3.1 (2018-03-19)
    • 修复了在加载数据及中的bug;
    • 添加了支持保存数据集的功能.
  • V1.2.5 (2018-03-15)
    • DaPy的第一个版本!

版权归属

Copyright (C) 2018 Xuansheng Wu
This program is free software: you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version.

This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.

You should have received a copy of the GNU General Public License along with this program. If not, see https:\www.gnu.org\licenses.# datapy A light Python library for data processing and analysing.

About

A light Python library for data processing and analysis.


Languages

Language:Python 100.0%