WhatAboutMyStar / FeatureSelection

基于小样本数据挖掘的特征筛选库

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

FeatureSelection

基于小样本数据挖掘的特征筛选库 README_EngLish_Version

功能目的

在数据挖掘的任务中,我们往往想知道数据中的哪些特征对预测的目标有影响, 以及使用哪些特征在评价指标上有最大的提升。
现有的特征选择包只能机械的选择特征,却不能直观的告知我们哪些特征最有用。 如sklearn.feature_selection,尽管它能高效的筛选特征, 但是转化出来的特征都是numpy数组,丢失了pandas的DataFrame存下来的特征名称, 我们要根据数据寻找特征名称非常困难,尤其特征数量众多的情况下, 我们很难确定表格数据对应的列。
基于此目的,我们开发了一个基于pandas的DataFrame表格数据挖掘的特征筛选库, 既能够高效筛选特征,又能够清晰直观的观察到筛选出来的是哪些特征。

使用方法

使用接口和sklearn类似,用fit, fit_transform, transform方法筛选特征
使用feature_importances_, columns_, keys()等查看筛选出来的特征

from featureSelection.tree import RandomForestSelection, DecisionTreeSelection
from sklearn.datasets import load_boston
import pandas as pd

boston = load_boston()
x_data = boston.data
y_data = boston.target

x_data = pd.DataFrame(x_data)

dt = DecisionTreeSelection(top_k=5)
new_data = dt.fit_transform(x_data, y_data)
print(dt.feature_importances_)
print(dt.keys())
  • 强调:输入是pandas的DataFrame表格数据

About

基于小样本数据挖掘的特征筛选库

License:MIT License


Languages

Language:Python 100.0%