alibaba / x-deeplearning

An industrial deep learning framework for high-dimension sparse data

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

xdl.parsers.pb格式如何解析为文本数据?

mrchor opened this issue · comments

我想问下,是否可以用普通Python模块解析xdl.parsers.pb格式?xdl不太好编译。

解析这个是为了什么呢?xdl 编译还好,装个docker 比较容啊

哦哦,好的,想另外问一些ESMM模型对应的Ali-CCP数据集的处理,有两个问题:
1)这个里面的所有特征都是放到一个embedding矩阵表去lookup的么?是否有测试过各自特征域分别建立embedding矩阵表的效果?
2)针对这个embedding矩阵表是进行了hash处理呢,还是做的raw千万级的embedding矩阵表进行训练呢?

没有使用过,不敢乱答。只说一下之前做的一些处理,会把特征映射到一个id空间内,比如gender-男映射为1 gender-女为2 ,这样基本一个embedding就可以表示所有特征id,xdl会把embedding 分散在多个ps 之间进行存储。
看到阿里天池的数据,你这是作比赛吗?

这个不是比赛数据,是阿里开源出来的多任务模型对应的数据集。