shiyu22 / chem_search

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

README

gen_fingerprint.py说明

参数说明

参数 描述 默认设置
file_length 每个文件保存 fingerprint 的数量 1000000
total_length 多线程保存 fingerprint 的总数 60000000
FILE_NAME 保存.smi文件的位置 /data/workspace/test/test.smi
OUT 生成结果的目录 /data/workspace/out_

使用说明

$ python gen_fingerprint.p
# 执行此命令使用多线程将 FILE_PATH 下的 smiles 转化为fingerprint,程序将建立 OUT 等目录存储结果。

thread_get_smiles_fp.py说明

参数说明

参数 描述 默认设置
file_length 每个文件保存 fingerprint 的数量 200000
vec_dim 生成 fingerprint 的维度/位数 512
FILE_PATH 保存.smi文件的目录 /data/workspace/test
OUT 生成结果的目录 /data/workspace/out_test
OUT_SMILES 转 fingerprint 成功的 smiles 文件路径 out_smiles
OUT_IDS 与 smiles 对应的 ID 文件路径 out_ids
OUT_NPY 与 smiles 对应 fingerprint 的 npy 文件路径 out_npy

使用说明

$ python thread_get_smiles_fp.py
# 执行此命令使用多线程将 FILE_PATH 下的 smiles 转化为 Morgan fingerprint,程序将建立 OUT 等目录存储结果。

milvus_toolkit.py说明

参数说明:

参数 描述 默认设置
SERVER_ADDR milvus server 的 IP 地址 192.168.1.58
SERVER_PORT milvus server 端口号 19530
index_file_size milvus 建立索引时的文件大小阈值 512
metric_type milvus search的类型 MetricType.JACCARD
nlist milvus search时所分的桶数量 2048

使用说明:

$python milvus_toolkit.py --table <table_name> --dim <dim_num> -c
# 执行-c,在milvus中建表
# -t或者--table表示表名
# -d或者--dim 表示维度/位数

$ python3 milvus_toolkit.py --show
# 执行--show,显示milvus中所有表的表名

$ python milvus_toolkit.py --table <table_name> --index ivf --build
# 执行--build,给表建立IVFLAT索引
# -t或者--table表示表名
# --index 表示索引类型

milvus_load.py说明

参数说明

参数 描述 默认设置
SERVER_ADDR milvus server 链接地址 192.168.1.58
SERVER_PORT milvus server端口号 19530
FILE_NPY_PATH 导入数据时的 npy 向量所在文件夹路径 /data/workspace/out_test/out_npy
FILE_IDS 导入数据时的 ids 所在文件夹路径 /data/workspace/out_test/out_ids

使用说明

$ python milvus_load.py --table <table_name> -n
# 执行-n,将存储格式为npy的向量导入milvvus
# -t或者--table表示表名

milvus_search.py说明

参数说明

参数 描述 默认设置
SERVER_ADDR Milvus 的IP设置 192.168.1.58
SERVER_PORT Milvus 的端口设置 19530
NQ_FOLDER_NAME 查询向量集的路径 nq_npy
SE_FOLDER_NAME 查询结果保存的路径 search
SE_FILE_NAME 查询结果保存的文件名 _output.txt
BASE_FOLDER_NAME (ignore) 源向量数据集的路径 /data/milvus
TOFILE(ignore) 是否存储查询后的文件信息 True
GT_NQ ground truth中的nq数值 100
NPROBE Milvus参数nprobe 64

使用说明

$ python milvus_search.py -table <tablename> -q <nq> -k <topk> -n <nprobe> -s

# 执行-s实现Milvus的向量查询,并将结果写入SEARCH_FOLDER_NAME目录下的table_name_output.txt中,该文件有随机数,查询结果ids和查询结果distance三列
# -t或者--table表示需要查询的表名
# -q或者--nq表示在查询集中随机选取的查询向量个数,该参数可选,若没有-q表示查询向量为查询集中的全部数据
# -k或者--topk表示查询每个向量的前k个相似的向量
# -n或者--nprobe表示milvus参数NPROBE

get_results_smiles.py说明

参数说明

参数 描述 默认设置
SE_FOLDER_NAME 查询结果保存的路径 search
SE_FILE_NAME 查询结果保存的文件名 _output.txt
CM_FOLDER_NAME 生成对应smiles的路径 compare
CM_GET_LOC_NAME 生成对应smiles的文件名 _compare.txt
FILE_SMILES 与 ids 对应的 smiles 文件路径 /data/workspace/out_test/out_smiles

使用说明

$ python get_results_smiles.py --table=<table_name> -n <nprobe> -g
# 执行-g生成与milvus结果对应的smiles
# -t或者--table表示表名
# -n或者--nprobe表示milvus参数NPROBE

关于milvus脚本的更多使用请参考https://github.com/shiyu22/source_code/tree/master/milvus0.4.0

About


Languages

Language:Python 99.5%Language:Jupyter Notebook 0.5%