tpoisonooo / llama.onnx

LLaMa/RWKV onnx models, quantization and testcase

tpoisonooo/llama.onnx Issues

llama => onnx => tensorrt
Closed 9 months ago
一种改进next_token计算的方式
Updated a year ago1
如何分段转换llama模型为onnx？
Updated a year ago5
GPU Inference
Updated a year ago3
Could you add torch.onnx.export() in tools/export-onnx.py
Updated a year ago2
cannot import name 'MemoryPoolSimple' from 'public'
Updated a year ago1
onnx模型推理
Updated a year ago1
请问如何支持batch的推理？
Updated a year ago1
transfer fp32 to fp16 error
Updated a year ago
7B onnx模型(float16) 占用显存超过32G
Updated a year ago
Inference with GPU took too much GPU RAM
Updated a year ago4
Alternative RWKV onnx converter
Closed a year ago1
Inference super slow
Updated a year ago4
关于ONNX转换
Updated a year ago17
demo_llama.py: No module named public
Closed a year ago1
convert Onnx problem
Updated a year ago11
Maybe some thing wrong with the script "demo_single.py"
Closed a year ago3
some questions about llama.onnx
Closed a year ago13