[onert] Introduce full quantization

Question

[onert] Introduce full quantization

hseok-oh opened this issue 2 months ago · comments

Hyeongseok Oh commented 2 months ago

Let's support full quantization on runtime

Introduce full quantization type: #11497
Full quantization from circle model including minmax data & weight quantization
Generate circle model (buffer) including layer minmax & weight quantization for full quantization from f32 circle and minmax data
- ~~Use minmax-embedder library~~
Remove HDF5 dependency: #12574
- Runtime #13047
- minmax-embedder #13046
Revise observers to introduce execution config API #13039
Introduce API to collect minmax data

Draft: #12903

Hyeongseok Oh · Answer 1 · Tue Jun 25 2024 19:15:59 GMT+0800 (China Standard Time)

Example

$ MINMAX_DUMP=1 ./Product/out/bin/onert_run -r 100 mobilenet_v1_1.0_224.circle
$ ./Product/out/bin/onert_run -q uint8 mobilenet_v1_1.0_224.circle
$ ./Product/out/bin/onert_run mobilenet_v1_1.0_224_quantized_q8.circle