ComputeLibrary/v21.02/quantized_8h_source.xhtml

 /*
  * Copyright (c) 2021 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
  * Permission is hereby granted, free of charge, to any person obtaining a copy
  * of this software and associated documentation files (the "Software"), to
  * deal in the Software without restriction, including without limitation the
  * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or
  * sell copies of the Software, and to permit persons to whom the Software is
  * furnished to do so, subject to the following conditions:
  *
  * The above copyright notice and this permission notice shall be included in all
  * copies or substantial portions of the Software.
  *
  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
  * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
  * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
  * SOFTWARE.
  */
 #ifndef SRC_CORE_NEON_KERNELS_QUANTIZED_H
 #define SRC_CORE_NEON_KERNELS_QUANTIZED_H

 #include "arm_compute/core/Types.h"
 #include "arm_compute/core/utils/misc/Traits.h"
 #include "src/core/NEON/NEAsymm.h"
 #include "src/core/NEON/NEFixedPoint.h"
 #include "src/core/NEON/NEMath.h"
 #include "src/core/NEON/wrapper/wrapper.h"
 #include <arm_neon.h>

 namespace arm_compute
 {
 namespace cpu
 {
 template <typename T>
 inline typename std::enable_if<std::is_same<T, int8_t>::value, int8_t>::type
 quantize(float val, const UniformQuantizationInfo &info)
 {
     return quantize_qasymm8_signed(val, info);
 }

 template <typename T>
 inline typename std::enable_if<std::is_same<T, uint8_t>::value, uint8_t>::type
 quantize(float val, const UniformQuantizationInfo &info)
 {
     return quantize_qasymm8(val, info);
 }

 template <typename T>
 inline T vcvtq_q32_f32(float32x4_t values);

 template <>
 inline uint32x4_t vcvtq_q32_f32(float32x4_t values)
 {
     return vcvtq_u32_f32(values);
 }

 template <>
 inline int32x4_t vcvtq_q32_f32(float32x4_t values)
 {
     return vcvtq_s32_f32(values);
 }

 template <typename T>
 inline float32x4_t vcvtq_f32_q32(T values);

 template <>
 inline float32x4_t vcvtq_f32_q32(uint32x4_t values)
 {
     return vcvtq_f32_u32(values);
 }

 template <>
 inline float32x4_t vcvtq_f32_q32(int32x4_t values)
 {
     return vcvtq_f32_s32(values);
 }

 template <typename Tout>
 inline Tout vrequantize_pooling_with_scale(const float32x4x4_t &acc, const float quant_rescale, const float scale_pooling, const int32_t new_offset);

 template <>
 inline uint8x16_t vrequantize_pooling_with_scale(const float32x4x4_t &acc, const float quant_rescale, const float scale_pooling, const int32_t new_offset)
 {
     const float new_scale = quant_rescale / scale_pooling;
     return vquantize(acc, UniformQuantizationInfo(new_scale, new_offset));
 }

 template <>
 inline int8x16_t vrequantize_pooling_with_scale(const float32x4x4_t &acc, const float quant_rescale, const float scale_pooling, const int32_t new_offset)
 {
     const float new_scale = quant_rescale / scale_pooling;
     return vquantize_signed(acc, UniformQuantizationInfo(new_scale, new_offset));
 }

 template <typename Tin, typename Tout>
 inline Tout vrequantize_pooling(Tin vec1, Tin vec2, const UniformQuantizationInfo &requant_qinfo);

 template <>
 inline uint8x16_t vrequantize_pooling(uint8x8_t vec1, uint8x8_t vec2, const UniformQuantizationInfo &requant_qinfo)
 {
     const float32x4x4_t acc =
     {
         {
             vcvtq_f32_u32(vmovl_u16(vget_low_u16(vmovl_u8((vec1))))),
             vcvtq_f32_u32(vmovl_u16(vget_high_u16(vmovl_u8((vec1))))),
             vcvtq_f32_u32(vmovl_u16(vget_low_u16(vmovl_u8((vec2))))),
             vcvtq_f32_u32(vmovl_u16(vget_high_u16(vmovl_u8((vec2))))),
         }
     };
     return vquantize(acc, requant_qinfo);
 }

 template <>
 inline int8x16_t vrequantize_pooling(int8x8_t vec1, int8x8_t vec2, const UniformQuantizationInfo &requant_qinfo)
 {
     const float32x4x4_t acc =
     {
         {
             vcvtq_f32_s32(vmovl_s16(vget_low_s16(vmovl_s8((vec1))))),
             vcvtq_f32_s32(vmovl_s16(vget_high_s16(vmovl_s8((vec1))))),
             vcvtq_f32_s32(vmovl_s16(vget_low_s16(vmovl_s8((vec2))))),
             vcvtq_f32_s32(vmovl_s16(vget_high_s16(vmovl_s8((vec2))))),
         }
     };
     return vquantize_signed(acc, requant_qinfo);
 }

 template <typename T>
 inline T vrequantize_pooling(T &vec, const UniformQuantizationInfo &requant_qinfo);

 template <>
 inline uint8x8_t vrequantize_pooling(uint8x8_t &vec, const UniformQuantizationInfo &requant_qinfo)
 {
     const float32x4x2_t acc =
     {
         {
             vcvtq_f32_u32(vmovl_u16(vget_low_u16(vmovl_u8((vec))))),
             vcvtq_f32_u32(vmovl_u16(vget_high_u16(vmovl_u8((vec))))),
         }
     };
     return vquantize(acc, requant_qinfo);
 }

 template <>
 inline int8x8_t vrequantize_pooling(int8x8_t &vec, const UniformQuantizationInfo &requant_qinfo)
 {
     const float32x4x2_t acc =
     {
         {
             vcvtq_f32_s32(vmovl_s16(vget_low_s16(vmovl_s8((vec))))),
             vcvtq_f32_s32(vmovl_s16(vget_high_s16(vmovl_s8((vec))))),
         }
     };
     return vquantize_signed(acc, requant_qinfo);
 }

 inline float calculate_avg_scale(bool exclude_padding, DataLayout data_layout, const Coordinates &id, const int pool_size_x, const int pool_size_y, const int upper_bound_w, const int upper_bound_h,
                                  const int pad_x, const int pad_y, const int stride_x, const int stride_y)
 {
     const unsigned int idx_width  = get_data_layout_dimension_index(data_layout, DataLayoutDimension::WIDTH);
     const unsigned int idx_height = get_data_layout_dimension_index(data_layout, DataLayoutDimension::HEIGHT);

     int start_x = id[idx_width] * stride_x - pad_x;
     int start_y = id[idx_height] * stride_y - pad_y;

     const int end_x = std::min(start_x + pool_size_x, upper_bound_w);
     const int end_y = std::min(start_y + pool_size_y, upper_bound_h);
     if(exclude_padding)
     {
         start_x = std::max(0, start_x);
         start_y = std::max(0, start_y);
     }
     return 1.f / ((end_y - start_y) * (end_x - start_x));
 }

 template <typename T>
 void poolingMxN_q8_neon_nhwc(const ITensor *src, ITensor *dst0, ITensor *dst1, PoolingLayerInfo &pool_info, const Window &window_src, const Window &window)
 {
     ARM_COMPUTE_UNUSED(dst1);

     const int window_start_x     = window.x().start();
     const int window_end_x       = window.x().end();
     const int window_step_x      = 16;
     const int window_half_step_x = window_step_x / 2;

     Window window_out = window;
     window_out.set(Window::DimX, Window::Dimension(0, 1, 1));

     Iterator in(src, window_src);
     Iterator out(dst0, window_out);

     using q8x8_t  = typename wrapper::traits::neon_vector<T, 8>::type;
     using q8x16_t = typename wrapper::traits::neon_vector<T, 16>::type;
     using q16_t   = typename wrapper::traits::promote_t<T>;
     using q16x8_t = typename wrapper::traits::neon_vector<q16_t, 8>::type;
     using q32_t   = typename wrapper::traits::promote_t<q16_t>;
     using q32x4_t = typename wrapper::traits::neon_vector<q32_t, 4>::type;

     const int pool_size_x     = pool_info.is_global_pooling ? src->info()->tensor_shape().y() : pool_info.pool_size.width;
     const int pool_size_y     = pool_info.is_global_pooling ? src->info()->tensor_shape().z() : pool_info.pool_size.height;
     const int pool_pad_right  = pool_info.pad_stride_info.pad_right();
     const int pool_pad_top    = pool_info.pad_stride_info.pad_top();
     const int pool_pad_left   = pool_info.pad_stride_info.pad_left();
     const int pool_pad_bottom = pool_info.pad_stride_info.pad_bottom();

     int pool_stride_x = 0;
     int pool_stride_y = 0;
     std::tie(pool_stride_x, pool_stride_y) = pool_info.pad_stride_info.stride();
     const int upper_bound_w = src->info()->dimension(1) + (pool_info.exclude_padding ? 0 : pool_pad_right);
     const int upper_bound_h = src->info()->dimension(2) + (pool_info.exclude_padding ? 0 : pool_pad_bottom);

     const float32x4_t             half_scale_v = vdupq_n_f32(0.5f);
     const UniformQuantizationInfo src_qinfo    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo dst_qinfo    = dst0->info()->quantization_info().uniform();

     const float quant_rescale = dst_qinfo.scale / src_qinfo.scale;
     // "new_offset" doesn't have to consider the "half_scale_v" in its computation
     // With a requantization performed in a single step there won't be uncertainties introduced
     const int32_t new_offset = dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / quant_rescale);

     const float                   requant_scale  = dst_qinfo.scale / src_qinfo.scale;
     const int32_t                 requant_offset = dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / requant_scale);
     const UniformQuantizationInfo requant_qinfo  = UniformQuantizationInfo(requant_scale, requant_offset);

     execute_window_loop(window_out, [&](const Coordinates & id)
     {
         const int idx_width    = id.y() * pool_stride_x;
         const int idx_height   = id.z() * pool_stride_y;
         const int pool_limit_y = pool_pad_top - idx_height;
         const int pool_limit_x = pool_pad_left - idx_width;

         const int pool_start_y = std::max(0, window_src.z().start() + pool_limit_y);
         const int pool_end_y   = std::min(pool_size_y, window_src.z().end() + pool_limit_y);
         const int pool_start_x = std::max(0, window_src.y().start() + pool_limit_x);
         const int pool_end_x   = std::min(pool_size_x, window_src.y().end() + pool_limit_x);

         int x_off = window_start_x;
         for(; x_off <= (window_end_x - window_step_x); x_off += window_step_x)
         {
             if(pool_info.pool_type != PoolingType::MAX)
             {
                 q32x4_t vres1 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                 q32x4_t vres2 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                 q32x4_t vres3 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                 q32x4_t vres4 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});

                 // Calculate scale
                 const float scale = calculate_avg_scale(pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w, upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x,
                                                         pool_stride_y);

                 // Perform pooling
                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const q8x16_t data = wrapper::vloadq(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                          (src->info()->strides_in_bytes().z())) + x_off);

                         const q16x8_t data_q16  = wrapper::vmovl(wrapper::vgetlow(data));
                         const q16x8_t data2_q16 = wrapper::vmovl(wrapper::vgethigh(data));
                         vres1                   = wrapper::vadd(vres1, wrapper::vmovl(wrapper::vgetlow(data_q16)));
                         vres2                   = wrapper::vadd(vres2, wrapper::vmovl(wrapper::vgethigh(data_q16)));
                         vres3                   = wrapper::vadd(vres3, wrapper::vmovl(wrapper::vgetlow(data2_q16)));
                         vres4                   = wrapper::vadd(vres4, wrapper::vmovl(wrapper::vgethigh(data2_q16)));
                     }
                 }

                 if(src_qinfo != dst_qinfo)
                 {
                     const float32x4x4_t vres =
                     {
                         {
                             vcvtq_f32_q32(vres1),
                             vcvtq_f32_q32(vres2),
                             vcvtq_f32_q32(vres3),
                             vcvtq_f32_q32(vres4),
                         }
                     };
                     const auto requantized_dst = vrequantize_pooling_with_scale<q8x16_t>(vres, quant_rescale, scale, new_offset);
                     // Store result
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, wrapper::vgetlow(requantized_dst));
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off + 8, wrapper::vgethigh(requantized_dst));
                 }
                 else
                 {
                     const float32x4_t scale_v = vdupq_n_f32(scale);
                     // Divide by scale and add 0.5f to round to nearest instead of rounding towards zero
                     vres1 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres1), scale_v));
                     vres2 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres2), scale_v));
                     vres3 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres3), scale_v));
                     vres4 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres4), scale_v));

                     const q8x8_t res1 = wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(vres1), wrapper::vmovn(vres2)));
                     const q8x8_t res2 = wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(vres3), wrapper::vmovn(vres4)));
                     // Store result
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, res1);
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off + 8, res2);
                 }
             }
             else
             {
                 q8x16_t vres = wrapper::vdup_n(std::numeric_limits<T>::min(), wrapper::traits::vector_128_tag{});

                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const q8x16_t data = wrapper::vloadq(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                          (src->info()->strides_in_bytes().z())) + x_off);
                         vres               = wrapper::vmax(vres, data);
                     }
                 }

                 // Store result
                 wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, (src_qinfo != dst_qinfo) ? vrequantize_pooling<q8x8_t, q8x16_t>(wrapper::vgetlow(vres), wrapper::vgethigh(vres),
                                 requant_qinfo) :
                                 vres);
             }
         }

         if(pool_info.pool_type == PoolingType::MAX)
         {
             for(; x_off <= (window_end_x - window_half_step_x); x_off += window_half_step_x)
             {
                 q8x8_t vres = wrapper::vdup_n(std::numeric_limits<T>::min(), wrapper::traits::vector_64_tag{});
                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const q8x8_t data = wrapper::vload(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                        (src->info()->strides_in_bytes().z())) + x_off);
                         vres              = wrapper::vmax(vres, data);
                     }
                 }

                 // Store result
                 wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off,
                                 (src_qinfo != dst_qinfo) ? vrequantize_pooling<q8x8_t>(vres, requant_qinfo) : vres);
             }
         }

         // Left-overs loop
         for(; x_off < window_end_x; ++x_off)
         {
             if(pool_info.pool_type != PoolingType::MAX)
             {
                 q32_t res = static_cast<q32_t>(0.f);

                 // Calculate scale
                 const float scale = calculate_avg_scale(pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w, upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x,
                                                         pool_stride_y);

                 // Perform pooling
                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const T data = *(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                      (src->info()->strides_in_bytes().z())) + x_off);
                         res += data;
                     }
                 }

                 if(src_qinfo != dst_qinfo)
                 {
                     const float res_f           = static_cast<float>(res);
                     const float new_scale       = quant_rescale / scale;
                     const auto  requantized_dst = quantize<T>(res_f, UniformQuantizationInfo(new_scale, new_offset));

                     // Store result
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = requantized_dst;
                 }
                 else
                 {
                     // Divide by scale and add 0.5f to round to nearest instead of rounding towards zero
                     res = static_cast<T>(0.5f + static_cast<float>(res) * scale);

                     // Store result
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = res;
                 }
             }
             else
             {
                 T res = std::numeric_limits<T>::min();

                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const T data = *(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                      (src->info()->strides_in_bytes().z())) + x_off);
                         res          = std::max(res, data);
                     }
                 }

                 // Store result
                 if(src_qinfo != dst_qinfo)
                 {
                     const float res_f                           = static_cast<float>(res);
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = quantize<T>(res_f, requant_qinfo);
                 }
                 else
                 {
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = res;
                 }
             }
         }

     },
     in, out);
 }

 #if defined(ENABLE_NCHW_KERNELS)
 template <typename T, typename TVec>
 inline void scale_vector_q16x8(bool exclude_padding, TVec &v, const Coordinates &id, int id_offset, int step,
                                const int pool_size, const int upper_bound_w, const int upper_bound_h,
                                const int pad_x, const int pad_y, const int stride_x, const int stride_y)
 {
     int       start_x = (id.x() + id_offset) * stride_x - pad_x;
     int       start_y = id.y() * stride_y - pad_y;
     const int end_y   = std::min(start_y + pool_size, upper_bound_h);
     if(exclude_padding)
     {
         start_y = std::max(0, start_y);
     }

     std::array<T, 8> elems =
     {
         {
             wrapper::vgetlane(v, 0),
             wrapper::vgetlane(v, 1),
             wrapper::vgetlane(v, 2),
             wrapper::vgetlane(v, 3),
             wrapper::vgetlane(v, 4),
             wrapper::vgetlane(v, 5),
             wrapper::vgetlane(v, 6),
             wrapper::vgetlane(v, 7),
         }
     };

     for(auto &el : elems)
     {
         int       c_start_x = start_x;
         const int end_x     = std::min(c_start_x + pool_size, upper_bound_w);
         if(exclude_padding)
         {
             c_start_x = std::max(0, c_start_x);
         }
         float scale = 1.f / ((end_y - start_y) * (end_x - c_start_x));
         el *= scale;
         start_x += step * stride_x;
     }

     v = wrapper::vsetlane(elems[0], v, 0);
     v = wrapper::vsetlane(elems[1], v, 1);
     v = wrapper::vsetlane(elems[2], v, 2);
     v = wrapper::vsetlane(elems[3], v, 3);
     v = wrapper::vsetlane(elems[4], v, 4);
     v = wrapper::vsetlane(elems[5], v, 5);
     v = wrapper::vsetlane(elems[6], v, 6);
     v = wrapper::vsetlane(elems[7], v, 7);
 }

 template <typename T>
 void pooling2_quantized_neon_nchw(const ITensor *src, ITensor *dst0, ITensor *dst1, PoolingLayerInfo &pool_info, const Window &window_src, const Window &window)
 {
     ARM_COMPUTE_UNUSED(dst1);
     Iterator in(src, window_src);
     Iterator out(dst0, window);

     /** Neon vector types */
     using q8x8_t    = typename wrapper::traits::neon_vector<T, 8>::type;
     using q8x16_t   = typename wrapper::traits::neon_vector<T, 16>::type;
     using q8x8x2_t  = typename std::conditional<std::is_same<T, uint8_t>::value, uint8x8x2_t, int8x8x2_t>::type;
     using q16_t     = typename wrapper::traits::promote_t<T>;
     using q16x4_t   = typename wrapper::traits::neon_vector<q16_t, 4>::type;
     using q16x8_t   = typename wrapper::traits::neon_vector<q16_t, 8>::type;
     using q16x8x2_t = typename wrapper::traits::neon_vector<q16_t, 16>::type;

     constexpr int pool_size       = 2;
     int           pool_stride_x   = 0;
     int           pool_stride_y   = 0;
     const int     pool_pad_right  = pool_info.pad_stride_info.pad_right();
     const int     pool_pad_top    = pool_info.pad_stride_info.pad_top();
     const int     pool_pad_left   = pool_info.pad_stride_info.pad_left();
     const int     pool_pad_bottom = pool_info.pad_stride_info.pad_bottom();
     std::tie(pool_stride_x, pool_stride_y) = pool_info.pad_stride_info.stride();
     const int upper_bound_w = src->info()->dimension(0) + (pool_info.exclude_padding ? 0 : pool_pad_right);
     const int upper_bound_h = src->info()->dimension(1) + (pool_info.exclude_padding ? 0 : pool_pad_bottom);

     const T *const src_top_ptr    = reinterpret_cast<const T *>(src->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_left), -static_cast<int>(pool_pad_top))));
     const T *const src_bottom_ptr = reinterpret_cast<const T *>(src->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_left), -static_cast<int>(pool_pad_top) + 1)));

     const int scale_step_x = (pool_stride_x == 1) ? 2 : 1;

     const UniformQuantizationInfo src_qinfo            = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo dst_qinfo            = dst0->info()->quantization_info().uniform();
     const bool                    have_different_qinfo = src_qinfo != dst_qinfo;

     const float                   requant_scale  = dst_qinfo.scale / src_qinfo.scale;
     const int32_t                 requant_offset = dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / requant_scale);
     const UniformQuantizationInfo requant_qinfo  = UniformQuantizationInfo(requant_scale, requant_offset);

     execute_window_loop(window, [&](const Coordinates & id)
     {
         const auto top_data    = wrapper::vloadq(src_top_ptr + in.offset());
         const auto bottom_data = wrapper::vloadq(src_bottom_ptr + in.offset());
         q8x8_t     lower_res   = {};
         q8x8_t     upper_res   = {};

         if(pool_info.pool_type != PoolingType::MAX)
         {
             const q16x8x2_t top_data_q16    = { { wrapper::vmovl(wrapper::vgetlow(top_data)), wrapper::vmovl(wrapper::vgethigh(top_data)) } };
             const q16x8x2_t bottom_data_q16 = { { wrapper::vmovl(wrapper::vgetlow(bottom_data)), wrapper::vmovl(wrapper::vgethigh(bottom_data)) } };

             // Add rows
             const q16x8x2_t vrsum =
             {
                 {
                     wrapper::vadd(top_data_q16.val[0], bottom_data_q16.val[0]),
                     wrapper::vadd(top_data_q16.val[1], bottom_data_q16.val[1]),
                 }
             };

             // Pair-wise add row data
             const q16x4_t vpsum_1 = wrapper::vpadd(wrapper::vgetlow(vrsum.val[0]), wrapper::vgethigh(vrsum.val[0]));
             const q16x4_t vpsum_2 = wrapper::vpadd(wrapper::vgetlow(vrsum.val[1]), wrapper::vgethigh(vrsum.val[1]));

             q16x8_t res_lower = wrapper::vcombine(vpsum_1, vpsum_2);

             // Scale lower result
             scale_vector_q16x8<q16_t, q16x8_t>(pool_info.exclude_padding, res_lower, id, 0, scale_step_x,
                                                pool_size, upper_bound_w, upper_bound_h,
                                                pool_pad_left, pool_pad_top, pool_stride_x, pool_stride_y);
             lower_res = wrapper::vmovn(res_lower);

             // Compute upper result for stride_x == 1
             if(pool_stride_x == 1)
             {
                 // Shifted row sum
                 const q16x8x2_t vrsum_shifted =
                 {
                     {
                         wrapper::vext_1(vrsum.val[0], vrsum.val[1]),
                         wrapper::vext_1(vrsum.val[1], vrsum.val[1])
                     }
                 };

                 // Pair-wise add shifted row
                 q16x8_t res_upper = wrapper::vcombine(
                                         wrapper::vpadd(wrapper::vgetlow(vrsum_shifted.val[0]), wrapper::vgethigh(vrsum_shifted.val[0])),
                                         wrapper::vpadd(wrapper::vgetlow(vrsum_shifted.val[1]), wrapper::vgethigh(vrsum_shifted.val[1])));

                 // Scale upper result
                 scale_vector_q16x8<q16_t, q16x8_t>(pool_info.exclude_padding, res_upper, id, 1, 2,
                                                    pool_size, upper_bound_w, upper_bound_h,
                                                    pool_pad_left, pool_pad_top, pool_stride_x, pool_stride_y);
                 upper_res = wrapper::vmovn(res_upper);
             }
         }
         else
         {
             const q8x16_t max_data = wrapper::vmax(top_data, bottom_data);
             lower_res              = wrapper::vpmax(wrapper::vgetlow(max_data), wrapper::vgethigh(max_data));
             if(pool_stride_x == 1)
             {
                 const q8x16_t max_data_shifted = wrapper::vext_1(max_data, max_data);
                 upper_res                      = wrapper::vpmax(wrapper::vgetlow(max_data_shifted), wrapper::vgethigh(max_data_shifted));
             }
         }

         if(have_different_qinfo)
         {
             const auto requantized_dst = vrequantize_pooling<q8x8_t, q8x16_t>(lower_res, upper_res, requant_qinfo);
             lower_res                  = wrapper::vgetlow(requantized_dst);
             upper_res                  = wrapper::vgethigh(requantized_dst);
         }

         // Store result
         if(pool_stride_x == 1)
         {
             const q8x8x2_t res = { { lower_res, upper_res } };
             wrapper::vstore(reinterpret_cast<T *>(out.ptr()), res);
         }
         else
         {
             wrapper::vstore(reinterpret_cast<T *>(out.ptr()), lower_res);
         }
     },
     in, out);
 }

 template <typename T>
 void pooling3_quantized_neon_nchw(const ITensor *src, ITensor *dst0, ITensor *dst1, PoolingLayerInfo &pool_info, const Window &window_src, const Window &window)
 {
     ARM_COMPUTE_UNUSED(dst1);
     Iterator in(src, window_src);
     Iterator out(dst0, window);

     /** Neon vector types */
     using q8x8_t    = typename wrapper::traits::neon_vector<T, 8>::type;
     using q8x16_t   = typename wrapper::traits::neon_vector<T, 16>::type;
     using q8x8x2_t  = typename std::conditional<std::is_same<T, uint8_t>::value, uint8x8x2_t, int8x8x2_t>::type;
     using q16_t     = typename wrapper::traits::promote_t<T>;
     using q16x8_t   = typename wrapper::traits::neon_vector<q16_t, 8>::type;
     using q16x8x2_t = typename wrapper::traits::neon_vector<q16_t, 16>::type;

     constexpr int pool_size       = 3;
     const int     pool_pad_right  = pool_info.pad_stride_info.pad_right();
     const int     pool_pad_top    = pool_info.pad_stride_info.pad_top();
     const int     pool_pad_left   = pool_info.pad_stride_info.pad_left();
     const int     pool_pad_bottom = pool_info.pad_stride_info.pad_bottom();
     int           pool_stride_x   = 0;
     int           pool_stride_y   = 0;
     std::tie(pool_stride_x, pool_stride_y) = pool_info.pad_stride_info.stride();
     const int upper_bound_w = src->info()->dimension(0) + (pool_info.exclude_padding ? 0 : pool_pad_right);
     const int upper_bound_h = src->info()->dimension(1) + (pool_info.exclude_padding ? 0 : pool_pad_bottom);

     const UniformQuantizationInfo &src_qinfo = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo &dst_qinfo = dst0->info()->quantization_info().uniform();

     const float                   requant_scale  = dst_qinfo.scale / src_qinfo.scale;
     const int32_t                 requant_offset = dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / requant_scale);
     const UniformQuantizationInfo requant_qinfo  = UniformQuantizationInfo(requant_scale, requant_offset);

     const T *const src_top_ptr    = reinterpret_cast<const T *>(src->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_left), -static_cast<int>(pool_pad_top))));
     const T *const src_middle_ptr = reinterpret_cast<const T *>(src->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_left), -static_cast<int>(pool_pad_top) + 1)));
     const T *const src_bottom_ptr = reinterpret_cast<const T *>(src->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_left), -static_cast<int>(pool_pad_top) + 2)));

     execute_window_loop(window, [&](const Coordinates & id)
     {
         const auto top_data    = wrapper::vloadq(src_top_ptr + in.offset());
         const auto middle_data = wrapper::vloadq(src_middle_ptr + in.offset());
         const auto bottom_data = wrapper::vloadq(src_bottom_ptr + in.offset());
         q8x8_t     fres        = {};
         q8x16_t    fqres       = {};

         if(pool_info.pool_type == PoolingType::AVG)
         {
             // Convert data to u16
             const q16x8x2_t top_data_q16    = { { wrapper::vmovl(wrapper::vgetlow(top_data)), wrapper::vmovl(wrapper::vgethigh(top_data)) } };
             const q16x8x2_t middle_data_q16 = { { wrapper::vmovl(wrapper::vgetlow(middle_data)), wrapper::vmovl(wrapper::vgethigh(middle_data)) } };
             const q16x8x2_t bottom_data_q16 = { { wrapper::vmovl(wrapper::vgetlow(bottom_data)), wrapper::vmovl(wrapper::vgethigh(bottom_data)) } };

             // Calculate row sums
             const q16x8x2_t vrsum =
             {
                 {
                     wrapper::vadd(wrapper::vadd(top_data_q16.val[0], bottom_data_q16.val[0]), middle_data_q16.val[0]),
                     wrapper::vadd(wrapper::vadd(top_data_q16.val[1], bottom_data_q16.val[1]), middle_data_q16.val[1]),
                 }
             };
             const q16x8x2_t vrsum_shifted_1 =
             {
                 {
                     wrapper::vext_1(vrsum.val[0], vrsum.val[1]),
                     wrapper::vext_1(vrsum.val[1], vrsum.val[1])
                 }
             };
             const q16x8x2_t vrsum_shifted_2 =
             {
                 {
                     wrapper::vext_2(vrsum.val[0], vrsum.val[1]),
                     wrapper::vext_2(vrsum.val[1], vrsum.val[1])
                 }
             };
             // Calculate final sum
             q16x8x2_t final_sum =
             {
                 {
                     wrapper::vadd(wrapper::vadd(vrsum.val[0], vrsum_shifted_1.val[0]), vrsum_shifted_2.val[0]),
                     wrapper::vadd(wrapper::vadd(vrsum.val[1], vrsum_shifted_1.val[1]), vrsum_shifted_2.val[1]),
                 }
             };
             if(pool_stride_x == 2)
             {
                 q16x8_t res =
                 {
                     wrapper::vgetlane(final_sum.val[0], 0),
                     wrapper::vgetlane(final_sum.val[0], 2),
                     wrapper::vgetlane(final_sum.val[0], 4),
                     wrapper::vgetlane(final_sum.val[0], 6),
                     wrapper::vgetlane(final_sum.val[1], 0),
                     wrapper::vgetlane(final_sum.val[1], 2),
                     wrapper::vgetlane(final_sum.val[1], 4),
                     wrapper::vgetlane(final_sum.val[1], 6),
                 };

                 scale_vector_q16x8<q16_t, q16x8_t>(pool_info.exclude_padding, res, id, 0, 1,
                                                    pool_size, upper_bound_w, upper_bound_h,
                                                    pool_pad_left, pool_pad_top, pool_stride_x, pool_stride_y);
                 fres = wrapper::vmovn(res);
             }
             else
             {
                 // Scale lower result
                 scale_vector_q16x8<q16_t, q16x8_t>(pool_info.exclude_padding, final_sum.val[0], id, 0, 1,
                                                    pool_size, upper_bound_w, upper_bound_h,
                                                    pool_pad_left, pool_pad_top, pool_stride_x, pool_stride_y);
                 // Scale lower result
                 scale_vector_q16x8<q16_t, q16x8_t>(pool_info.exclude_padding, final_sum.val[1], id, 8, 1,
                                                    pool_size, upper_bound_w, upper_bound_h,
                                                    pool_pad_left, pool_pad_top, pool_stride_x, pool_stride_y);
                 fqres = wrapper::vcombine(wrapper::vmovn(final_sum.val[0]), wrapper::vmovn(final_sum.val[1]));
             }
         }
         else
         {
             const q8x16_t max_data        = wrapper::vmax(wrapper::vmax(top_data, bottom_data), middle_data);
             const q8x16_t max_data_shift1 = wrapper::vext_1(max_data, max_data);
             const q8x16_t max_data_shift2 = wrapper::vext_2(max_data, max_data);
             const q8x16_t final_max       = wrapper::vmax(wrapper::vmax(max_data, max_data_shift1), max_data_shift2);

             if(pool_stride_x == 2)
             {
                 const q8x8x2_t      table      = { { wrapper::vgetlow(final_max), wrapper::vgethigh(final_max) } };
                 static const q8x8_t lookup_val = { 0, 2, 4, 6, 8, 10, 12, 14 };
                 fres                           = wrapper::vtbl(table, lookup_val);
             }
             else
             {
                 fqres = final_max;
             }
         }

         // Store result
         if(pool_stride_x == 1)
         {
             if(src_qinfo != dst_qinfo)
             {
                 fqres = vrequantize_pooling<q8x8_t, q8x16_t>(wrapper::vgetlow(fqres), wrapper::vgethigh(fqres), requant_qinfo);
             }
             wrapper::vstore(reinterpret_cast<T *>(out.ptr()), fqres);
         }
         else
         {
             if(src_qinfo != dst_qinfo)
             {
                 fres = vrequantize_pooling<q8x8_t>(fres, requant_qinfo);
             }
             wrapper::vstore(reinterpret_cast<T *>(out.ptr()), fres);
         }
     },
     in, out);
 }

 template <typename T>
 void poolingMxN_quantized_neon_nchw(const ITensor *src, ITensor *dst0, ITensor *dst1, PoolingLayerInfo &pool_info, const Window &window_src, const Window &window)
 {
     ARM_COMPUTE_UNUSED(dst1);
     Iterator in(src, window_src);
     Iterator out(dst0, window);

     /** Neon vector types */
     using q8x8_t  = typename wrapper::traits::neon_vector<T, 8>::type;
     using q16_t   = typename wrapper::traits::promote_t<T>;
     using q16x8_t = typename wrapper::traits::neon_vector<q16_t, 8>::type;
     using q32_t   = typename wrapper::traits::promote_t<q16_t>;
     using q32x4_t = typename wrapper::traits::neon_vector<q32_t, 4>::type;

     const int pool_size_x     = pool_info.is_global_pooling ? src->info()->tensor_shape().x() : pool_info.pool_size.width;
     const int pool_size_y     = pool_info.is_global_pooling ? src->info()->tensor_shape().y() : pool_info.pool_size.height;
     const int pool_pad_right  = pool_info.pad_stride_info.pad_right();
     const int pool_pad_top    = pool_info.pad_stride_info.pad_top();
     const int pool_pad_left   = pool_info.pad_stride_info.pad_left();
     const int pool_pad_bottom = pool_info.pad_stride_info.pad_bottom();
     int       pool_stride_x   = 0;
     int       pool_stride_y   = 0;
     std::tie(pool_stride_x, pool_stride_y) = pool_info.pad_stride_info.stride();
     const int upper_bound_w = src->info()->dimension(0) + (pool_info.exclude_padding ? 0 : pool_pad_right);
     const int upper_bound_h = src->info()->dimension(1) + (pool_info.exclude_padding ? 0 : pool_pad_bottom);

     const UniformQuantizationInfo &src_qinfo = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo &dst_qinfo = dst0->info()->quantization_info().uniform();

     execute_window_loop(window, [&](const Coordinates & id)
     {
         T res = std::numeric_limits<T>::min();

         if(pool_info.pool_type != PoolingType::MAX)
         {
             q32x4_t vres = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
             q32_t   sres = 0;

             // Calculate scale
             const float scale = calculate_avg_scale(pool_info.exclude_padding, DataLayout::NCHW, id, pool_size_x, pool_size_y, upper_bound_w, upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x,
                                                     pool_stride_y);

             // Perform pooling
             for(int y = 0; y < pool_size_y; ++y)
             {
                 int x = 0;
                 for(; x <= (pool_size_x - 8); x += 8)
                 {
                     const q8x8_t data = wrapper::vload(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().x()) + (y - pool_pad_top) * static_cast<int>
                                                                                    (src->info()->strides_in_bytes().y())));

                     const q16x8_t data_q16 = wrapper::vmovl(data);
                     vres                   = wrapper::vadd(vres, wrapper::vaddl(wrapper::vgethigh(data_q16), wrapper::vgetlow(data_q16)));
                 }

                 // Leftover for loop
                 for(; x < pool_size_x; ++x)
                 {
                     T data = *(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().x()) + (y - pool_pad_top) * static_cast<int>
                                                            (src->info()->strides_in_bytes().y())));
                     sres += data;
                 }
             }

             // Reduction
             const auto tmp = wrapper::vpadd(wrapper::vgethigh(vres), wrapper::vgetlow(vres));
             sres += wrapper::vgetlane(tmp, 0) + wrapper::vgetlane(tmp, 1);

             // Divide by scale
             res = static_cast<T>(support::cpp11::round(sres * scale));
         }
         else
         {
             q8x8_t vres = wrapper::vdup_n(std::numeric_limits<T>::min(), wrapper::traits::vector_64_tag{});

             for(int y = 0; y < pool_size_y; ++y)
             {
                 int x = 0;
                 for(; x <= (pool_size_x - 8); x += 8)
                 {
                     const q8x8_t data = wrapper::vload(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().x()) + (y - pool_pad_top) * static_cast<int>
                                                                                    (src->info()->strides_in_bytes().y())));
                     vres              = wrapper::vmax(vres, data);
                 }
                 // Leftover for loop
                 for(; x < pool_size_x; ++x)
                 {
                     const T data = *(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().x()) + (y - pool_pad_top) * static_cast<int>
                                                                  (src->info()->strides_in_bytes().y())));
                     res          = std::max(res, data);
                 }
             }

             // Reduce max
             vres = wrapper::vpmax(vres, vres);
             vres = wrapper::vpmax(vres, vres);
             vres = wrapper::vpmax(vres, vres);

             // Get max value
             res = std::max(res, wrapper::vgetlane(vres, 0));
         }
         // Store result
         res                                 = (src_qinfo != dst_qinfo) ? Qasymm8QuantizationHelper<T>::quantize(Qasymm8QuantizationHelper<T>::dequantize(res, src_qinfo), dst_qinfo) : res;
         *(reinterpret_cast<T *>(out.ptr())) = res;
     },
     in, out);
 }
 #endif /* defined(ENABLE_NCHW_KERNELS) */
 } // namespace cpu
 } // namespace arm_compute

 #endif // SRC_CORE_NEON_KERNELS_QUANTIZED_H
arm_compute::test::validation::idx_width
const int idx_width
Definition: Scale.cpp:265

arm_compute::ITensor::ptr_to_element
uint8_t * ptr_to_element(const Coordinates &id) const
Return a pointer to the element at the passed coordinates.
Definition: ITensor.h:63

arm_compute::wrapper::traits::vector_64_tag
64-bit vector tag
Definition: traits.h:43

arm_compute::wrapper::vmovn
uint32x2_t vmovn(const uint64x2_t &a)
Definition: movn.h:39

arm_compute::ITensorInfo::dimension
virtual size_t dimension(size_t index) const =0
Return the size of the requested dimension.

arm_compute::quantize_qasymm8
uint8_t quantize_qasymm8(float value, const INFO_TYPE &qinfo, RoundingPolicy rounding_policy=RoundingPolicy::TO_NEAREST_UP)
Quantize a value given an unsigned 8-bit asymmetric quantization scheme.
Definition: QuantizationInfo.h:283

arm_compute::wrapper::traits::vector_128_tag
128-bit vector tag
Definition: traits.h:45

arm_compute::test::validation::scale
NEScale scale
Definition: Scale.cpp:275

arm_compute::wrapper::vloadq
uint8x16_t vloadq(const uint8_t *ptr)
Definition: load.h:58

arm_compute::wrapper::vadd
uint8x8_t vadd(const uint8x8_t &a, const uint8x8_t &b)
Definition: add.h:39

arm_compute::DataLayoutDimension::HEIGHT
height

arm_compute::test::validation::data_layout
const DataLayout data_layout
Definition: Im2Col.cpp:151

arm_compute::wrapper::vext_2
uint8x8_t vext_2(uint8x8_t value_a, uint8x8_t value_b)
Definition: ext.h:40

arm_compute::UniformQuantizationInfo
Quantization info when assuming per layer quantization.
Definition: QuantizationInfo.h:43

arm_compute::Window::Dimension
Describe one of the image&#39;s dimensions with a start, end and step.
Definition: Window.h:77

arm_compute::UniformQuantizationInfo::scale
float scale
Definition: QuantizationInfo.h:65

arm_compute::PadStrideInfo::pad_top
unsigned int pad_top() const
Get the top padding.
Definition: Types.h:806

arm_compute::Window::z
constexpr const Dimension & z() const
Alias to access the third dimension of the window.
Definition: Window.h:163

NEAsymm.h

arm_compute::Qasymm8QuantizationHelper
Definition: QuantizationInfo.h:211

type
decltype(strategy::transforms) typedef type
Definition: gemm_interleaved.hpp:227

arm_compute::ITensor
Interface for Neon tensor.
Definition: ITensor.h:36

arm_compute::test::validation::src
SimpleTensor< float > src
Definition: DFT.cpp:155

pool_stride_x
int pool_stride_x
Definition: CpuPoolingKernel.cpp:59

arm_compute
Copyright (c) 2017-2021 Arm Limited.
Definition: 00_introduction.dox:24

arm_compute::Size2D::height
size_t height
Height of the image region or rectangle.
Definition: Size2D.h:90

arm_compute::cpu::vcvtq_f32_q32
float32x4_t vcvtq_f32_q32(T values)

arm_compute::wrapper::traits::promote_t
typename promote< T >::type promote_t
Get promoted type.
Definition: traits.h:147

arm_compute::Dimensions::x
T x() const
Alias to access the size of the first dimension.
Definition: Dimensions.h:87

arm_compute::wrapper::vpadd
uint8x8_t vpadd(const uint8x8_t &a, const uint8x8_t &b)
Definition: add.h:187

arm_compute::cpu::vrequantize_pooling_with_scale
Tout vrequantize_pooling_with_scale(const float32x4x4_t &acc, const float quant_rescale, const float scale_pooling, const int32_t new_offset)
Definition: quantized.h:87

arm_compute::wrapper::vgetlane
uint8_t vgetlane(const uint8x8_t vector, const unsigned int lane)
Definition: getlane.h:91

arm_compute::Window::DimX
static constexpr size_t DimX
Alias for dimension 0 also known as X dimension.
Definition: Window.h:43

ARM_COMPUTE_UNUSED
#define ARM_COMPUTE_UNUSED(...)
To avoid unused variables warnings.
Definition: Error.h:152

arm_compute::wrapper::vext_1
uint8x8_t vext_1(uint8x8_t value_a, uint8x8_t value_b)
Definition: ext.h:39

arm_compute::wrapper::traits::neon_vector
Create the appropriate Neon vector given its type and size in terms of elements.
Definition: traits.h:48

arm_compute::cpu::vcvtq_q32_f32
T vcvtq_q32_f32(float32x4_t values)
Definition: quantized.h:57

arm_compute::ITensorInfo::tensor_shape
virtual const TensorShape & tensor_shape() const =0
Size for each dimension of the tensor.

arm_compute::test::validation::idx_height
const int idx_height
Definition: Scale.cpp:266

arm_compute::cpu::quantize
std::enable_if< std::is_same< T, int8_t >::value, int8_t >::type quantize(float val, const UniformQuantizationInfo &info)
Definition: quantized.h:41

arm_compute::quantize_qasymm8_signed
int8_t quantize_qasymm8_signed(float value, const INFO_TYPE &qinfo, RoundingPolicy rounding_policy=RoundingPolicy::TO_NEAREST_UP)
Quantize a value given a signed 8-bit asymmetric quantization scheme.
Definition: QuantizationInfo.h:297

arm_compute::Dimensions::z
T z() const
Alias to access the size of the third dimension.
Definition: Dimensions.h:97

arm_compute::Coordinates
Coordinates of an item.
Definition: Coordinates.h:37

arm_compute::PadStrideInfo::stride
std::pair< unsigned int, unsigned int > stride() const
Get the stride.
Definition: Types.h:770

arm_compute::cpu::vrequantize_pooling
Tout vrequantize_pooling(Tin vec1, Tin vec2, const UniformQuantizationInfo &requant_qinfo)

arm_compute::PoolingLayerInfo
Pooling Layer Information struct.
Definition: Types.h:1214

arm_compute::QuantizationInfo::uniform
UniformQuantizationInfo uniform() const
Return per layer quantization info.
Definition: QuantizationInfo.h:149

arm_compute::ITensor::info
virtual ITensorInfo * info() const =0
Interface to be implemented by the child class to return the tensor&#39;s metadata.

arm_compute::PadStrideInfo::pad_right
unsigned int pad_right() const
Get the right padding.
Definition: Types.h:801

arm_compute::Iterator::ptr
constexpr uint8_t * ptr() const
Return a pointer to the current pixel.
Definition: Helpers.inl:139

arm_compute::wrapper::vgetlow
uint8x8_t vgetlow(const uint8x16_t val)
Definition: getlow.h:39

arm_compute::cpu::poolingMxN_q8_neon_nhwc
void poolingMxN_q8_neon_nhwc(const ITensor *src, ITensor *dst0, ITensor *dst1, PoolingLayerInfo &pool_info, const Window &window_src, const Window &window)
Definition: quantized.h:182

arm_compute::wrapper::vtbl
uint8x8_t vtbl(const uint8x8x2_t &a, const uint8x8_t &b)
Definition: tbl.h:39

arm_compute::Window::set
void set(size_t dimension, const Dimension &dim)
Set the values of a given dimension.
Definition: Window.inl:49

arm_compute::wrapper::vcombine
uint8x16_t vcombine(const uint8x8_t &a, const uint8x8_t &b)
Definition: combine.h:39

arm_compute::wrapper::vsetlane
uint8x8_t vsetlane(const uint8_t value, const uint8x8_t vector, const unsigned int lane)
Definition: setlane.h:91

arm_compute::wrapper::vaddl
uint16x8_t vaddl(const uint8x8_t &a, const uint8x8_t &b)
Definition: add.h:122

arm_compute::cpu::calculate_avg_scale
float calculate_avg_scale(bool exclude_padding, DataLayout data_layout, const Coordinates &id, const int pool_size_x, const int pool_size_y, const int upper_bound_w, const int upper_bound_h, const int pad_x, const int pad_y, const int stride_x, const int stride_y)
Definition: quantized.h:162

arm_compute::ITensorInfo::quantization_info
virtual QuantizationInfo quantization_info() const =0
Get the quantization settings (scale and offset) of the tensor.

arm_compute::DataLayout::NCHW
Num samples, channels, height, width.

arm_compute::wrapper::vgethigh
uint8x8_t vgethigh(const uint8x16_t val)
Definition: gethigh.h:39

arm_compute::test::validation::info
ScaleKernelInfo info(interpolation_policy, default_border_mode, PixelValue(), sampling_policy, false)

arm_compute::PoolingLayerInfo::pad_stride_info
PadStrideInfo pad_stride_info
Definition: Types.h:1302

arm_compute::Size2D::width
size_t width
Width of the image region or rectangle.
Definition: Size2D.h:89

arm_compute::PoolingType::AVG
Average Pooling.

arm_compute::cpu::step
constexpr int step
Definition: fp32.cpp:35

arm_compute::support::cpp11::round
T round(T value)
Round floating-point value with half value rounding away from zero.
Definition: ToolchainSupport.h:169

arm_compute::DataLayout::NHWC
Num samples, height, width, channels.

arm_compute::Window::y
constexpr const Dimension & y() const
Alias to access the second dimension of the window.
Definition: Window.h:154

arm_compute::UniformQuantizationInfo::offset
int32_t offset
Definition: QuantizationInfo.h:66

arm_compute::PoolingLayerInfo::pool_type
PoolingType pool_type
Definition: Types.h:1299

NEMath.h

pool_size
Size2D pool_size
Definition: CpuPoolingKernel.cpp:60

arm_compute::vquantize
uint8x8_t vquantize(const float32x4x2_t &qv, const UniformQuantizationInfo &qi)
Quantize a neon vector holding 8 floating point values.
Definition: NEAsymm.h:602

arm_compute::wrapper::vload
uint8x8_t vload(const uint8_t *ptr)
Definition: load.h:39

arm_compute::wrapper::vstore
void vstore(uint8_t *ptr, uint8x8_t val)
Definition: store.h:39

arm_compute::DataLayoutDimension::WIDTH
width

arm_compute::wrapper::vdup_n
uint8x8_t vdup_n(uint8_t value, traits::vector_64_tag)
Definition: dup_n.h:41

arm_compute::execute_window_loop
void execute_window_loop(const Window &w, L &&lambda_function, Ts &&... iterators)
Iterate through the passed window, automatically adjusting the iterators and calling the lambda_funct...
Definition: Helpers.inl:77

arm_compute::PoolingLayerInfo::pool_size
Size2D pool_size
Definition: Types.h:1300

arm_compute::Dimensions::y
T y() const
Alias to access the size of the second dimension.
Definition: Dimensions.h:92

wrapper.h
Includes all wrapper headers at once.

arm_compute::vquantize_signed
int8x8_t vquantize_signed(const float32x4x2_t &qv, const UniformQuantizationInfo &qi)
Quantize a neon vector holding 8 floating point values.
Definition: NEAsymm.h:630

arm_compute::ITensorInfo::strides_in_bytes
virtual const Strides & strides_in_bytes() const =0
The strides in bytes for accessing each dimension of the tensor.

arm_compute::wrapper::vpmax
uint8x8_t vpmax(const uint8x8_t &a, const uint8x8_t &b)
Definition: pmax.h:39

arm_compute::wrapper::vmla
uint8x8_t vmla(const uint8x8_t &a, const uint8x8_t &b, const uint8x8_t &c)
Definition: mla.h:46

arm_compute::PoolingLayerInfo::is_global_pooling
bool is_global_pooling
Definition: Types.h:1304

arm_compute::Iterator::offset
constexpr size_t offset() const
Return the offset in bytes from the first element to the current position of the iterator.
Definition: Helpers.inl:134

arm_compute::get_data_layout_dimension_index
size_t get_data_layout_dimension_index(const DataLayout data_layout, const DataLayoutDimension data_layout_dimension)
Get the index of the given dimension.
Definition: Helpers.inl:193

arm_compute::NonLinearFilterFunction::MAX
Non linear dilate.

arm_compute::Window::Dimension::end
constexpr int end() const
Return the end of the dimension.
Definition: Window.h:99

arm_compute::PadStrideInfo::pad_bottom
unsigned int pad_bottom() const
Get the bottom padding.
Definition: Types.h:811

arm_compute::Iterator
Iterator updated by execute_window_loop for each window element.
Definition: Helpers.h:46

Types.h

arm_compute::wrapper::vmovl
uint16x8_t vmovl(const uint8x8_t &a)
Definition: movl.h:39

arm_compute::PadStrideInfo::pad_left
unsigned int pad_left() const
Get the left padding.
Definition: Types.h:796

NEFixedPoint.h

arm_compute::wrapper::vmax
uint8x8_t vmax(const uint8x8_t &a, const uint8x8_t &b)
Definition: max.h:39

arm_compute::DataLayout
DataLayout
[DataLayout enum definition]
Definition: Types.h:120

arm_compute::Window::Dimension::start
constexpr int start() const
Return the start of the dimension.
Definition: Window.h:94

arm_compute::Window
Describe a multidimensional execution window.
Definition: Window.h:39

arm_compute::PoolingLayerInfo::exclude_padding
bool exclude_padding
Definition: Types.h:1303

arm_compute::Window::x
constexpr const Dimension & x() const
Alias to access the first dimension of the window.
Definition: Window.h:145

Traits.h