ComputeLibrary/v21.02/_n_e_depthwise_convolution_assembly_dispatch_8cpp_source.xhtml

 /*
  * Copyright (c) 2019-2020 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
  * Permission is hereby granted, free of charge, to any person obtaining a copy
  * of this software and associated documentation files (the "Software"), to
  * deal in the Software without restriction, including without limitation the
  * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or
  * sell copies of the Software, and to permit persons to whom the Software is
  * furnished to do so, subject to the following conditions:
  *
  * The above copyright notice and this permission notice shall be included in all
  * copies or substantial portions of the Software.
  *
  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
  * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
  * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
  * SOFTWARE.
  */

 #include "arm_compute/runtime/NEON/functions/assembly/NEDepthwiseConvolutionAssemblyDispatch.h"

 #include "arm_compute/core/ITensor.h"
 #include "arm_compute/core/Utils.h"
 #include "arm_compute/core/utils/misc/InfoHelpers.h"
 #include "arm_compute/core/utils/misc/ShapeCalculator.h"
 #include "arm_compute/core/utils/quantization/AsymmHelpers.h"
 #include "src/core/CPP/Validate.h"
 #include "src/core/NEON/kernels/assembly/NEDepthwiseConvolutionAssemblyKernelWrapper.h"
 #include "src/core/NEON/kernels/convolution/depthwise/depthwise_dilated.hpp"
 #include "src/core/NEON/kernels/convolution/depthwise/depthwise_quantized_dilated.hpp"
 #include "src/core/helpers/AutoConfiguration.h"

 #include "arm_compute/runtime/NEON/NEScheduler.h"

 #include <set>

 namespace arm_compute
 {
 namespace
 {
 std::unique_ptr<depthwise::IDepthwiseConvolution> get_qasymm8_convolver(int kernel_size, int stride_x,
                                                                         int n_batches, int in_rows, int in_cols, int n_channels,
                                                                         int dilation_factor, neon_convolution_kernels::ActivationFunction activation,
                                                                         const qasymm8::QAsymm8Params &wqinfo, const qasymm8::QAsymm8Params &iqinfo, const qasymm8::QAsymm8Params &oqinfo,
                                                                         const qasymm8::QAsymm8RescaleParams &rescale_params,
                                                                         int padding_top, int padding_left, int padding_bottom, int padding_right)
 {
     switch(kernel_size)
     {
         case 3:
         {
             switch(stride_x)
             {
                 case 1:
                     return std::make_unique<depthwise::QAsymm8DilatedDepthwiseConvolution<2, 2, 3, 3, 1, 1>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
                 case 2:
                     return std::make_unique<depthwise::QAsymm8DilatedDepthwiseConvolution<2, 2, 3, 3, 2, 2>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
                 default:
                     return nullptr;
             }
         }
         case 5:
         {
             switch(stride_x)
             {
                 case 1:
                     return std::make_unique<depthwise::QAsymm8DilatedDepthwiseConvolution<2, 2, 5, 5, 1, 1>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
                 case 2:
                     return std::make_unique<depthwise::QAsymm8DilatedDepthwiseConvolution<2, 2, 5, 5, 2, 2>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
                 default:
                     return nullptr;
             }
         }
         default:
             return nullptr;
     }
 }

 std::unique_ptr<depthwise::IDepthwiseConvolution> get_qsymm8_perchannel_convolver(int kernel_size, int stride_x,
                                                                                   int n_batches, int in_rows, int in_cols, int n_channels,
                                                                                   neon_convolution_kernels::ActivationFunction activation,
                                                                                   const qsymm8::QSymm8PerChannelParams &wqinfo, const qasymm8::QAsymm8Params &iqinfo, const qasymm8::QAsymm8Params &oqinfo,
                                                                                   const qsymm8::QSymm8PerChannelRescaleParams &rescale_params,
                                                                                   int padding_top, int padding_left, int padding_bottom, int padding_right)
 {
     switch(kernel_size)
     {
         case 3:
         {
             switch(stride_x)
             {
                 case 1:
                     return std::make_unique<depthwise::QSymm8HybridPerChannelDepthwiseConvolution<2, 2, 3, 3, 1, 1>>(
                                n_batches, in_rows, in_cols, n_channels, activation, wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
                 case 2:
                     return std::make_unique<depthwise::QSymm8HybridPerChannelDepthwiseConvolution<2, 2, 3, 3, 2, 2>>(
                                n_batches, in_rows, in_cols, n_channels, activation, wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
                 default:
                     return nullptr;
             }
         }
         case 5:
         {
             switch(stride_x)
             {
                 case 1:
                     return std::make_unique<depthwise::QSymm8HybridPerChannelDepthwiseConvolution<2, 2, 5, 5, 1, 1>>(
                                n_batches, in_rows, in_cols, n_channels, activation, wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
                 case 2:
                     return std::make_unique<depthwise::QSymm8HybridPerChannelDepthwiseConvolution<2, 2, 5, 5, 2, 2>>(
                                n_batches, in_rows, in_cols, n_channels, activation, wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
                 default:
                     return nullptr;
             }
         }
         default:
             return nullptr;
     }
 }

 #ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC
 std::unique_ptr<depthwise::IDepthwiseConvolution> get_fp16_convolver(int kernel_size, int stride_x,
                                                                      int n_batches, int in_rows, int in_cols, int n_channels,
                                                                      int dilation_factor, neon_convolution_kernels::ActivationFunction activation,
                                                                      int padding_top, int padding_left, int padding_bottom, int padding_right)
 {
     switch(kernel_size)
     {
         case 3:
         {
             switch(stride_x)
             {
                 case 1:
                     return std::make_unique<depthwise::DilatedDepthwiseConvolution<3, 3, 3, 3, 1, 1, float16_t, float16_t, float16_t>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
                 case 2:
                     return std::make_unique<depthwise::DilatedDepthwiseConvolution<3, 3, 3, 3, 2, 2, float16_t, float16_t, float16_t>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
                 default:
                     return nullptr;
             }
         }
         case 5:
         {
             switch(stride_x)
             {
                 case 1:
                     return std::make_unique<depthwise::DilatedDepthwiseConvolution<3, 3, 5, 5, 1, 1, float16_t, float16_t, float16_t>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
                 case 2:
                     return std::make_unique<depthwise::DilatedDepthwiseConvolution<3, 3, 5, 5, 2, 2, float16_t, float16_t, float16_t>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
                 default:
                     return nullptr;
             }
         }
         default:
             return nullptr;
     }
 }
 #endif // __ARM_FEATURE_FP16_VECTOR_ARITHMETIC

 std::unique_ptr<depthwise::IDepthwiseConvolution> get_fp32_convolver(int kernel_size, int stride_x,
                                                                      int n_batches, int in_rows, int in_cols, int n_channels,
                                                                      int dilation_factor, neon_convolution_kernels::ActivationFunction activation,
                                                                      int padding_top, int padding_left, int padding_bottom, int padding_right)
 {
     switch(kernel_size)
     {
         case 3:
         {
             switch(stride_x)
             {
                 case 1:
                     return std::make_unique<depthwise::DilatedDepthwiseConvolution<4, 4, 3, 3, 1, 1, float, float, float>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
                 case 2:
                     return std::make_unique<depthwise::DilatedDepthwiseConvolution<3, 3, 3, 3, 2, 2, float, float, float>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
                 default:
                     return nullptr;
             }
         }
         case 5:
         {
             switch(stride_x)
             {
                 case 1:
                     return std::make_unique<depthwise::DilatedDepthwiseConvolution<4, 4, 5, 5, 1, 1, float, float, float>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
                 case 2:
                     return std::make_unique<depthwise::DilatedDepthwiseConvolution<3, 3, 5, 5, 2, 2, float, float, float>>(
                                n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
                 default:
                     return nullptr;
             }
         }
         default:
             return nullptr;
     }
 }

 std::unique_ptr<depthwise::IDepthwiseConvolution> create_convolver(const ITensor      *input,
                                                                    const ITensor      *weights,
                                                                    ITensor            *output,
                                                                    PadStrideInfo       conv_info,
                                                                    ActivationLayerInfo act_info,
                                                                    const Size2D       &dilation)
 {
     ARM_COMPUTE_UNUSED(dilation);
     const DataType    data_type = input->info()->data_type();
     const TensorShape shape     = input->info()->tensor_shape();

     const int n_batches       = shape[3];
     const int in_rows         = shape.z();
     const int in_cols         = shape.y();
     const int n_channels      = shape.x();
     const int dilation_factor = dilation.x();
     const int padding_top     = conv_info.pad_top();
     const int padding_left    = conv_info.pad_left();
     const int padding_bottom  = conv_info.pad_bottom();
     const int padding_right   = conv_info.pad_right();

     const bool is_uniform_quantized    = (data_type == DataType::QASYMM8) && (weights->info()->data_type() == DataType::QASYMM8);
     const bool is_perchannel_quantized = (data_type == DataType::QASYMM8) && (weights->info()->data_type() == DataType::QSYMM8_PER_CHANNEL);

     const unsigned int stride_x    = conv_info.stride().first;
     const unsigned int kernel_size = weights->info()->tensor_shape().y();

     // Map activation function
     neon_convolution_kernels::ActivationFunction activation = neon_convolution_kernels::ActivationFunction::None;
     if(arm_compute::utils::info_helpers::is_relu(act_info))
     {
         activation = neon_convolution_kernels::ActivationFunction::ReLU;
     }
     else if(arm_compute::utils::info_helpers::is_relu6(act_info))
     {
         activation = neon_convolution_kernels::ActivationFunction::ReLU6;
     }

     // Create quantized convolver
     if(is_uniform_quantized)
     {
         const UniformQuantizationInfo input_qinfo   = input->info()->quantization_info().uniform();
         const UniformQuantizationInfo weights_qinfo = weights->info()->quantization_info().uniform();
         const UniformQuantizationInfo output_qinfo  = output->info()->quantization_info().uniform();

         // Check that quantization info are in the range [0, 255]
         ARM_COMPUTE_ERROR_ON(input_qinfo.offset < 0 || input_qinfo.offset > 255);
         ARM_COMPUTE_ERROR_ON(weights_qinfo.offset < 0 || weights_qinfo.offset > 255);
         ARM_COMPUTE_ERROR_ON(output_qinfo.offset < 0 || output_qinfo.offset > 255);
         const qasymm8::QAsymm8Params iqinfo{ static_cast<uint8_t>(input_qinfo.offset), input_qinfo.scale };
         const qasymm8::QAsymm8Params wqinfo{ static_cast<uint8_t>(weights_qinfo.offset), weights_qinfo.scale };
         const qasymm8::QAsymm8Params oqinfo{ static_cast<uint8_t>(output_qinfo.offset), output_qinfo.scale };

         // Calculate rescale parameters
         const float fmultipler  = iqinfo.scale * wqinfo.scale / oqinfo.scale;
         int32_t     qmultiplier = 0;
         int32_t     qshift      = 0;
         quantization::calculate_quantized_multiplier_less_than_one(fmultipler, &qmultiplier, &qshift);
         qasymm8::QAsymm8RescaleParams rescale_params(qshift, qmultiplier, fmultipler);

         return get_qasymm8_convolver(kernel_size, stride_x, n_batches, in_rows, in_cols, n_channels, dilation_factor, activation,
                                      wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
     }
     else if(is_perchannel_quantized)
     {
         const UniformQuantizationInfo input_qinfo   = input->info()->quantization_info().uniform();
         const QuantizationInfo        weights_qinfo = weights->info()->quantization_info();
         const UniformQuantizationInfo output_qinfo  = output->info()->quantization_info().uniform();

         // Check that quantization info are in the range [0, 255]
         ARM_COMPUTE_ERROR_ON(input_qinfo.offset < 0 || input_qinfo.offset > 255);
         ARM_COMPUTE_ERROR_ON(output_qinfo.offset < 0 || output_qinfo.offset > 255);
         const qasymm8::QAsymm8Params         iqinfo{ static_cast<uint8_t>(input_qinfo.offset), input_qinfo.scale };
         const qsymm8::QSymm8PerChannelParams wqinfo{ weights_qinfo.scale() };
         const qasymm8::QAsymm8Params         oqinfo{ static_cast<uint8_t>(output_qinfo.offset), output_qinfo.scale };

         // Calculate rescale parameters
         std::vector<float>   fmultipliers;
         std::vector<int32_t> qmultipliers;
         std::vector<int32_t> qshifts;

         for(auto const s : wqinfo.scales)
         {
             const float fmultipler  = iqinfo.scale * s / oqinfo.scale;
             int32_t     qmultiplier = 0;
             int32_t     qshift      = 0;
             quantization::calculate_quantized_multiplier_less_than_one(fmultipler, &qmultiplier, &qshift);
             fmultipliers.push_back(fmultipler);
             qmultipliers.push_back(qmultiplier);
             qshifts.push_back(qshift);
         }

         qsymm8::QSymm8PerChannelRescaleParams rescale_params(qshifts, qmultipliers, fmultipliers);

         return get_qsymm8_perchannel_convolver(kernel_size, stride_x, n_batches, in_rows, in_cols, n_channels, activation,
                                                wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);
     }
     else
     {
         // Create float convolver
         switch(data_type)
         {
 #ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC
             case DataType::F16:
             {
                 return get_fp16_convolver(kernel_size, stride_x, n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
             }
 #endif // __ARM_FEATURE_FP16_VECTOR_ARITHMETIC
             case DataType::F32:
             {
                 return get_fp32_convolver(kernel_size, stride_x, n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);
             }
             default:
                 return nullptr;
         }
     }
 }
 } // namespace

 struct NEDepthwiseConvolutionAssemblyDispatch::LocalImpl
 {
     std::unique_ptr<depthwise::IDepthwiseConvolution> _dwc_assembly_kernel{ nullptr };
     NEDepthwiseConvolutionAssemblyKernelWrapper       _dwc_acl_kernel{};
 };

 #ifndef DOXYGEN_SKIP_THIS
 NEDepthwiseConvolutionAssemblyDispatch::NEDepthwiseConvolutionAssemblyDispatch(std::shared_ptr<arm_compute::IMemoryManager> memory_manager)
     : _memory_group(std::move(memory_manager)), _input(nullptr), _weights(nullptr), _bias(nullptr), _output(nullptr), _packed_weights(), _workspace(), _is_prepared(false),
       _pImpl(std::make_unique<LocalImpl>())
 {
 }
 #endif /* DOXYGEN_SKIP_THIS */

 NEDepthwiseConvolutionAssemblyDispatch::~NEDepthwiseConvolutionAssemblyDispatch() = default;

 void NEDepthwiseConvolutionAssemblyDispatch::configure(const ITensor             *input,
                                                        const ITensor             *weights,
                                                        const ITensor             *bias,
                                                        ITensor                   *output,
                                                        const PadStrideInfo       &conv_info,
                                                        unsigned int               depth_multiplier,
                                                        const ActivationLayerInfo &act_info,
                                                        const Size2D              &dilation)
 {
     ARM_COMPUTE_ERROR_ON_NULLPTR(input, weights, output);
     ARM_COMPUTE_UNUSED(depth_multiplier);
     ARM_COMPUTE_ERROR_THROW_ON(NEDepthwiseConvolutionAssemblyDispatch::validate(input->info(),
                                                                                 weights->info(),
                                                                                 bias != nullptr ? bias->info() : nullptr,
                                                                                 output->info(),
                                                                                 conv_info,
                                                                                 depth_multiplier,
                                                                                 act_info,
                                                                                 dilation));

     // Output auto inizialitation if not yet initialized
     const TensorShape output_shape = misc::shape_calculator::compute_depthwise_convolution_shape(*input->info(), *weights->info(), conv_info, depth_multiplier, dilation);
     auto_init_if_empty(*output->info(), input->info()->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(output_shape).set_quantization_info(output->info()->quantization_info()));

     _input       = input;
     _weights     = weights;
     _bias        = bias;
     _output      = output;
     _is_prepared = false;

     // Create convolver
     _pImpl->_dwc_assembly_kernel = create_convolver(input, weights, output, conv_info, act_info, dilation);
     ARM_COMPUTE_ERROR_ON(_pImpl->_dwc_assembly_kernel == nullptr);

     // Create assembly kernel wrapper
     _pImpl->_dwc_acl_kernel.configure(_pImpl->_dwc_assembly_kernel.get());

     constexpr size_t alignment = 128;

     // Create workspace
     const unsigned int num_threads    = NEScheduler::get().num_threads();
     const size_t       workspace_size = _pImpl->_dwc_assembly_kernel->get_working_space_size(num_threads);
     ARM_COMPUTE_ERROR_ON_MSG(workspace_size == 0, "Workspace size cannot be 0 !");
     _workspace.allocator()->init(TensorInfo(TensorShape{ workspace_size }, 1, DataType::S8), alignment);
     _memory_group.manage(&_workspace);
     _workspace.allocator()->allocate();

     // Create packing tensor
     const size_t pack_tensor_size = _pImpl->_dwc_assembly_kernel->get_packed_params_size();
     ARM_COMPUTE_ERROR_ON_MSG(pack_tensor_size == 0, "Pack tensor size cannot be 0 !");
     _packed_weights.allocator()->init(TensorInfo(TensorShape{ pack_tensor_size }, 1, DataType::S8), alignment);
 }

 Status NEDepthwiseConvolutionAssemblyDispatch::validate(const ITensorInfo         *input,
                                                         const ITensorInfo         *weights,
                                                         const ITensorInfo         *bias,
                                                         const ITensorInfo         *output,
                                                         const PadStrideInfo       &conv_info,
                                                         unsigned int               depth_multiplier,
                                                         const ActivationLayerInfo &act_info,
                                                         const Size2D              &dilation)
 {
     ARM_COMPUTE_RETURN_ERROR_ON_CPU_F16_UNSUPPORTED(input);
     ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(input, 1, DataType::QASYMM8, DataType::F16, DataType::F32);
     if(weights->data_type() != DataType::QSYMM8_PER_CHANNEL)
     {
         ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(input, weights);
     }
     ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_LAYOUT(input, weights);

     // Validate convolver
     ARM_COMPUTE_RETURN_ERROR_ON(!is_optimized_supported(input, weights, conv_info, depth_multiplier, dilation));

     // Validate activation
     const bool is_relu  = arm_compute::utils::info_helpers::is_relu(act_info);
     const bool is_relu6 = arm_compute::utils::info_helpers::is_relu6(act_info);
     ARM_COMPUTE_RETURN_ERROR_ON(act_info.enabled() && !(is_relu || is_relu6));

     // Check bias
     if(bias != nullptr)
     {
         unsigned int channel_idx = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::CHANNEL);
         ARM_COMPUTE_RETURN_ERROR_ON(bias->num_dimensions() > 1);
         ARM_COMPUTE_RETURN_ERROR_ON(bias->dimension(0) != weights->dimension(channel_idx));
     }

     // Check output
     if(output->total_size() != 0)
     {
         const TensorShape output_shape = misc::shape_calculator::compute_depthwise_convolution_shape(*input, *weights, conv_info, depth_multiplier, dilation);
         ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DIMENSIONS(output->tensor_shape(), output_shape);
         ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(input, output);
     }

     // The uniform quantization case will only have 1 scale value in the weights quantization info
     const UniformQuantizationInfo input_qinfo   = input->quantization_info().uniform();
     const QuantizationInfo        weights_qinfo = weights->quantization_info();
     const UniformQuantizationInfo output_qinfo  = output->quantization_info().uniform();
     for(auto const s : weights_qinfo.scale())
     {
         const float fmultipler = input_qinfo.scale * s / output_qinfo.scale;
         ARM_COMPUTE_RETURN_ERROR_ON(fmultipler > 1.f);
     }

     return Status{};
 }

 bool NEDepthwiseConvolutionAssemblyDispatch::is_optimized_supported(const ITensorInfo *input,
                                                                     const ITensorInfo *weights,
                                                                     PadStrideInfo      conv_info,
                                                                     unsigned int       depth_multiplier,
                                                                     const Size2D      &dilation)
 {
     ARM_COMPUTE_ERROR_ON_NULLPTR(input, weights);

     // Reshape input shape if in NHWC format
     const DataLayout data_layout = input->data_layout();
     TensorShape      in_shape{ input->tensor_shape() };
     if(data_layout == DataLayout::NHWC)
     {
         in_shape.set(Window::DimX, input->tensor_shape().y());
         in_shape.set(Window::DimY, input->tensor_shape().z());
         in_shape.set(Window::DimZ, input->tensor_shape().x());
     }

     // Check data type
     // TODO (COMPMID-3004): Add assembly optimized routine for QASYMM8_SIGNED NEDepthwiseConvolutionLayer
     const DataType input_type            = input->data_type();
     const bool     is_input_type_valid   = is_data_type_float(input_type) || input_type == DataType::QASYMM8;
     const DataType weights_type          = weights->data_type();
     const bool     is_weights_type_valid = is_data_type_float(weights_type) || weights_type == DataType::QASYMM8 || weights_type == DataType::QASYMM8_SIGNED
                                            || weights_type == DataType::QSYMM8_PER_CHANNEL;

     // Check weighs size
     std::set<unsigned int> supported_kernel_sizes = { 3, 5 };
     const unsigned int     width_idx              = get_data_layout_dimension_index(data_layout, DataLayoutDimension::WIDTH);
     const unsigned int     height_idx             = get_data_layout_dimension_index(data_layout, DataLayoutDimension::HEIGHT);
     const unsigned int     kernel_w               = weights->dimension(width_idx);
     const unsigned int     kernel_h               = weights->dimension(height_idx);
     bool                   weights_supported      = (kernel_w == kernel_h) && (supported_kernel_sizes.count(kernel_w) != 0);

     // Check for supported strides
     const auto &strides           = conv_info.stride();
     bool        supported_strides = (strides.first == strides.second) && ((strides.first == 1) || (strides.first == 2));

     // Check for supported padding
     const auto    pad_top           = conv_info.pad_top();
     const auto    pad_right         = conv_info.pad_right();
     const auto    pad_bottom        = conv_info.pad_bottom();
     const auto    pad_left          = conv_info.pad_left();
     PadStrideInfo same_pad          = calculate_same_pad(in_shape, TensorShape(kernel_w, kernel_h), conv_info, DataLayout::NCHW, dilation);
     bool          is_same_padding   = (pad_top == same_pad.pad_top()) && (pad_right == same_pad.pad_right()) && (pad_bottom == same_pad.pad_bottom()) && (pad_left == same_pad.pad_left());
     bool          is_valid_padding  = (pad_top == 0) && (pad_right == 0) && (pad_bottom == 0) && (pad_left == 0);
     bool          supported_padding = is_same_padding || is_valid_padding;
     // TODO(COMPMID-2464): Enable once dilated conv with stride 2 is supported
     bool is_dilation_supported = ((dilation == Size2D(1U, 1U)) || ((dilation.x() == dilation.y()) && strides.first == 1));

     if(weights_type == DataType::QSYMM8_PER_CHANNEL)
     {
         is_dilation_supported = is_dilation_supported && (dilation == Size2D(1U, 1U));
     }

     return is_input_type_valid && is_weights_type_valid && weights_supported && supported_strides && supported_padding && (depth_multiplier == 1) && is_dilation_supported;
 }

 void NEDepthwiseConvolutionAssemblyDispatch::run()
 {
     // Prepare assembly kernel
     prepare();

     MemoryGroupResourceScope scope_mg(_memory_group);

     // Setup inputs/outputs
     ARM_COMPUTE_ERROR_ON(_workspace.buffer() == nullptr);
     _pImpl->_dwc_assembly_kernel->set_working_space(static_cast<void *>(_workspace.buffer()));

     ARM_COMPUTE_ERROR_ON(_input->buffer() == nullptr);
     const int   input_element_size = _input->info()->element_size();
     const int   input_batch_stride = _input->info()->strides_in_bytes()[3] / input_element_size;
     const int   input_row_stride   = _input->info()->strides_in_bytes().z() / input_element_size;
     const int   input_col_stride   = _input->info()->strides_in_bytes().y() / input_element_size;
     const void *input_ptr          = _input->buffer() + _input->info()->offset_first_element_in_bytes();
     _pImpl->_dwc_assembly_kernel->set_input(input_ptr, input_batch_stride, input_row_stride, input_col_stride);

     ARM_COMPUTE_ERROR_ON(_output->buffer() == nullptr);
     const int output_element_size = _output->info()->element_size();
     const int output_batch_stride = _output->info()->strides_in_bytes()[3] / output_element_size;
     const int output_row_stride   = _output->info()->strides_in_bytes().z() / output_element_size;
     const int output_col_stride   = _output->info()->strides_in_bytes().y() / output_element_size;
     void     *output_ptr          = _output->buffer() + _output->info()->offset_first_element_in_bytes();
     _pImpl->_dwc_assembly_kernel->set_output(output_ptr, output_batch_stride, output_row_stride, output_col_stride);

     // Schedule assembly kernel
     NEScheduler::get().schedule(&_pImpl->_dwc_acl_kernel, Window::DimX);
 }

 void NEDepthwiseConvolutionAssemblyDispatch::prepare()
 {
     if(!_is_prepared)
     {
         _packed_weights.allocator()->allocate();
         ARM_COMPUTE_ERROR_ON(_packed_weights.buffer() == nullptr);

         // Pack weights and bias
         const int weights_element_size = _weights->info()->element_size();
         const int weights_row_stride   = _weights->info()->strides_in_bytes().z() / weights_element_size;
         const int weights_col_stride   = _weights->info()->strides_in_bytes().y() / weights_element_size;
         _pImpl->_dwc_assembly_kernel->pack_params(_packed_weights.buffer(),
                                                   _weights->buffer() + _weights->info()->offset_first_element_in_bytes(),
                                                   weights_row_stride,
                                                   weights_col_stride,
                                                   (_bias != nullptr) ? _bias->buffer() : nullptr);
         _pImpl->_dwc_assembly_kernel->set_packed_params_buffer(_packed_weights.buffer());

         _weights->mark_as_unused();
         if(_bias != nullptr)
         {
             _bias->mark_as_unused();
         }
         _is_prepared = true;
     }
 }
 } // namespace arm_compute
arm_compute::ITensorInfo::num_dimensions
virtual size_t num_dimensions() const =0
The number of dimensions of the tensor (rank)

arm_compute::test::validation::shape
shape
Definition: DFT.cpp:115

arm_compute::TensorShape
Shape of a tensor.
Definition: TensorShape.h:39

ITensor.h

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_LAYOUT
#define ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_LAYOUT(...)
Definition: Validate.h:494

ARM_COMPUTE_RETURN_ERROR_ON_CPU_F16_UNSUPPORTED
#define ARM_COMPUTE_RETURN_ERROR_ON_CPU_F16_UNSUPPORTED(tensor)
Definition: Validate.h:108

arm_compute::misc::shape_calculator::compute_depthwise_convolution_shape
TensorShape compute_depthwise_convolution_shape(const ITensorInfo &input, const ITensorInfo &weights, PadStrideInfo conv_info, unsigned int depth_multiplier, const Size2D &dilation=Size2D(1U, 1U))
Calculate the depthwise convolution output shape of a tensor.
Definition: ShapeCalculator.h:446

arm_compute::ActivationLayerInfo::enabled
bool enabled() const
Check if initialised.
Definition: Types.h:1600

arm_compute::ITensorInfo::dimension
virtual size_t dimension(size_t index) const =0
Return the size of the requested dimension.

arm_compute::test::validation::conv_info
conv_info
Definition: Winograd.cpp:599

arm_compute::ITensorInfo::data_type
virtual DataType data_type() const =0
Data type used for each element of the tensor.

NEDepthwiseConvolutionAssemblyDispatch.h

arm_compute::NEDepthwiseConvolutionAssemblyDispatch::validate
static Status validate(const ITensorInfo *input, const ITensorInfo *weights, const ITensorInfo *bias, const ITensorInfo *output, const PadStrideInfo &conv_info, unsigned int depth_multiplier=1, const ActivationLayerInfo &act_info=ActivationLayerInfo(), const Size2D &dilation=Size2D(1, 1))
Static function to check if given info will lead to a valid configuration of NEDepthwiseConvolutionAs...
Definition: NEDepthwiseConvolutionAssemblyDispatch.cpp:400

arm_compute::Format::F32
1 channel, 1 F32 per channel

arm_compute::DataLayoutDimension::HEIGHT
height

ARM_COMPUTE_ERROR_ON
#define ARM_COMPUTE_ERROR_ON(cond)
If the condition is true then an error message is printed and an exception thrown.
Definition: Error.h:466

arm_compute::NEDepthwiseConvolutionAssemblyDispatch::prepare
void prepare() override
Prepare the function for executing.
Definition: NEDepthwiseConvolutionAssemblyDispatch.cpp:543

arm_compute::test::validation::data_layout
const DataLayout data_layout
Definition: Im2Col.cpp:151

arm_compute::ITensorInfo
Store the tensor&#39;s metadata.
Definition: ITensorInfo.h:40

ARM_COMPUTE_ERROR_THROW_ON
#define ARM_COMPUTE_ERROR_THROW_ON(status)
Definition: Error.h:455

arm_compute::UniformQuantizationInfo
Quantization info when assuming per layer quantization.
Definition: QuantizationInfo.h:43

arm_compute::UniformQuantizationInfo::scale
float scale
Definition: QuantizationInfo.h:65

arm_compute::Size2D::x
size_t x() const
Semantic accessor for width as x.
Definition: Size2D.h:74

arm_compute::PadStrideInfo::pad_top
unsigned int pad_top() const
Get the top padding.
Definition: Types.h:806

arm_compute::Status
Status class.
Definition: Error.h:52

ARM_COMPUTE_RETURN_ERROR_ON
#define ARM_COMPUTE_RETURN_ERROR_ON(cond)
If the condition is true, an error is returned.
Definition: Error.h:296

arm_compute::ActivationLayerInfo
Activation Layer Information class.
Definition: Types.h:1550

arm_compute::ITensor
Interface for Neon tensor.
Definition: ITensor.h:36

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DIMENSIONS
#define ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DIMENSIONS(...)
Definition: Validate.h:288

tf_frozen_model_extractor.None
None
Definition: tf_frozen_model_extractor.py:41

arm_compute
Copyright (c) 2017-2021 Arm Limited.
Definition: 00_introduction.dox:24

arm_compute::Format::F16
1 channel, 1 F16 per channel

arm_compute::test::validation::input
auto input
Definition: LSTMLayerQuantized.cpp:486

arm_compute::NEDepthwiseConvolutionAssemblyDispatch::NEDepthwiseConvolutionAssemblyDispatch
NEDepthwiseConvolutionAssemblyDispatch(std::shared_ptr< IMemoryManager > memory_manager=nullptr)
Default constructor.

arm_compute::Dimensions::x
T x() const
Alias to access the size of the first dimension.
Definition: Dimensions.h:87

Utils.h

arm_compute::test::validation::data_type
const DataType data_type
Definition: Im2Col.cpp:150

arm_compute::QuantizationInfo
Quantization information.
Definition: QuantizationInfo.h:70

std

arm_compute::Window::DimX
static constexpr size_t DimX
Alias for dimension 0 also known as X dimension.
Definition: Window.h:43

ARM_COMPUTE_UNUSED
#define ARM_COMPUTE_UNUSED(...)
To avoid unused variables warnings.
Definition: Error.h:152

arm_compute::test::validation::output_shape
TensorShape output_shape
Definition: LSTMLayerQuantized.cpp:469

arm_compute::Channel::U
Cb/U channel.

arm_compute::ITensorInfo::tensor_shape
virtual const TensorShape & tensor_shape() const =0
Size for each dimension of the tensor.

arm_compute::DataType::QASYMM8
quantized, asymmetric fixed-point 8-bit number unsigned

arm_compute::Dimensions::z
T z() const
Alias to access the size of the third dimension.
Definition: Dimensions.h:97

ARM_COMPUTE_ERROR_ON_MSG
#define ARM_COMPUTE_ERROR_ON_MSG(cond, msg)
Definition: Error.h:456

arm_compute::PadStrideInfo::stride
std::pair< unsigned int, unsigned int > stride() const
Get the stride.
Definition: Types.h:770

arm_compute::QuantizationInfo::uniform
UniformQuantizationInfo uniform() const
Return per layer quantization info.
Definition: QuantizationInfo.h:149

arm_compute::auto_init_if_empty
bool auto_init_if_empty(ITensorInfo &info, const TensorShape &shape, int num_channels, DataType data_type, QuantizationInfo quantization_info=QuantizationInfo())
Auto initialize the tensor info (shape, number of channels and data type) if the current assignment i...
Definition: AutoConfiguration.h:42

ShapeCalculator.h

arm_compute::misc::ICloneable::clone
virtual std::unique_ptr< T > clone() const =0
Provide a clone of the current object of class T.

arm_compute::ITensor::info
virtual ITensorInfo * info() const =0
Interface to be implemented by the child class to return the tensor&#39;s metadata.

arm_compute::PadStrideInfo::pad_right
unsigned int pad_right() const
Get the right padding.
Definition: Types.h:801

arm_compute::QuantizationInfo::scale
const std::vector< float > & scale() const
Scale vector accessor.
Definition: QuantizationInfo.h:125

arm_compute::NEDepthwiseConvolutionAssemblyDispatch::configure
void configure(const ITensor *input, const ITensor *weights, const ITensor *bias, ITensor *output, const PadStrideInfo &conv_info, unsigned int depth_multiplier=1, const ActivationLayerInfo &act_info=ActivationLayerInfo(), const Size2D &dilation=Size2D(1, 1))
Initialize the function&#39;s source, destination, kernels and border_size.
Definition: NEDepthwiseConvolutionAssemblyDispatch.cpp:347

arm_compute::PadStrideInfo
Padding and stride information class.
Definition: Types.h:722

NEScheduler.h

arm_compute::DataLayoutDimension::CHANNEL
channel

arm_compute::NEDepthwiseConvolutionAssemblyDispatch::is_optimized_supported
static bool is_optimized_supported(const ITensorInfo *input, const ITensorInfo *weights, PadStrideInfo conv_info, unsigned int depth_multiplier=1, const Size2D &dilation=Size2D(1, 1))
Check if the optimized kernel can be used for the given kernel sizes and strides. ...
Definition: NEDepthwiseConvolutionAssemblyDispatch.cpp:454

arm_compute::ITensorInfo::quantization_info
virtual QuantizationInfo quantization_info() const =0
Get the quantization settings (scale and offset) of the tensor.

arm_compute::DataLayout::NCHW
Num samples, channels, height, width.

arm_compute::Size2D::y
size_t y() const
Semantic accessor for height as y.
Definition: Size2D.h:83

arm_compute::utils::info_helpers::is_relu6
bool is_relu6(ActivationLayerInfo activation_info)
Checks if activation information correspond to a relu6 activation function.
Definition: InfoHelpers.h:54

arm_compute::DataType::QSYMM8_PER_CHANNEL
quantized, symmetric per channel fixed-point 8-bit number

InfoHelpers.h

arm_compute::Window::DimY
static constexpr size_t DimY
Alias for dimension 1 also known as Y dimension.
Definition: Window.h:45

arm_compute::MemoryGroupResourceScope
Memory group resources scope handling class.
Definition: IMemoryGroup.h:82

AutoConfiguration.h

arm_compute::ITensorInfo::total_size
virtual size_t total_size() const =0
Returns the total size of the tensor in bytes.

arm_compute::IScheduler::schedule
virtual void schedule(ICPPKernel *kernel, const Hints &hints)=0
Runs the kernel in the same thread as the caller synchronously.

arm_compute::Window::DimZ
static constexpr size_t DimZ
Alias for dimension 2 also known as Z dimension.
Definition: Window.h:47

arm_compute::Size2D
Class for specifying the size of an image or rectangle.
Definition: Size2D.h:34

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES
#define ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(...)
Definition: Validate.h:545

arm_compute::DataLayout::NHWC
Num samples, height, width, channels.

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN
#define ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(t, c,...)
Definition: Validate.h:792

Validate.h

arm_compute::utils::info_helpers::is_relu
bool is_relu(ActivationLayerInfo activation_info)
Checks if activation information correspond to a relu activation function.
Definition: InfoHelpers.h:43

arm_compute::DataLayoutDimension::WIDTH
width

ARM_COMPUTE_ERROR_ON_NULLPTR
#define ARM_COMPUTE_ERROR_ON_NULLPTR(...)
Definition: Validate.h:161

arm_compute::TensorInfo
Store the tensor&#39;s metadata.
Definition: TensorInfo.h:45

arm_compute::Dimensions::y
T y() const
Alias to access the size of the second dimension.
Definition: Dimensions.h:92

arm_compute::DataType::QASYMM8_SIGNED
quantized, asymmetric fixed-point 8-bit number signed

arm_compute::IScheduler::num_threads
virtual unsigned int num_threads() const =0
Returns the number of threads that the SingleThreadScheduler has in his pool.

arm_compute::get_data_layout_dimension_index
size_t get_data_layout_dimension_index(const DataLayout data_layout, const DataLayoutDimension data_layout_dimension)
Get the index of the given dimension.
Definition: Helpers.inl:193

AsymmHelpers.h

arm_compute::quantization::calculate_quantized_multiplier_less_than_one
Status calculate_quantized_multiplier_less_than_one(float multiplier, int32_t *quant_multiplier, int32_t *right_shift, bool ignore_epsilon=false)
Calculate quantized representation of multiplier with value less than one.
Definition: AsymmHelpers.cpp:53

arm_compute::NEDepthwiseConvolutionAssemblyDispatch::run
void run() override
Run the kernels contained in the function.
Definition: NEDepthwiseConvolutionAssemblyDispatch.cpp:512

arm_compute::PadStrideInfo::pad_bottom
unsigned int pad_bottom() const
Get the bottom padding.
Definition: Types.h:811

arm_compute::DataType
DataType
Available data types.
Definition: Types.h:77

arm_compute::PadStrideInfo::pad_left
unsigned int pad_left() const
Get the left padding.
Definition: Types.h:796

arm_compute::DataLayout
DataLayout
[DataLayout enum definition]
Definition: Types.h:120

arm_compute::DataType::S8
signed 8-bit number

arm_compute::TensorShape::set
TensorShape & set(size_t dimension, size_t value, bool apply_dim_correction=true, bool increase_dim_unit=true)
Accessor to set the value of one of the dimensions.
Definition: TensorShape.h:79

arm_compute::is_data_type_float
bool is_data_type_float(DataType dt)
Check if a given data type is of floating point type.
Definition: Utils.h:1148

arm_compute::NEDepthwiseConvolutionAssemblyDispatch::~NEDepthwiseConvolutionAssemblyDispatch
~NEDepthwiseConvolutionAssemblyDispatch()
Default destructor.

arm_compute::calculate_same_pad
PadStrideInfo calculate_same_pad(TensorShape input_shape, TensorShape weights_shape, PadStrideInfo conv_info, DataLayout data_layout=DataLayout::NCHW, const Size2D &dilation=Size2D(1u, 1u), const DimensionRoundingType &rounding_type=DimensionRoundingType::FLOOR)
Calculate padding requirements in case of SAME padding.
Definition: Utils.cpp:357

arm_compute::ITensorInfo::data_layout
virtual DataLayout data_layout() const =0
Get the data layout of the tensor.

arm_compute::Scheduler::get
static IScheduler & get()
Access the scheduler singleton.
Definition: Scheduler.cpp:94