Namespaces
	kernel

	kernels

Data Structures
struct	ActFpImplParams
	Constant parameters needed by the activation implementation. More...

struct	AsmGemmInfo

class	CpuActivation
	Basic function to run kernels::CpuActivationKernel. More...

class	CpuAdd
	Basic function to run kernels::CpuAddKernel. More...

class	CpuAddMulAdd
	Basic function to run kernels::CpuAddMulAddKernel. More...

class	CpuAuxTensorHandler
	Tensor handler to wrap and handle tensor allocations on workspace buffers. More...

struct	CpuCapabilities
	Structure that encodes the CPU capabilities to be used. More...

class	CpuCast
	Basic function to run kernels::CpuCastKernel. More...

class	CpuComplexMul
	Basic function to run kernels::CpuComplexMulKernel. More...

class	CpuConcatenate
	Basic function to execute concatenate tensors along a given axis. More...

class	CpuContext
	CPU context implementation class. More...

class	CpuConv2d
	Basic function to simulate a convolution layer. More...

class	CpuConvertFullyConnectedWeights
	Basic function to run kernels::CpuConvertFullyConnectedWeightsKernel. More...

class	CpuCopy
	Basic function to run kernels::CpuCopyKernel. More...

class	CpuDepthwiseConv2d
	Function to execute a depthwise convolution. More...

class	CpuDepthwiseConv2dAssemblyDispatch
	Depthwise convolution assembly kernel glue. More...

class	CpuDequantize
	Basic function to run kernels::CpuDequantizeKernel that dequantizes an input tensor. More...

class	CpuDirectConv2d
	Function to run the direct convolution. More...

class	CpuDirectConv3d
	Function to run the direct convolution. More...

class	CpuElementwiseArithmetic
	Class to run cpu::kernels::CpuArithmeticKernel except for division and power. More...

class	CpuElementwiseBase

class	CpuElementwiseComparison
	Basic function to run cpu::kernels::CpuComparisonKernel. More...

class	CpuElementwiseComparisonStatic
	Basic function to run cpu::kernels::CpuComparisonKernel. More...

class	CpuElementwiseDivision
	Basic function to run cpu::kernels::CpuArithmeticKernel for division. More...

class	CpuElementwisePower
	Basic function to run cpu::kernels::CpuArithmeticKernel for power. More...

class	CpuElementwiseUnary

class	CpuFill
	Basic function to run kernels::CpuFillKernel. More...

class	CpuFlatten
	Basic function to flatten a given input. More...

class	CpuFloor
	Basic function to run kernels::CpuFloorKernel. More...

class	CpuFullyConnected
	Basic function to compute a Fully Connected layer. More...

class	CpuGemm
	Basic function to execute GEMM. More...

class	CpuGemmAssemblyDispatch
	Assembly kernel glue. More...

class	CpuGemmConv2d
	Basic function to compute the convolution layer. More...

class	CpuGemmDirectConv2d

class	CpuGemmLowpMatrixMultiplyCore
	Basic function to execute GEMMLowpMatrixMultiplyCore. More...

class	CpuGemmLowpOutputStage
	Basic function to execute GEMMLowpQuantizeDown kernels. More...

class	CpuMatMul
	Function to execute MatMul Operation. More...

class	CpuMaxUnpooling
	Basic function to run kernels::CpuMaxUnpoolingLayerKernel. More...

class	CpuMul
	Basic function to run kernels::CpuMulKernel. More...

class	CpuPermute
	Basic function to run kernels::CpuPermuteKernel. More...

class	CpuPool2d
	Basic function to simulate a pooling layer with the specified pooling operation. More...

class	CpuPool3d
	Basic function to simulate a pooling layer with the specified pooling operation. More...

class	CpuQuantize
	Basic function to run kernels::CpuQuantizeKernel that dequantizes an input tensor. More...

class	CpuQueue
	CPU queue implementation class. More...

class	CpuReshape
	Basic function to run kernels::CpuReshapeKernel. More...

class	CpuScale
	Basic function to compute Scale. More...

class	CpuSoftmaxGeneric
	Basic function to compute a SoftmaxLayer and a Log SoftmaxLayer. More...

class	CpuSub
	Basic function to run kernels::CpuSubKernel. More...

class	CpuTensor
	CPU tensor implementation class. More...

class	CpuTranspose
	Basic function to run kernels::CpuTransposeKernel. More...

class	CpuWinogradConv2d

class	CpuWinogradConv2dTransformInputKernel

class	CpuWinogradConv2dTransformOutputKernel

struct	DepthwiseConvolutionRunInfo

class	ICpuKernel

Typedefs
using	ICpuOperator = experimental::INEOperator

using	CpuElementwiseMax = CpuElementwiseArithmetic< ArithmeticOperation::MAX >
	Class to run cpu::kernels::CpuArithmeticKernel except for maximum operation. More...

using	CpuElementwiseMin = CpuElementwiseArithmetic< ArithmeticOperation::MIN >
	Class to run cpu::kernels::CpuArithmeticKernel except for minimum operation. More...

using	CpuElementwiseSquaredDiff = CpuElementwiseArithmetic< ArithmeticOperation::SQUARED_DIFF >
	Class to run cpu::kernels::CpuArithmeticKernel except for squared difference operation. More...

using	NEEqual = CpuElementwiseComparisonStatic< ComparisonOperation::Equal >
	Basic function to run equal comparison. More...

using	NENotEqual = CpuElementwiseComparisonStatic< ComparisonOperation::NotEqual >
	Basic function to run not equal comparison. More...

using	NEGreater = CpuElementwiseComparisonStatic< ComparisonOperation::Greater >
	Basic function to run greater comparison. More...

using	NEGreaterEqual = CpuElementwiseComparisonStatic< ComparisonOperation::GreaterEqual >
	Basic function to run greater-equal comparison. More...

using	NELess = CpuElementwiseComparisonStatic< ComparisonOperation::Less >
	Basic function to run less comparison. More...

using	NELessEqual = CpuElementwiseComparisonStatic< ComparisonOperation::LessEqual >
	Basic function to run less-equal comparison. More...

using	KernelType = kernels::CpuElementwiseUnaryKernel

using	CpuPRelu = CpuElementwiseArithmetic< ArithmeticOperation::PRELU >
	Class to run cpu::kernels::CpuArithmeticKernel except for PRelu operation. More...

Enumerations
enum	KernelSelectionType { Preferred, Supported }

enum	AsmConvMethod { Im2Col, Indirect, Conv }

Functions
void	fp16_neon_batch_normalization (ITensor src, ITensor dst, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo &act_info, const Window &window)

void	fp16_sve_batch_normalization (ITensor src, ITensor dst, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo &act_info, const Window &window)

void	fp32_neon_batch_normalization (ITensor src, ITensor dst, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo &act_info, const Window &window)

void	fp32_sve_batch_normalization (ITensor src, ITensor dst, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo &act_info, const Window &window)

void	fp16_batch_normalization_nchw_non_fused (const Window &window, ITensor input, ITensor output, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo act_info)

void	fp32_batch_normalization_nchw_non_fused (const Window &window, ITensor input, ITensor output, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo act_info)

void	fp16_batch_normalization_nchw_non_fused_relu (const Window &window, ITensor input, ITensor output, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo act_info)

void	fp16_batch_normalization_nchw_non_fused_brelu (const Window &window, ITensor input, ITensor output, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo act_info)

void	fp16_batch_normalization_nchw_non_fused_lubrelu (const Window &window, ITensor input, ITensor output, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo act_info)

void	fp32_batch_normalization_nchw_non_fused_relu (const Window &window, ITensor input, ITensor output, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo act_info)

void	fp32_batch_normalization_nchw_non_fused_brelu (const Window &window, ITensor input, ITensor output, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo act_info)

void	fp32_batch_normalization_nchw_non_fused_lubrelu (const Window &window, ITensor input, ITensor output, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo act_info)

void	neon_fp32_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

float32x4_t	mask_float_vector (const float32x4_t &in, const uint32x4_t &mask)

template<typename T , const ActFpImplParams & P>
void	fp_neon_activation_impl (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	neon_qasymm8_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	neon_qasymm8_signed_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	neon_qsymm16_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	sve_fp32_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	sve2_qasymm8_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	sve2_qasymm8_signed_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	sve2_qsymm16_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	sve2_q8_activation_lut (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	sve_fp16_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	sve_fp16_activation_lut (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	neon_fp16_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	add_fp32_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

bool	sub_q8_neon_fixedpoint_possible (const ITensorInfo src0, const ITensorInfo src1, const ITensorInfo *dst)

bool	add_q8_neon_fixedpoint_possible (const ITensorInfo src0, const ITensorInfo src1, const ITensorInfo *dst)

bool	add_sub_q8_neon_fixedpoint_possible (const ITensorInfo src0, const ITensorInfo src1, const ITensorInfo *dst, bool is_addition)

template<typename ScalarType >
void	add_q8_neon_fixedpoint (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template<typename ScalarType >
void	add_sub_q8_neon_fixedpoint (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window, bool is_addition)

void	add_sub_qasymm8_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window, bool is_addition)

void	add_sub_qasymm8_signed_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window, bool is_addition)

template void	add_q8_neon_fixedpoint< int8_t > (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template void	add_q8_neon_fixedpoint< uint8_t > (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template void	add_sub_q8_neon_fixedpoint< int8_t > (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window, bool is_addition)

template void	add_sub_q8_neon_fixedpoint< uint8_t > (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window, bool is_addition)

template<typename ScalarType >
void	add_same_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_u8_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_s16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_s32_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_qasymm8_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_qasymm8_signed_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_qsymm16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_fp32_sve (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template<typename ScalarType >
void	add_same_sve (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template void	add_same_sve< float > (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template void	add_same_sve< uint8_t > (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template void	add_same_sve< int16_t > (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template void	add_same_sve< int32_t > (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_u8_sve (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_s16_sve (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_s32_sve (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_qasymm8_sve2 (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_qasymm8_signed_sve2 (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_qsymm16_sve2 (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_fp16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_fp16_sve (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_mul_add_fp32_neon (const ITensor input1, const ITensor input2, const ITensor bn_mul, const ITensor bn_add, ITensor add_output, ITensor final_output, ConvertPolicy policy, const ActivationLayerInfo &act_info, const Window &window)

void	add_mul_add_fp16_neon (const ITensor input1, const ITensor input2, const ITensor bn_mul, const ITensor bn_add, ITensor add_output, ITensor final_output, ConvertPolicy policy, const ActivationLayerInfo &act_info, const Window &window)

void	add_mul_add_u8_neon (const ITensor input1, const ITensor input2, const ITensor bn_mul, const ITensor bn_add, ITensor add_output, ITensor final_output, ConvertPolicy policy, const ActivationLayerInfo &act_info, const Window &window)

void	add_mul_add_s8_neon (const ITensor input1, const ITensor input2, const ITensor bn_mul, const ITensor bn_add, ITensor add_output, ITensor final_output, ConvertPolicy policy, const ActivationLayerInfo &act_info, const Window &window)

void	neon_fp32_boundingboxtransform (const ITensor boxes, ITensor pred_boxes, const ITensor *deltas, BoundingBoxTransformInfo bbinfo, const Window &window)

void	bounding_box_transform_qsymm16 (const ITensor boxes, ITensor pred_boxes, const ITensor *deltas, BoundingBoxTransformInfo bbinfo, const Window &window)

template<typename T >
void	bounding_box_transform (const ITensor boxes, ITensor pred_boxes, const ITensor *deltas, BoundingBoxTransformInfo bbinfo, const Window &window)

void	neon_qu16_boundingboxtransform (const ITensor boxes, ITensor pred_boxes, const ITensor *deltas, BoundingBoxTransformInfo bbinfo, const Window &window)

void	neon_fp16_boundingboxtransform (const ITensor boxes, ITensor pred_boxes, const ITensor *deltas, BoundingBoxTransformInfo bbinfo, const Window &window)

void	neon_fp32_to_fp16_cast (const ITensor _src, ITensor _dst, const ThreadInfo &tensor, ConvertPolicy _policy, const Window &window)

void	neon_u8_to_fp16_cast (const ITensor _src, ITensor _dst, const ThreadInfo &tensor, ConvertPolicy _policy, const Window &window)

void	neon_fp16_to_other_dt_cast (const ITensor _src, ITensor _dst, const ThreadInfo &tensor, ConvertPolicy _policy, const Window &window)

void	neon_s32_to_fp16_cast (const ITensor _src, ITensor _dst, const ThreadInfo &tensor, ConvertPolicy _policy, const Window &window)

void	neon_qasymm8_signed_to_fp16_cast (const ITensor _src, ITensor _dst, const ThreadInfo &tensor, ConvertPolicy _policy, const Window &window)

void	neon_fp32_to_bfloat16_cast (const ITensor _src, ITensor _dst, const ThreadInfo &tensor, ConvertPolicy _policy, const Window &window)

void	neon_bfloat16_to_fp32_cast (const ITensor _src, ITensor _dst, const ThreadInfo &tensor, ConvertPolicy _policy, const Window &window)

template<typename T >
void	directconv3d_float_neon_ndhwc (const ITensor src0, const ITensor src1, const ITensor src2, ITensor dst, const Conv3dInfo &conv_info, const Window &window)

template<typename T >
void	directconv3d_quantized_neon_ndhwc (const ITensor src0, const ITensor src1, const ITensor src2, ITensor dst, const Conv3dInfo &conv_info, const Window &window)

template<typename T >
float32x4_t	load_as_f32 (T *ptr)

template<>
float32x4_t	load_as_f32 (float *ptr)

template<>
float32x4_t	load_as_f32 (int32_t *ptr)

template<>
float32x4_t	load_as_f32 (uint32_t *ptr)

template<>
float32x4_t	load_as_f32 (int16_t *ptr)

template<>
float32x4_t	load_as_f32 (uint16_t *ptr)

template<>
float32x4_t	load_as_f32 (uint8_t *ptr)

void	fp32_in_bounds_crop_window (const ITensor input, const ITensor output, float *output_ptr, Coordinates input_offset, int32_t window_step_x, int32_t output_width_start, int32_t output_width_limit, bool input_has_single_channel, bool is_width_flipped)

template<typename T >
void	in_bounds_crop_window (const ITensor input, const ITensor output, float *output_ptr, Coordinates input_offset, int32_t window_step_x, int32_t output_width_start, int32_t output_width_limit, bool input_has_single_channel, bool is_width_flipped)

void	u8_in_bounds_crop_window (const ITensor input, const ITensor output, float *output_ptr, Coordinates input_offset, int32_t window_step_x, int32_t output_width_start, int32_t output_width_limit, bool input_has_single_channel, bool is_width_flipped)

void	u16_in_bounds_crop_window (const ITensor input, const ITensor output, float *output_ptr, Coordinates input_offset, int32_t window_step_x, int32_t output_width_start, int32_t output_width_limit, bool input_has_single_channel, bool is_width_flipped)

void	u32_in_bounds_crop_window (const ITensor input, const ITensor output, float *output_ptr, Coordinates input_offset, int32_t window_step_x, int32_t output_width_start, int32_t output_width_limit, bool input_has_single_channel, bool is_width_flipped)

void	s8_in_bounds_crop_window (const ITensor input, const ITensor output, float *output_ptr, Coordinates input_offset, int32_t window_step_x, int32_t output_width_start, int32_t output_width_limit, bool input_has_single_channel, bool is_width_flipped)

void	s16_in_bounds_crop_window (const ITensor input, const ITensor output, float *output_ptr, Coordinates input_offset, int32_t window_step_x, int32_t output_width_start, int32_t output_width_limit, bool input_has_single_channel, bool is_width_flipped)

void	s32_in_bounds_crop_window (const ITensor input, const ITensor output, float *output_ptr, Coordinates input_offset, int32_t window_step_x, int32_t output_width_start, int32_t output_width_limit, bool input_has_single_channel, bool is_width_flipped)

void	fp16_in_bounds_crop_window (const ITensor input, const ITensor output, float *output_ptr, Coordinates input_offset, int32_t window_step_x, int32_t output_width_start, int32_t output_width_limit, bool input_has_single_channel, bool is_width_flipped)

void	depth_to_space_nhwc_any (const uint8_t src, uint8_t dst, const uintptr_t src_shape[4], const uintptr_t src_strides[4], const uintptr_t dst_strides[4], uintptr_t element_size, uintptr_t block_size)

void	depth_to_space_nchw_any (const uint8_t src, uint8_t dst, const uintptr_t src_shape[4], const uintptr_t src_strides[4], const uintptr_t dst_strides[4], uintptr_t element_size, uintptr_t block_size)

void	neon_fp32_deptwiseconv2dnative (const ITensor src, const ITensor weights, const ITensor bias, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

int32x4_t	saturating_doubling_high_mul (const int32x4_t &a, const int32_t &b)

int32_t	saturating_doubling_high_mul (const int32_t &a, const int32_t &b)

int32x4_t	rounding_divide_by_exp2 (const int32x4_t &x, const int exponent)

int32x2_t	rounding_divide_by_exp2 (const int32x2_t &x, const int exponent)

int32_t	rounding_divide_by_exp2 (const int32_t &x, const int exponent)

template<typename T , typename TW >
void	run_depthwise_quanitized8bit (const ITensor src, const ITensor weights, const ITensor biases, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

template void	run_depthwise_quanitized8bit< uint8_t, uint8_t > (const ITensor src, const ITensor weights, const ITensor biases, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

template void	run_depthwise_quanitized8bit< int8_t, int8_t > (const ITensor src, const ITensor weights, const ITensor biases, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

template void	run_depthwise_quanitized8bit< uint8_t, int8_t > (const ITensor src, const ITensor weights, const ITensor biases, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

bool	is_valid_input_region (int32_t base_w, uint32_t base_h, uint32_t w, uint32_t h, const DepthwiseConvolutionRunInfo &run_info, const Size2D &dilation)

template<typename T >
void	depthwise_loop_multiplier1_fp (const ITensor src, const ITensor weights, const ITensor biases, ITensor dst, const PadStrideInfo &conv_info, const Size2D &dilation, const Window &window, bool has_biases)

template<typename T >
void	depthwise_loop_generic_fp (const ITensor src, const ITensor weights, const ITensor biases, ITensor dst, const PadStrideInfo &conv_info, const Size2D &dilation, unsigned int depth_multiplier, const Window &window, bool has_biases)

template<typename T , typename TW >
void	run_depthwise_float (const ITensor src, const ITensor weights, const ITensor biases, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

void	neon_qu8_deptwiseconv2dnative (const ITensor src, const ITensor weights, const ITensor bias, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

void	neon_qp8_qu8_deptwiseconv2dnative (const ITensor src, const ITensor weights, const ITensor bias, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

void	neon_qs8_deptwiseconv2dnative (const ITensor src, const ITensor weights, const ITensor bias, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

void	neon_qp8_qs8_deptwiseconv2dnative (const ITensor src, const ITensor weights, const ITensor bias, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

void	neon_fp16_deptwiseconv2dnative (const ITensor src, const ITensor weights, const ITensor bias, ITensor dst, const Window &window, bool has_biases, const ConvolutionInfo &info)

template<ArithmeticOperation op>
void	neon_fp32_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	neon_fp32_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_fp32_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op, typename VectorType >
VectorType::type	elementwise_arithm_op (const typename VectorType::type &a, const typename VectorType::type &b)

template<ArithmeticOperation op, typename ScalarType , typename VectorType >
VectorType::type	elementwise_arithm_op_broadcast (const typename VectorType::type &a, const ScalarType &broadcast_value, const bool reorder)

template<typename InputScalarType , typename OutputScalarType , typename InputVectorType >
void	elementwise_op (const ITensor in1, const ITensor in2, ITensor out, const Window &window, OutputScalarType(scalar_func)(const InputScalarType &, const InputScalarType &), int(broadcast_func)(int, int, int, const InputScalarType , const InputScalarType &, OutputScalarType , const bool), int(neon_func)(int, int, int, const InputScalarType , const InputScalarType , OutputScalarType *))

template<ArithmeticOperation op, typename ScalarType >
ScalarType	elementwise_arithm_op_scalar (const ScalarType &a, const ScalarType &b)

template<>
int32x4_t	elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< int32_t, 4 > > (const int32x4_t &a, const int32x4_t &b)

template<>
float32x4_t	elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< float, 4 > > (const float32x4_t &a, const float32x4_t &b)

template<>
float32x4_t	elementwise_arithm_op< ArithmeticOperation::POWER, typename wrapper::traits::neon_vector< float, 4 > > (const float32x4_t &a, const float32x4_t &b)

template<ArithmeticOperation op, typename ScalarType , typename VectorType >
int	elementwise_arithm_op_loop (int window_start_x, int window_end_x, int window_step_x, const ScalarType input1_ptr, const ScalarType input2_ptr, ScalarType *output_ptr)

template<ArithmeticOperation op, typename ScalarType , typename VectorType >
int	elementwise_arithm_op_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const ScalarType non_broadcast_input_ptr, const ScalarType &broadcast_value, ScalarType output_ptr, const bool reorder)

template<ArithmeticOperation op, typename VectorType >
void	elementwise_arithm_op (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op, typename InputScalarType >
uint8_t	elementwise_comp_op_scalar (const InputScalarType &a, const InputScalarType &b)

template<ComparisonOperation op, typename InputVectorType , typename OutputVectorType >
OutputVectorType	elementwise_comp_op (const InputVectorType &a, const InputVectorType &b)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType , typename OutputVectorType >
OutputVectorType	elementwise_comp_op_broadcast (const InputVectorType &a, const InputScalarType &broadcast_value, const bool reorder)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_broadcast_8_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType non_broadcast_input_ptr, const InputScalarType &broadcast_value, uint8_t output_ptr, const bool reorder)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_broadcast_16_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType non_broadcast_input_ptr, const InputScalarType &broadcast_value, uint8_t output_ptr, const bool reorder)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_broadcast_32_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType non_broadcast_input_ptr, const InputScalarType &broadcast_value, uint8_t output_ptr, const bool reorder)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_8_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType input1_ptr, const InputScalarType input2_ptr, uint8_t *output_ptr)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_16_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType input1_ptr, const InputScalarType input2_ptr, uint8_t *output_ptr)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_32_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType input1_ptr, const InputScalarType input2_ptr, uint8_t *output_ptr)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
void	elementwise_comp_op_8 (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
void	elementwise_comp_op_16 (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
void	elementwise_comp_op_32 (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

float32x4x4_t	load_quantized (const uint8_t *input1_ptr, const int32x4_t &offset, const float32x4_t &scale)

float32x4x4_t	load_quantized_signed (const int8_t *input1_ptr, const int32x4_t &offset, const float32x4_t &scale)

void	store_quantized (uint8_t *output_ptr, const uint32x4x4_t &out)

void	store_quantized (uint8_t *output_ptr, const int32x4x4_t &out)

void	store_quantized (uint8_t *output_ptr, const float32x4x4_t &rf, const float32x4_t &offset, const float32x4_t &invscale)

void	store_quantized_signed (int8_t *output_ptr, const int32x4x4_t &out)

void	store_quantized_signed (int8_t *output_ptr, const float32x4x4_t &rf, const float32x4_t &offset, const float32x4_t &invscale)

template<ArithmeticOperation op>
uint8_t	elementwise_arithm_op_quantized_scalar (const float &a, const float &b, UniformQuantizationInfo qinfo)

template<ArithmeticOperation op>
int8_t	elementwise_arithm_op_quantized_signed_scalar (const float &a, const float &b, UniformQuantizationInfo qinfo)

template<ArithmeticOperation op>
float32x4x4_t	elementwise_arithm_op (const float32x4x4_t &a, const float32x4x4_t &b)

template<ComparisonOperation op>
uint8_t	elementwise_comp_op_quantized_scalar (const float &a, const float &b, UniformQuantizationInfo qinfo)

template<ComparisonOperation op>
uint32x4x4_t	elementwise_comp_op (const float32x4x4_t &a, const float32x4x4_t &b)

template<ArithmeticOperation op>
int	elementwise_arithm_op_quantized_loop (int window_start_x, int window_end_x, int window_step_x, const uint8_t input1_ptr, const uint8_t input2_ptr, uint8_t *output_ptr, int32x4_t voffset1, int32x4_t voffset2, float32x4_t vscale1, float32x4_t vscale2, float32x4_t voffseto, float32x4_t invvscaleo)

template<ArithmeticOperation op>
int	elementwise_arithm_op_quantized_singed_loop (int window_start_x, int window_end_x, int window_step_x, const int8_t input1_ptr, const int8_t input2_ptr, int8_t *output_ptr, int32x4_t voffset1, int32x4_t voffset2, float32x4_t vscale1, float32x4_t vscale2, float32x4_t voffseto, float32x4_t invvscaleo)

template<ArithmeticOperation op>
int	elementwise_arithm_op_quantized_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const uint8_t non_broadcast_input_ptr, float32x4x4_t broadcast_vector, uint8_t output_ptr, int32x4_t voffset_non_broadcast, float32x4_t vscale_non_broadcast, float32x4_t voffseto, float32x4_t invvscaleo, bool reorder)

template<ArithmeticOperation op>
int	elementwise_arithm_op_quantized_signed_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const int8_t non_broadcast_input_ptr, float32x4x4_t broadcast_vector, int8_t output_ptr, int32x4_t voffset_non_broadcast, float32x4_t vscale_non_broadcast, float32x4_t voffseto, float32x4_t invvscaleo, bool reorder)

template<ComparisonOperation op>
int	elementwise_comp_op_quantized_loop (int window_start_x, int window_end_x, int window_step_x, const uint8_t input1_ptr, const uint8_t input2_ptr, uint8_t *output_ptr, int32x4_t voffset1, int32x4_t voffset2, float32x4_t vscale1, float32x4_t vscale2, float32x4_t voffseto, float32x4_t invvscaleo)

template<ComparisonOperation op>
int	elementwise_comp_op_quantized_signed_loop (int window_start_x, int window_end_x, int window_step_x, const int8_t input1_ptr, const int8_t input2_ptr, uint8_t *output_ptr, int32x4_t voffset1, int32x4_t voffset2, float32x4_t vscale1, float32x4_t vscale2, float32x4_t voffseto, float32x4_t invvscaleo)

template<ComparisonOperation op>
int	elementwise_comp_op_quantized_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const uint8_t non_broadcast_input_ptr, float32x4x4_t broadcast_vector, uint8_t output_ptr, int32x4_t voffset_non_broadcast, float32x4_t vscale_non_broadcast, float32x4_t voffseto, float32x4_t invvscaleo, bool reorder)

template<ComparisonOperation op>
int	elementwise_comp_op_quantized_signed_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const int8_t non_broadcast_input_ptr, float32x4x4_t broadcast_vector, uint8_t output_ptr, int32x4_t voffset_non_broadcast, float32x4_t vscale_non_broadcast, float32x4_t voffseto, float32x4_t invvscaleo, bool reorder)

void	elementwise_op_quantized (const ITensor in1, const ITensor in2, ITensor out, const Window &window, uint8_t(scalar_func)(const float &, const float &, UniformQuantizationInfo), int(broadcast_func)(int, int, int, const uint8_t , float32x4x4_t, uint8_t , int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool), int(neon_func)(int, int, int, const uint8_t , const uint8_t , uint8_t *, int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t))

void	elementwise_comp_quantized_signed (const ITensor in1, const ITensor in2, ITensor out, const Window &window, uint8_t(scalar_func)(const float &, const float &, UniformQuantizationInfo), int(broadcast_func)(int, int, int, const int8_t , float32x4x4_t, uint8_t , int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool), int(neon_func)(int, int, int, const int8_t , const int8_t , uint8_t *, int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t))

void	elementwise_op_quantized_signed (const ITensor in1, const ITensor in2, ITensor out, const Window &window, int8_t(scalar_func)(const float &, const float &, UniformQuantizationInfo), int(broadcast_func)(int, int, int, const int8_t , float32x4x4_t, int8_t , int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool), int(neon_func)(int, int, int, const int8_t , const int8_t , int8_t *, int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t))

template<ArithmeticOperation op>
void	elementwise_arithm_op_quantized (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	elementwise_arithm_op_quantized_signed (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	elementwise_comp_op_quantized (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	elementwise_comp_op_quantized_signed (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	neon_s32_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	neon_s16_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	neon_u8_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_u8_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_u8_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_u8_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_u8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_u8_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_u8_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	neon_s16_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s16_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	neon_s32_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_s32_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	neon_qasymm8_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	neon_qasymm8_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	neon_qasymm8_signed_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	neon_qasymm8_signed_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	sve_fp32_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	sve_fp32_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_fp32_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<typename ScalarType >
void	elementwise_arithmetic_op (const ITensor in1, const ITensor in2, ITensor *out, ArithmeticOperation op, const Window &window)

template void	elementwise_arithmetic_op< float32_t > (const ITensor in1, const ITensor in2, ITensor *out, const ArithmeticOperation op, const Window &window)

template void	elementwise_arithmetic_op< float16_t > (const ITensor in1, const ITensor in2, ITensor *out, const ArithmeticOperation op, const Window &window)

template void	elementwise_arithmetic_op< int16_t > (const ITensor in1, const ITensor in2, ITensor *out, const ArithmeticOperation op, const Window &window)

template void	elementwise_arithmetic_op< int32_t > (const ITensor in1, const ITensor in2, ITensor *out, const ArithmeticOperation op, const Window &window)

template<typename InputScalarType , typename OutputScalarType >
void	elementwise_comparison_op (const ITensor in1, const ITensor in2, ITensor *out, ComparisonOperation op, const Window &window)

template void	elementwise_comparison_op< float32_t > (const ITensor in1, const ITensor in2, ITensor *out, const ComparisonOperation op, const Window &window)

template void	elementwise_comparison_op< float16_t > (const ITensor in1, const ITensor in2, ITensor *out, const ComparisonOperation op, const Window &window)

template void	elementwise_comparison_op< uint8_t > (const ITensor in1, const ITensor in2, ITensor *out, const ComparisonOperation op, const Window &window)

template void	elementwise_comparison_op< int16_t > (const ITensor in1, const ITensor in2, ITensor *out, const ComparisonOperation op, const Window &window)

template void	elementwise_comparison_op< int32_t > (const ITensor in1, const ITensor in2, ITensor *out, const ComparisonOperation op, const Window &window)

template<>
svint32_t	elementwise_pow< svint32_t > (svbool_t &pg, const svint32_t &a, const svint32_t &b)

template<>
svint32_t	elementwise_div< svint32_t > (svbool_t &pg, const svint32_t &a, const svint32_t &b)

template<>
svint16_t	elementwise_div< svint16_t > (svbool_t &pg, const svint16_t &a, const svint16_t &b)

template<typename VectorType >
VectorType	elementwise_pow (svbool_t &pg, const VectorType &a, const VectorType &b)

template<typename VectorType >
VectorType	elementwise_div (svbool_t &pg, const VectorType &a, const VectorType &b)

template<uint32_t bytewidth>
svbool_t	narrow_to_byte_predicate (svbool_t pg)

template<typename VectorType >
VectorType	elementwise_arithmetic_op (svbool_t &pg, const VectorType &a, const VectorType &b, ArithmeticOperation op)

template<typename InputVectorType , typename OutputVectorType >
OutputVectorType	elementwise_comparison_op (svbool_t &pg, const InputVectorType &a, const InputVectorType &b, ComparisonOperation op)

template<ArithmeticOperation op>
void	sve_s32_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	sve_s16_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	sve_u8_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_u8_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_u8_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_u8_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_u8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_u8_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_u8_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	sve_s16_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s16_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	sve_s32_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve_s32_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

svfloat32x4_t	load_quantized (const int8_t *ptr, svbool_t pg, const svint32_t &offset, const svfloat32_t &scale)

svfloat32x4_t	load_quantized (const uint8_t *ptr, svbool_t pg, const svint32_t &offset, const svfloat32_t &scale)

void	store_quantized (uint8_t *ptr, svbool_t pg, svfloat32x4_t data, const svint32_t &offset, const svfloat32_t &inv_scale)

void	store_quantized (int8_t *ptr, svbool_t pg, svfloat32x4_t data, const svint32_t &offset, const svfloat32_t &inv_scale)

template<typename ScalarType >
void	elementwise_arithmetic_quantized_op (const ITensor in1, const ITensor in2, ITensor *out, ArithmeticOperation op, const Window &window)

template<typename InputScalarType , typename OutputScalarType = uint8_t>
void	elementwise_comparison_quantized_op (const ITensor in1, const ITensor in2, ITensor *out, ComparisonOperation op, const Window &window)

template<ArithmeticOperation op>
void	sve2_qasymm8_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	sve2_qasymm8_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	sve2_qasymm8_signed_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::ADD > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::SUB > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::DIV > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::MIN > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::MAX > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::SQUARED_DIFF > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::POWER > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::PRELU > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	sve2_qasymm8_signed_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Equal > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::NotEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Greater > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::GreaterEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Less > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template void	sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::LessEqual > (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	sve_fp16_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	neon_fp16_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	sve_fp16_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	neon_fp16_comparison_elementwise_binary (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

void	neon_fp32_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

template<typename ScalarType >
ScalarType	elementwise_op_scalar_imp (ElementWiseUnary op, const ScalarType &a)

template<typename ScalarType , typename VectorType >
VectorType	elementwise_op_imp (ElementWiseUnary op, const VectorType &a)

template<typename ScalarType >
void	elementwise_op (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op)

template<>
void	elementwise_op< int8_t > (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op)

template<>
void	elementwise_op< uint8_t > (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op)

void	neon_s32_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

void	neon_qasymm8_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

void	neon_qasymm8_signed_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

void	sve_fp32_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

template<typename ScalarType , typename VectorType >
std::enable_if< utils::traits::is_floating_point< ScalarType >::value, VectorType >::type	elementwise_op_sve_imp (svbool_t pg, ElementWiseUnary op, const VectorType &a)

template<typename ScalarType , typename VectorType >
std::enable_if< std::is_integral< ScalarType >::value, VectorType >::type	elementwise_op_sve_imp (svbool_t pg, ElementWiseUnary op, const VectorType &a)

template<typename ScalarType >
void	elementwise_sve_op (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op)

template void	elementwise_sve_op< float16_t > (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op)

template void	elementwise_sve_op< float32_t > (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op)

template void	elementwise_sve_op< int32_t > (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op)

void	sve_s32_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

void	sve2_q8_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

void	sve_fp16_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

void	neon_fp16_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

void	neon_q8_elementwise_unary (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op, const uint8_t *lut)

void	fp16_neon_floor (const void src, void dst, int len)

void	fp32_neon_floor (const void src, void dst, int len)

void	fused_batch_normalization_conv_f32 (const ITensor conv_weights, const ITensor conv_bias, ITensor fused_weights, ITensor fused_bias, const ITensor bn_mean, const ITensor bn_var, const ITensor bn_beta, const ITensor bn_gamma, float epsilon, const Window &window)

template<typename T , bool fused_activation, typename F >
void	batch_normalization_nchw (const Window &window, ITensor in, ITensor out, const ITensor in_mean, const ITensor in_var, const ITensor in_beta, const ITensor in_gamma, float epsilon, ActivationLayerInfo act_info)

template<typename T >
void	fused_batch_normalization_conv (const ITensor conv_weights, const ITensor conv_bias, ITensor fused_weights, ITensor fused_bias, const ITensor bn_mean, const ITensor bn_var, const ITensor bn_beta, const ITensor bn_gamma, float epsilon, const Window &window)

template<typename T >
void	fused_batch_normalization_dwc_nchw (const ITensor dwc_weights, const ITensor dwc_bias, ITensor fused_weights, ITensor fused_bias, const ITensor bn_mean, const ITensor bn_var, const ITensor bn_beta, const ITensor bn_gamma, float epsilon, const Window &window)

void	fused_batch_normalization_conv_f16 (const ITensor conv_weights, const ITensor conv_bias, ITensor fused_weights, ITensor fused_bias, const ITensor bn_mean, const ITensor bn_var, const ITensor bn_beta, const ITensor bn_gamma, float epsilon, const Window &window)

void	fused_batch_normalization_dwc_nhwc_f16 (const ITensor dwc_weights, const ITensor dwc_bias, ITensor fused_weights, ITensor fused_bias, const ITensor bn_mean, const ITensor bn_var, const ITensor bn_beta, const ITensor bn_gamma, float epsilon, const Window &window)

void	fused_batch_normalization_dwc_nhwc_f32 (const ITensor dwc_weights, const ITensor dwc_bias, ITensor fused_weights, ITensor fused_bias, const ITensor bn_mean, const ITensor bn_var, const ITensor bn_beta, const ITensor bn_gamma, float epsilon, const Window &window)

void	fused_batch_normalization_dwc_nchw_f16 (const ITensor dwc_weights, const ITensor dwc_bias, ITensor fused_weights, ITensor fused_bias, const ITensor bn_mean, const ITensor bn_var, const ITensor bn_beta, const ITensor bn_gamma, float epsilon, const Window &window)

void	fused_batch_normalization_dwc_nchw_f32 (const ITensor dwc_weights, const ITensor dwc_bias, ITensor fused_weights, ITensor fused_bias, const ITensor bn_mean, const ITensor bn_var, const ITensor bn_beta, const ITensor bn_gamma, float epsilon, const Window &window)

template<typename T >
void	fused_batch_normalization_dwc_nhwc (const ITensor dwc_weights, const ITensor dwc_bias, ITensor fused_weights, ITensor fused_bias, const ITensor bn_mean, const ITensor bn_var, const ITensor bn_beta, const ITensor bn_gamma, float epsilon, const Window &window)

void	neon_fp32_gemm_matrix_add (const ITensor src, ITensor dst, const Window &window, float beta)

void	matrix_addition_f32 (const ITensor src, ITensor dst, const Window &window, float beta)

void	neon_fp16_gemm_matrix_add (const ITensor src, ITensor dst, const Window &window, float beta)

void	neon_fp32_gemm_matrix_mul (const ITensor lhs, const ITensor rhs, ITensor *dst, const Window &window, const ThreadInfo &info, float alpha, const bool is_dst_vector)

void	vector_matrix_multiply_f32 (const ITensor lhs, const ITensor rhs, ITensor *dst, const Window &window, const ThreadInfo &info, float alpha)

void	matrix_matrix_multiply_f32 (const ITensor lhs, const ITensor rhs, ITensor *dst, const Window &window, const ThreadInfo &info, float alpha)

void	neon_fp16_gemm_matrix_mul (const ITensor lhs, const ITensor rhs, ITensor *dst, const Window &window, const ThreadInfo &info, float alpha, const bool is_dst_vector)

void	neon_fp32_computeallanchors (const ITensor anchors, ITensor all_anchors, ComputeAnchorsInfo anchors_info, const Window &window)

void	compute_all_anchors_qasymm16 (const ITensor anchors, ITensor all_anchors, ComputeAnchorsInfo anchors_info, const Window &window)

template<typename T >
void	compute_all_anchors (const ITensor anchors, ITensor all_anchors, ComputeAnchorsInfo anchors_info, const Window &window)

void	neon_qu16_computeallanchors (const ITensor anchors, ITensor all_anchors, ComputeAnchorsInfo anchors_info, const Window &window)

void	neon_fp16_computeallanchors (const ITensor anchors, ITensor all_anchors, ComputeAnchorsInfo anchors_info, const Window &window)

void	neon_fp32_instancenorm (ITensor input, ITensor output, float gamma, float beta, float epsilon, bool use_mixed_precision, const Window &window)

template<typename InputType , typename AccType >
void	vector_float_sum (AccType &result, AccType &result_square, const InputType &inputs)

template<typename InputType , typename AccType >
InputType	vector_float_norm (const InputType &inputs, const AccType &vec_mean, const AccType &vec_multip, const AccType &vec_beta)

template<typename T , typename AccType >
void	instance_normalization_nchw (ITensor input, ITensor output, float gamma, float beta, float epsilon, const Window &window)

template void	instance_normalization_nchw< float > (ITensor input, ITensor output, float gamma, float beta, float epsilon, const Window &window)

void	neon_fp16_instancenorm (ITensor input, ITensor output, float gamma, float beta, float epsilon, bool use_mixed_precision, const Window &window)

void	neon_fp32_l2_normalize_x (const ITensor in, const ITensor sum, ITensor *out, float epsilon, const Window &window, size_t unused_axis)

void	neon_fp32_l2_normalize_yz (const ITensor in, const ITensor sum, ITensor *out, float epsilon, const Window &window, size_t axis)

template<typename T , int S>
void	l2_normalize_x (const ITensor in, const ITensor sum, ITensor *out, float epsilon, const Window &window)

template<typename T , int S>
void	l2_normalize_yz (const ITensor in, const ITensor sum, ITensor *out, float epsilon, const Window &window, size_t axis)

void	neon_fp16_l2_normalize_x (const ITensor in, const ITensor sum, ITensor *out, float epsilon, const Window &window, size_t axis)

void	neon_fp16_l2_normalize_yz (const ITensor in, const ITensor sum, ITensor *out, float epsilon, const Window &window, size_t axis)

void	neon_fp32_maxunpooling (const ITensor input, const ITensor indices, ITensor *output, const Window &window)

template<typename T >
void	max_unpooling (const ITensor input, const ITensor indices, ITensor *output, const Window &window)

void	neon_qs8_maxunpooling (const ITensor input, const ITensor indices, ITensor *output, const Window &window)

void	neon_qu8_maxunpooling (const ITensor input, const ITensor indices, ITensor *output, const Window &window)

void	neon_fp16_maxunpooling (const ITensor input, const ITensor indices, ITensor *output, const Window &window)

void	neon_fp32_meanstddevnorm (ITensor input, ITensor output, float epsilon, const Window &window)

template<typename ScalarType , int size>
void	mean_stddev_normalization (ITensor input, ITensor output, float epsilon, const Window &window)

template void	mean_stddev_normalization< float, 4 > (ITensor input, ITensor output, float epsilon, const Window &window)

void	neon_qasymm8_meanstddevnorm (ITensor input, ITensor output, float epsilon, const Window &window)

void	neon_fp16_meanstddevnorm (ITensor input, ITensor output, float epsilon, const Window &window)

void	mul_F32_F32_F32 (const ITensor src1, const ITensor src2, ITensor *out, const Window &window, float scale)

void	mul_F16_F16_F16 (const ITensor src1, const ITensor src2, ITensor *out, const Window &window, float scale)

void	neon_normalize_float32_4_0_2D (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	neon_normalize_float32_4_0 (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	neon_normalize_float32_4_1_2D (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	neon_normalize_float32_4_1 (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	neon_normalize_float32_4_2 (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	neon_normalize_float16_8_0_2D (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	neon_normalize_float16_8_0 (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	neon_normalize_float16_8_1_2D (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	neon_normalize_float16_8_1 (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	neon_normalize_float16_8_2 (const Window &window, const ITensor in, const ITensor in_squared, ITensor *out, NormalizationLayerInfo ninfo)

void	poolingMxN_fp32_neon_nhwc_kernel_indices (const ITensor src, ITensor dst0, ITensor *dst1, const PoolingLayerInfo &pool_info, const Window &window)

void	poolingMxN_fp32_neon_nhwc (const ITensor src, ITensor dst0, ITensor *dst1, PoolingLayerInfo &pool_info, const Window &window_src, const Window &window)

void	poolingMxN_qasymm8_neon_nhwc (const ITensor src0, ITensor dst0, ITensor *dst1, PoolingLayerInfo &, const Window &window_src, const Window &window)

void	poolingMxN_qasymm8_signed_neon_nhwc (const ITensor src0, ITensor dst0, ITensor *dst1, PoolingLayerInfo &, const Window &window_src, const Window &window)

void	poolingMxN_fp16_neon_nhwc (const ITensor src0, ITensor dst0, ITensor *dst1, PoolingLayerInfo &, const Window &window_src, const Window &window)

template<typename T >
T	get_initial_min (bool use_inf_as_limit)

template<typename T >
uint32_t	offset_no_padding (uint32_t padded_offset, const Coordinates &id, const ITensorInfo &info, int pool_stride_x, int pool_stride_y, DataLayout data_layout)

template<typename T >
void	poolingMxN_q8_neon_nhwc (const ITensor src, ITensor dst0, ITensor *dst1, PoolingLayerInfo &pool_info, const Window &window_src, const Window &window)

void	neon_q8_pool3d (const ITensor src0, ITensor dst0, Pooling3dLayerInfo &, const Window &window)

void	neon_q8_signed_pool3d (const ITensor src0, ITensor dst0, Pooling3dLayerInfo &, const Window &window)

void	neon_fp16_pool3d (const ITensor src0, ITensor dst0, Pooling3dLayerInfo &, const Window &window)

void	neon_fp32_pool3d (const ITensor src0, ITensor dst0, Pooling3dLayerInfo &, const Window &window)

template<typename T >
void	poolingMxNxD_fp_neon_ndhwc (const ITensor src, ITensor dst0, Pooling3dLayerInfo &pool_info, const Window &window)

template<typename T >
void	poolingMxNxD_q8_neon_ndhwc (const ITensor src, ITensor dst0, Pooling3dLayerInfo &pool_info, const Window &window)

template<typename T >
void	avg_poolingMxNxD_q8_neon_ndhwc (const ITensor src, ITensor dst0, Pooling3dLayerInfo &pool_info, const Window &window_out, const int window_step_x)

template<typename T >
void	max_poolingMxNxD_q8_neon_ndhwc (const ITensor src, ITensor dst0, Pooling3dLayerInfo &pool_info, const Window &window_out, const int window_step_x)

void	fp32_neon_range_function (ITensor *output, float start, float step, const Window &window)

template<typename T >
void	neon_range_function (ITensor *output, float start, float step, const Window &window)

void	u8_neon_range_function (ITensor *output, float start, float step, const Window &window)

void	u16_neon_range_function (ITensor *output, float start, float step, const Window &window)

void	u32_neon_range_function (ITensor *output, float start, float step, const Window &window)

void	s8_neon_range_function (ITensor *output, float start, float step, const Window &window)

void	s16_neon_range_function (ITensor *output, float start, float step, const Window &window)

void	s32_neon_range_function (ITensor *output, float start, float step, const Window &window)

void	fp16_neon_range_function (ITensor *output, float start, float step, const Window &window)

void	neon_fp32_roialign (const ITensor input, ITensor output, const ITensor *rois, ROIPoolingLayerInfo pool_info, const Window &window, const ThreadInfo &info)

template<typename input_data_type >
input_data_type	roi_align_1x1 (const ITensor *input, unsigned int roi_batch, float region_start_x, float bin_size_x, int grid_size_x, float region_end_x, float region_start_y, float bin_size_y, int grid_size_y, float region_end_y, int pz)
	Average pooling over an aligned window. More...

template<typename input_data_type >
input_data_type	roi_align_1x1_qasymm8 (const ITensor *input, unsigned int roi_batch, float region_start_x, float bin_size_x, int grid_size_x, float region_end_x, float region_start_y, float bin_size_y, int grid_size_y, float region_end_y, int pz, const QuantizationInfo &out_qinfo)
	Average pooling over an aligned window. More...

float	compute_region_coordinate (int p, float bin_size, float roi_anchor, float max_value)

template<typename input_data_type , typename roi_data_type >
void	roi_align (const ITensor input, ITensor output, const ITensor *rois, ROIPoolingLayerInfo pool_info, const Window &window, const ThreadInfo &info)

void	neon_qu8_roialign (const ITensor input, ITensor output, const ITensor *rois, ROIPoolingLayerInfo pool_info, const Window &window, const ThreadInfo &info)

void	neon_qs8_roialign (const ITensor input, ITensor output, const ITensor *rois, ROIPoolingLayerInfo pool_info, const Window &window, const ThreadInfo &info)

void	neon_fp16_roialign (const ITensor input, ITensor output, const ITensor *rois, ROIPoolingLayerInfo pool_info, const Window &window, const ThreadInfo &info)

void	s8_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	u8_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	s16_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	qasymm8_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	qasymm8_signed_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	fp16_common_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	fp16_bilinear_neon_scale_nchw (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	fp16_nearest_neon_scale_nchw (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

template<typename T >
void	nearest_neon_scale (const ITensor src, ITensor dst, const ITensor *offsets, float sampling_offset, bool align_corners, const Window &window)

template<typename T >
void	bilinear_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

template<typename T >
void	common_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	fp32_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	u8_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	s16_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	fp16_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	qasymm8_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	qasymm8_signed_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	neon_f32_select_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_f32_select_not_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

template<typename ScalarType , typename VectorType >
void	select_op (const ITensor cond, const ITensor in1, const ITensor in2, ITensor out, const Window &window, const int window_step_x, const int window_start_x, const int window_end_x, const int limit, VectorType(condition_conversion)(const uint8_t ))

template<typename ScalarType , typename VectorType >
void	select_op_8 (const ITensor cond, const ITensor in1, const ITensor in2, ITensor out, const Window &window)

template<typename ScalarType , typename VectorType >
void	select_op_16 (const ITensor cond, const ITensor in1, const ITensor in2, ITensor out, const Window &window)

template<typename ScalarType , typename VectorType >
void	select_op_32 (const ITensor cond, const ITensor in1, const ITensor in2, ITensor out, const Window &window)

template<typename ScalarType >
void	select_op_not_same_rank (const ITensor cond, const ITensor in1, const ITensor in2, ITensor out, const Window &window)

void	neon_s8_select_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_s16_select_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_s32_select_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_s8_select_not_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_s16_select_not_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_s32_select_not_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_u8_select_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_u16_select_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_u32_select_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_u8_select_not_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_u16_select_not_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_u32_select_not_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_f16_select_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

void	neon_f16_select_not_same_rank (const ITensor c, const ITensor x, const ITensor y, ITensor output, const Window &window)

template<bool IS_LOG>
void	neon_fp32_softmax (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template void	neon_fp32_softmax< true > (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template void	neon_fp32_softmax< false > (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template<typename T , bool IS_LOG>
void	neon_softmax_quantized (const ITensor in, void const tmp, ITensor *out, float beta, const Window &window)

template void	neon_softmax_quantized< qasymm8_signed_t, true > (const ITensor in, void const tmp, ITensor *out, float beta, const Window &window)

template void	neon_softmax_quantized< qasymm8_signed_t, false > (const ITensor in, void const tmp, ITensor *out, float beta, const Window &window)

template void	neon_softmax_quantized< qasymm8_t, true > (const ITensor in, void const tmp, ITensor *out, float beta, const Window &window)

template void	neon_softmax_quantized< qasymm8_t, false > (const ITensor in, void const tmp, ITensor *out, float beta, const Window &window)

template<typename T , bool IS_LOG>
void	neon_softmax_float (const ITensor in, void const tmp, ITensor *out, float beta, const Window &window)

template<bool IS_LOG>
void	neon_qasymm8_softmax (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template void	neon_qasymm8_softmax< true > (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template void	neon_qasymm8_softmax< false > (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template<bool IS_LOG>
void	neon_qasymm8_signed_softmax (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template void	neon_qasymm8_signed_softmax< true > (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template void	neon_qasymm8_signed_softmax< false > (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template<typename ScalarType >
void	sve_logits_1d_max (const ITensor in, ITensor out, const Window &window)
	TODO: (COMPMID-6505) Similar to Neon(TM), this implementation be converted to a single kernel that performs softmax operation. More...

template<typename ScalarType >
void	sve_softmax_logits_1d_float (const ITensor in, const ITensor max, void const tmp, ITensor out, const float beta, bool is_log, const Window &window)

template<typename ScalarType >
void	sve2_softmax_logits_1d_quantized (const ITensor in, const ITensor max, void const tmp, ITensor out, float beta, bool is_log, const Window &window)
	TODO: (COMPMID-6505) Similar to Neon(TM), this implementation be converted to a single kernel that performs softmax operation. More...

template<bool IS_LOG>
void	neon_fp16_softmax (const ITensor in, void const tmp, ITensor *out, const float beta, const Window &window)

template<typename T >
void	sub_same_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_qasymm8_neon_fixedpoint (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_qasymm8_signed_neon_fixedpoint (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_qasymm8_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_qasymm8_signed_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_qsymm16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_same_neon_fp16 (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

Variables
constexpr auto	data_layout = DataLayout::NHWC

const size_t	width_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::WIDTH)

const size_t	height_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::HEIGHT)

const size_t	channel_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::CHANNEL)

constexpr auto	dim_manual_loop = Window::Dimension(0, 0, 0)

constexpr auto	dim_single_unit_step = Window::Dimension(0, 1, 1)

constexpr size_t	vector_size = 8

constexpr int	step = 4

Typedef Documentation

◆ CpuElementwiseMax

using CpuElementwiseMax = CpuElementwiseArithmetic<ArithmeticOperation::MAX>

Class to run cpu::kernels::CpuArithmeticKernel except for maximum operation.

Definition at line 65 of file CpuElementwise.h.

◆ CpuElementwiseMin

using CpuElementwiseMin = CpuElementwiseArithmetic<ArithmeticOperation::MIN>

Class to run cpu::kernels::CpuArithmeticKernel except for minimum operation.

Definition at line 67 of file CpuElementwise.h.

◆ CpuElementwiseSquaredDiff

using CpuElementwiseSquaredDiff = CpuElementwiseArithmetic<ArithmeticOperation::SQUARED_DIFF>

Class to run cpu::kernels::CpuArithmeticKernel except for squared difference operation.

Definition at line 69 of file CpuElementwise.h.

◆ CpuPRelu

using CpuPRelu = CpuElementwiseArithmetic<ArithmeticOperation::PRELU>

Class to run cpu::kernels::CpuArithmeticKernel except for PRelu operation.

Definition at line 34 of file CpuPRelu.h.

◆ ICpuOperator

using ICpuOperator = experimental::INEOperator

Definition at line 33 of file ICpuOperator.h.

◆ KernelType

using KernelType = kernels::CpuElementwiseUnaryKernel

Definition at line 34 of file CpuElementwiseUnary.cpp.

◆ NEEqual

using NEEqual = CpuElementwiseComparisonStatic<ComparisonOperation::Equal>

Basic function to run equal comparison.

Definition at line 172 of file CpuElementwise.h.

◆ NEGreater

using NEGreater = CpuElementwiseComparisonStatic<ComparisonOperation::Greater>

Basic function to run greater comparison.

Definition at line 176 of file CpuElementwise.h.

◆ NEGreaterEqual

using NEGreaterEqual = CpuElementwiseComparisonStatic<ComparisonOperation::GreaterEqual>

Basic function to run greater-equal comparison.

Definition at line 178 of file CpuElementwise.h.

◆ NELess

using NELess = CpuElementwiseComparisonStatic<ComparisonOperation::Less>

Basic function to run less comparison.

Definition at line 180 of file CpuElementwise.h.

◆ NELessEqual

using NELessEqual = CpuElementwiseComparisonStatic<ComparisonOperation::LessEqual>

Basic function to run less-equal comparison.

Definition at line 182 of file CpuElementwise.h.

◆ NENotEqual

using NENotEqual = CpuElementwiseComparisonStatic<ComparisonOperation::NotEqual>

Basic function to run not equal comparison.

Definition at line 174 of file CpuElementwise.h.

Enumeration Type Documentation

◆ AsmConvMethod

enum AsmConvMethod

strong

Enumerator
Im2Col
Indirect
Conv

Definition at line 37 of file CpuGemmAssemblyDispatch.h.

 {
     Im2Col,
     Indirect,
     Conv
 };

◆ KernelSelectionType

enum KernelSelectionType

strong

Enumerator
Preferred	Retrieve the best implementation available for the given Cpu ISA, ignoring the build flags.
Supported	Retrieve the best implementation available for the given Cpu ISA that is supported by the current build.

Definition at line 35 of file ICpuKernel.h.

 {
     Preferred, /**< Retrieve the best implementation available for the given Cpu ISA, ignoring the build flags */
     Supported /**< Retrieve the best implementation available for the given Cpu ISA that is supported by the current build */
 };

Function Documentation

◆ add_fp16_neon()

void arm_compute::cpu::add_fp16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

◆ add_fp16_sve()

void arm_compute::cpu::add_fp16_sve	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

◆ add_fp32_neon()

void add_fp32_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 31 of file fp32.cpp.

 {
     return add_same_neon<float>(src0, src1, dst, policy, window);
 }

References arm_compute::test::validation::dst.

Referenced by CpuAddKernel::get_mws().

◆ add_fp32_sve()

void add_fp32_sve	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 34 of file fp32.cpp.

 {
     return add_same_sve<float>(src0, src1, dst, policy, window);
 }

References add_same_sve< float >(), and arm_compute::test::validation::dst.

◆ add_mul_add_fp16_neon()

void arm_compute::cpu::add_mul_add_fp16_neon	(	const ITensor *	input1,
		const ITensor *	input2,
		const ITensor *	bn_mul,
		const ITensor *	bn_add,
		ITensor *	add_output,
		ITensor *	final_output,
		ConvertPolicy	policy,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ add_mul_add_fp32_neon()

void arm_compute::cpu::add_mul_add_fp32_neon	(	const ITensor *	input1,
		const ITensor *	input2,
		const ITensor *	bn_mul,
		const ITensor *	bn_add,
		ITensor *	add_output,
		ITensor *	final_output,
		ConvertPolicy	policy,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ add_mul_add_s8_neon()

void arm_compute::cpu::add_mul_add_s8_neon	(	const ITensor *	input1,
		const ITensor *	input2,
		const ITensor *	bn_mul,
		const ITensor *	bn_add,
		ITensor *	add_output,
		ITensor *	final_output,
		ConvertPolicy	policy,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ add_mul_add_u8_neon()

void arm_compute::cpu::add_mul_add_u8_neon	(	const ITensor *	input1,
		const ITensor *	input2,
		const ITensor *	bn_mul,
		const ITensor *	bn_add,
		ITensor *	add_output,
		ITensor *	final_output,
		ConvertPolicy	policy,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ add_q8_neon_fixedpoint()

void add_q8_neon_fixedpoint	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 78 of file impl.cpp.

 {
     add_sub_q8_neon_fixedpoint<ScalarType>(src0, src1, dst, policy, window, true /*is_addition*/);
 }

References arm_compute::test::validation::dst.

◆ add_q8_neon_fixedpoint< int8_t >()

template void arm_compute::cpu::add_q8_neon_fixedpoint< int8_t >	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

◆ add_q8_neon_fixedpoint< uint8_t >()

template void arm_compute::cpu::add_q8_neon_fixedpoint< uint8_t >	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

◆ add_q8_neon_fixedpoint_possible()

bool add_q8_neon_fixedpoint_possible	(	const ITensorInfo *	src0,
		const ITensorInfo *	src1,
		const ITensorInfo *	dst
	)

Definition at line 40 of file impl.cpp.

 {
     return add_sub_q8_neon_fixedpoint_possible(src0, src1, dst, true);
 }

References add_sub_q8_neon_fixedpoint_possible(), and arm_compute::test::validation::dst.

Referenced by CpuAddKernel::configure().

◆ add_qasymm8_neon()

void add_qasymm8_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 33 of file qasymm8.cpp.

 {
     add_sub_qasymm8_neon(src0, src1, dst, policy, window, true /*is_addition*/);
 }

References add_sub_qasymm8_neon(), and arm_compute::test::validation::dst.

◆ add_qasymm8_signed_neon()

void add_qasymm8_signed_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 33 of file qasymm8_signed.cpp.

 {
     add_sub_qasymm8_signed_neon(src0, src1, dst, policy, window, true /*is_addition*/);
 }

References add_sub_qasymm8_signed_neon(), and arm_compute::test::validation::dst.

◆ add_qasymm8_signed_sve2()

void add_qasymm8_signed_sve2	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 39 of file qasymm8_signed.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
  
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
  
     const auto invvscaleo = svdup_n_f32(1.f / oq_info.scale);
     const auto voffseto   = svdup_n_f32(oq_info.offset);
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
         const auto     all_true_pg          = svptrue_b8();
  
         const auto vscale1  = is_broadcast_input_2 ? svdup_n_f32(iq1_info.scale) : svdup_n_f32(iq2_info.scale);
         const auto vscale2  = is_broadcast_input_2 ? svdup_n_f32(iq2_info.scale) : svdup_n_f32(iq1_info.scale);
         const auto voffset1 = is_broadcast_input_2 ? svdup_n_s32(iq1_info.offset) : svdup_n_s32(iq2_info.offset);
         const auto voffset2 = is_broadcast_input_2 ? svdup_n_s32(iq2_info.offset) : svdup_n_s32(iq1_info.offset);
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const int8_t *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<int8_t *>(output.ptr());
  
                 const int8_t broadcast_value     = *reinterpret_cast<const int8_t *>(broadcast_input.ptr());
                 const auto   broadcast_value_vec = svdup_n_s8(broadcast_value);
  
                 int        x    = window_start_x;
                 svbool_t   pg   = svwhilelt_b8(x, window_end_x);
                 const auto bf_0 = svmul_f32_z(
                     pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlb_s32(svmovlb_s16(broadcast_value_vec)), voffset2)),
                     vscale2);
                 const auto bf_1 = svmul_f32_z(
                     pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlt_s32(svmovlb_s16(broadcast_value_vec)), voffset2)),
                     vscale2);
                 const auto bf_2 = svmul_f32_z(
                     pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlb_s32(svmovlt_s16(broadcast_value_vec)), voffset2)),
                     vscale2);
                 const auto bf_3 = svmul_f32_z(
                     pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlt_s32(svmovlt_s16(broadcast_value_vec)), voffset2)),
                     vscale2);
  
                 do
                 {
                     const auto a    = svld1_s8(pg, non_broadcast_input_ptr + x);
                     const auto af_0 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlb_s32(svmovlb_s16(a)), voffset1)), vscale1);
                     const auto af_1 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlt_s32(svmovlb_s16(a)), voffset1)), vscale1);
                     const auto af_2 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlb_s32(svmovlt_s16(a)), voffset1)), vscale1);
                     const auto af_3 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlt_s32(svmovlt_s16(a)), voffset1)), vscale1);
  
                     const auto rf_0 =
                         svcvt_s32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_0, bf_0), invvscaleo));
                     const auto rf_1 =
                         svcvt_s32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_1, bf_1), invvscaleo));
                     const auto rf_2 =
                         svcvt_s32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_2, bf_2), invvscaleo));
                     const auto rf_3 =
                         svcvt_s32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_3, bf_3), invvscaleo));
  
                     const auto pa  = svqxtnt_s32(svqxtnb_s32(rf_0), rf_1);
                     const auto pb  = svqxtnt_s32(svqxtnb_s32(rf_2), rf_3);
                     const auto res = svqxtnt_s16(svqxtnb_s16(pa), pb);
  
                     svst1_s8(pg, output_ptr + x, res);
  
                     x += svcntb();
                     pg = svwhilelt_b8(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         const auto vscale1  = svdup_n_f32(iq1_info.scale);
         const auto vscale2  = svdup_n_f32(iq2_info.scale);
         const auto voffset1 = svdup_n_s32(iq1_info.offset);
         const auto voffset2 = svdup_n_s32(iq2_info.offset);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const int8_t *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const int8_t *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<int8_t *>(output.ptr());
  
                 int      x  = window_start_x;
                 svbool_t pg = svwhilelt_b8(x, window_end_x);
                 do
                 {
                     const auto a = svld1_s8(pg, input1_ptr + x);
                     const auto b = svld1_s8(pg, input2_ptr + x);
  
                     const auto af_0 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlb_s32(svmovlb_s16(a)), voffset1)), vscale1);
                     const auto af_1 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlt_s32(svmovlb_s16(a)), voffset1)), vscale1);
                     const auto af_2 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlb_s32(svmovlt_s16(a)), voffset1)), vscale1);
                     const auto af_3 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlt_s32(svmovlt_s16(a)), voffset1)), vscale1);
  
                     const auto bf_0 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlb_s32(svmovlb_s16(b)), voffset2)), vscale2);
                     const auto bf_1 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlt_s32(svmovlb_s16(b)), voffset2)), vscale2);
                     const auto bf_2 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlb_s32(svmovlt_s16(b)), voffset2)), vscale2);
                     const auto bf_3 = svmul_f32_z(
                         pg, svcvt_f32_s32_z(pg, svsub_s32_z(pg, svmovlt_s32(svmovlt_s16(b)), voffset2)), vscale2);
  
                     const auto rf_0 =
                         svcvt_s32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_0, bf_0), invvscaleo));
                     const auto rf_1 =
                         svcvt_s32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_1, bf_1), invvscaleo));
                     const auto rf_2 =
                         svcvt_s32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_2, bf_2), invvscaleo));
                     const auto rf_3 =
                         svcvt_s32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_3, bf_3), invvscaleo));
  
                     const auto pa  = svqxtnt_s32(svqxtnb_s32(rf_0), rf_1);
                     const auto pb  = svqxtnt_s32(svqxtnb_s32(rf_2), rf_3);
                     const auto res = svqxtnt_s16(svqxtnb_s16(pa), pb);
  
                     svst1_s8(pg, output_ptr + x, res);
  
                     x += svcntb();
                     pg = svwhilelt_b8(x, window_end_x);
                 } while (svptest_any(svptrue_b8(), pg));
             },
             input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ add_qasymm8_sve2()

void add_qasymm8_sve2	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 39 of file qasymm8.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
     const auto all_true_pg           = svptrue_b8();
  
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
  
     const auto invvscaleo = svdup_n_f32(1.f / oq_info.scale);
     const auto voffseto   = svdup_n_f32(oq_info.offset);
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
  
         const svfloat32_t vscale1  = is_broadcast_input_2 ? svdup_n_f32(iq1_info.scale) : svdup_n_f32(iq2_info.scale);
         const svfloat32_t vscale2  = is_broadcast_input_2 ? svdup_n_f32(iq2_info.scale) : svdup_n_f32(iq1_info.scale);
         const svint32_t   voffset1 = is_broadcast_input_2 ? svdup_n_s32(iq1_info.offset) : svdup_n_s32(iq2_info.offset);
         const svint32_t   voffset2 = is_broadcast_input_2 ? svdup_n_s32(iq2_info.offset) : svdup_n_s32(iq1_info.offset);
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const uint8_t *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<uint8_t *>(output.ptr());
  
                 const uint8_t   broadcast_value     = *reinterpret_cast<const uint8_t *>(broadcast_input.ptr());
                 const svuint8_t broadcast_value_vec = svdup_n_u8(broadcast_value);
  
                 int      x  = window_start_x;
                 svbool_t pg = svwhilelt_b8(x, window_end_x);
  
                 const auto bf_0 = svmul_f32_z(
                     pg,
                     svcvt_f32_s32_z(
                         pg, svsub_s32_z(pg, svreinterpret_s32_u32(svmovlb_u32(svmovlb_u16(broadcast_value_vec))),
                                         voffset2)),
                     vscale2);
                 const auto bf_1 = svmul_f32_z(
                     pg,
                     svcvt_f32_s32_z(
                         pg, svsub_s32_z(pg, svreinterpret_s32_u32(svmovlt_u32(svmovlb_u16(broadcast_value_vec))),
                                         voffset2)),
                     vscale2);
                 const auto bf_2 = svmul_f32_z(
                     pg,
                     svcvt_f32_s32_z(
                         pg, svsub_s32_z(pg, svreinterpret_s32_u32(svmovlb_u32(svmovlt_u16(broadcast_value_vec))),
                                         voffset2)),
                     vscale2);
                 const auto bf_3 = svmul_f32_z(
                     pg,
                     svcvt_f32_s32_z(
                         pg, svsub_s32_z(pg, svreinterpret_s32_u32(svmovlt_u32(svmovlt_u16(broadcast_value_vec))),
                                         voffset2)),
                     vscale2);
  
                 do
                 {
                     const svuint8_t a = svld1_u8(pg, non_broadcast_input_ptr + x);
  
                     const auto af_0 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlb_u32(svmovlb_u16(a))), voffset1)),
                         vscale1);
                     const auto af_1 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlt_u32(svmovlb_u16(a))), voffset1)),
                         vscale1);
                     const auto af_2 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlb_u32(svmovlt_u16(a))), voffset1)),
                         vscale1);
                     const auto af_3 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlt_u32(svmovlt_u16(a))), voffset1)),
                         vscale1);
  
                     const auto rf_0 =
                         svcvt_u32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_0, bf_0), invvscaleo));
                     const auto rf_1 =
                         svcvt_u32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_1, bf_1), invvscaleo));
                     const auto rf_2 =
                         svcvt_u32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_2, bf_2), invvscaleo));
                     const auto rf_3 =
                         svcvt_u32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_3, bf_3), invvscaleo));
  
                     const auto pa = svqxtnt_u32(svqxtnb_u32(rf_0), rf_1);
                     const auto pb = svqxtnt_u32(svqxtnb_u32(rf_2), rf_3);
  
                     const auto res = svqxtnt_u16(svqxtnb_u16(pa), pb);
                     svst1_u8(pg, output_ptr + x, res);
  
                     x += svcntb();
                     pg = svwhilelt_b8(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         const auto vscale1  = svdup_n_f32(iq1_info.scale);
         const auto vscale2  = svdup_n_f32(iq2_info.scale);
         const auto voffset1 = svdup_n_s32(iq1_info.offset);
         const auto voffset2 = svdup_n_s32(iq2_info.offset);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const uint8_t *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const uint8_t *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<uint8_t *>(output.ptr());
  
                 int      x  = window_start_x;
                 svbool_t pg = svwhilelt_b8(x, window_end_x);
                 do
                 {
                     const auto a    = svld1_u8(pg, input1_ptr + x);
                     const auto b    = svld1_u8(pg, input2_ptr + x);
                     const auto af_0 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlb_u32(svmovlb_u16(a))), voffset1)),
                         vscale1);
                     const auto af_1 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlt_u32(svmovlb_u16(a))), voffset1)),
                         vscale1);
                     const auto af_2 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlb_u32(svmovlt_u16(a))), voffset1)),
                         vscale1);
                     const auto af_3 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlt_u32(svmovlt_u16(a))), voffset1)),
                         vscale1);
  
                     const auto bf_0 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlb_u32(svmovlb_u16(b))), voffset2)),
                         vscale2);
                     const auto bf_1 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlt_u32(svmovlb_u16(b))), voffset2)),
                         vscale2);
                     const auto bf_2 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlb_u32(svmovlt_u16(b))), voffset2)),
                         vscale2);
                     const auto bf_3 = svmul_f32_z(
                         pg,
                         svcvt_f32_s32_z(pg,
                                         svsub_s32_z(pg, svreinterpret_s32_u32(svmovlt_u32(svmovlt_u16(b))), voffset2)),
                         vscale2);
  
                     const auto rf_0 =
                         svcvt_u32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_0, bf_0), invvscaleo));
                     const auto rf_1 =
                         svcvt_u32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_1, bf_1), invvscaleo));
                     const auto rf_2 =
                         svcvt_u32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_2, bf_2), invvscaleo));
                     const auto rf_3 =
                         svcvt_u32_f32_z(pg, svmla_f32_z(pg, voffseto, svadd_f32_z(pg, af_3, bf_3), invvscaleo));
  
                     const auto pa  = svqxtnt_u32(svqxtnb_u32(rf_0), rf_1);
                     const auto pb  = svqxtnt_u32(svqxtnb_u32(rf_2), rf_3);
                     const auto res = svqxtnt_u16(svqxtnb_u16(pa), pb);
  
                     svst1_u8(pg, output_ptr + x, res);
  
                     x += svcntb();
                     pg = svwhilelt_b8(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ add_qsymm16_neon()

void add_qsymm16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 36 of file qsymm16.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x         = 8;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
  
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
  
     const float32x4_t vscale1    = vdupq_n_f32(iq1_info.scale);
     const float32x4_t vscale2    = vdupq_n_f32(iq2_info.scale);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / oq_info.scale);
  
     if (is_broadcast_across_x)
     {
         const bool                    is_broadcast_input_2 = input2_win.x().step() == 0;
         Window                        broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window                        non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor                *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor                *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
         const UniformQuantizationInfo broadcast_qinfo      = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo = non_broadcast_tensor->info()->quantization_info().uniform();
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const int16_t *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<int16_t *>(output.ptr());
  
                 const int16_t   broadcast_value     = *reinterpret_cast<const int16_t *>(broadcast_input.ptr());
                 const int16x8_t broadcast_value_vec = vdupq_n_s16(broadcast_value);
  
                 const auto  bf_0 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(broadcast_value_vec))), vscale2);
                 const auto  bf_1 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(broadcast_value_vec))), vscale2);
                 const float bfs  = static_cast<int32_t>(broadcast_value) * broadcast_qinfo.scale;
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const int16x8_t a    = vld1q_s16(non_broadcast_input_ptr + x);
                     const auto      af_0 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(a))), vscale1);
                     const auto      af_1 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(a))), vscale1);
  
                     int32x4_t rf_0{};
                     int32x4_t rf_1{};
 #ifdef __aarch64__
                     rf_0 = vcvtnq_s32_f32(vmulq_f32(vaddq_f32(af_0, bf_0), invvscaleo));
                     rf_1 = vcvtnq_s32_f32(vmulq_f32(vaddq_f32(af_1, bf_1), invvscaleo));
 #else  //__aarch64__
                     rf_0 = vcvtq_s32_f32(vmulq_f32(vaddq_f32(af_0, bf_0), invvscaleo));
                     rf_1 = vcvtq_s32_f32(vmulq_f32(vaddq_f32(af_1, bf_1), invvscaleo));
 #endif //__aarch64__
  
                     const int16x8_t pa = vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1));
                     vst1q_s16(output_ptr + x, pa);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const float afs = static_cast<int32_t>(*(non_broadcast_input_ptr + x)) * non_broadcast_qinfo.scale;
                     *(output_ptr + x) = quantize_qsymm16((afs + bfs), oq_info);
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const int16_t *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const int16_t *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<int16_t *>(output.ptr());
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const int16x8_t a = vld1q_s16(input1_ptr + x);
                     const int16x8_t b = vld1q_s16(input2_ptr + x);
  
                     const auto af_0 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(a))), vscale1);
                     const auto af_1 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(a))), vscale1);
                     const auto bf_0 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(b))), vscale2);
                     const auto bf_1 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(b))), vscale2);
  
                     int32x4_t rf_0{};
                     int32x4_t rf_1{};
 #ifdef __aarch64__
                     rf_0 = vcvtnq_s32_f32(vmulq_f32(vaddq_f32(af_0, bf_0), invvscaleo));
                     rf_1 = vcvtnq_s32_f32(vmulq_f32(vaddq_f32(af_1, bf_1), invvscaleo));
 #else  //__aarch64__
                     rf_0 = vcvtq_s32_f32(vmulq_f32(vaddq_f32(af_0, bf_0), invvscaleo));
                     rf_1 = vcvtq_s32_f32(vmulq_f32(vaddq_f32(af_1, bf_1), invvscaleo));
 #endif //__aarch64__
  
                     const int16x8_t pa = vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1));
                     vst1q_s16(output_ptr + x, pa);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const float afs   = static_cast<int32_t>((*(input1_ptr + x))) * iq1_info.scale;
                     const float bfs   = static_cast<int32_t>((*(input2_ptr + x))) * iq2_info.scale;
                     *(output_ptr + x) = quantize_qsymm16((afs + bfs), dst->info()->quantization_info());
                 }
             },
             input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::for(), ITensor::info(), Iterator::ptr(), ITensorInfo::quantization_info(), arm_compute::quantize_qsymm16(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ add_qsymm16_sve2()

void add_qsymm16_sve2	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 39 of file qsymm16.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
  
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
  
     const auto vscale1     = svdup_n_f32(iq1_info.scale);
     const auto vscale2     = svdup_n_f32(iq2_info.scale);
     const auto invvscaleo  = svdup_n_f32(1.f / oq_info.scale);
     const auto all_true_pg = svptrue_b16();
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const int16_t *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<int16_t *>(output.ptr());
  
                 const int16_t broadcast_value     = *reinterpret_cast<const int16_t *>(broadcast_input.ptr());
                 const auto    broadcast_value_vec = svdup_n_s16(broadcast_value);
  
                 int      x  = window_start_x;
                 svbool_t pg = svwhilelt_b16(x, window_end_x);
  
                 const auto bf_0 = svmul_f32_z(pg, svcvt_f32_s32_z(pg, svmovlb_s32(broadcast_value_vec)), vscale2);
                 const auto bf_1 = svmul_f32_z(pg, svcvt_f32_s32_z(pg, svmovlt_s32(broadcast_value_vec)), vscale2);
  
                 do
                 {
                     const auto a    = svld1_s16(pg, non_broadcast_input_ptr + x);
                     const auto af_0 = svmul_f32_z(pg, svcvt_f32_s32_z(pg, svmovlb_s32(a)), vscale1);
                     const auto af_1 = svmul_f32_z(pg, svcvt_f32_s32_z(pg, svmovlt_s32(a)), vscale1);
  
                     const auto rf_0 = svcvt_s32_f32_z(pg, svmul_f32_z(pg, svadd_f32_z(pg, af_0, bf_0), invvscaleo));
                     const auto rf_1 = svcvt_s32_f32_z(pg, svmul_f32_z(pg, svadd_f32_z(pg, af_1, bf_1), invvscaleo));
  
                     const auto res = svqxtnt_s32(svqxtnb_s32(rf_0), rf_1);
  
                     svst1_s16(pg, output_ptr + x, res);
  
                     x += svcnth();
                     pg = svwhilelt_b16(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const int16_t *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const int16_t *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<int16_t *>(output.ptr());
  
                 int      x  = window_start_x;
                 svbool_t pg = svwhilelt_b16(x, window_end_x);
                 do
                 {
                     auto a = svld1_s16(pg, input1_ptr + x);
                     auto b = svld1_s16(pg, input2_ptr + x);
  
                     const auto af_0 = svmul_f32_z(pg, svcvt_f32_s32_z(pg, svmovlb_s32(a)), vscale1);
                     const auto af_1 = svmul_f32_z(pg, svcvt_f32_s32_z(pg, svmovlt_s32(a)), vscale1);
  
                     const auto bf_0 = svmul_f32_z(pg, svcvt_f32_s32_z(pg, svmovlb_s32(b)), vscale2);
                     const auto bf_1 = svmul_f32_z(pg, svcvt_f32_s32_z(pg, svmovlt_s32(b)), vscale2);
  
                     const auto rf_0 = svcvt_s32_f32_z(pg, svmul_f32_z(pg, svadd_f32_z(pg, af_0, bf_0), invvscaleo));
                     const auto rf_1 = svcvt_s32_f32_z(pg, svmul_f32_z(pg, svadd_f32_z(pg, af_1, bf_1), invvscaleo));
  
                     const auto res = svqxtnt_s32(svqxtnb_s32(rf_0), rf_1);
                     svst1_s16(pg, output_ptr + x, res);
  
                     x += svcnth();
                     pg = svwhilelt_b16(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ add_s16_neon()

void add_s16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 37 of file integer.cpp.

 {
     return add_same_neon<int16_t>(src0, src1, dst, policy, window);
 }

References arm_compute::test::validation::dst.

◆ add_s16_sve()

void add_s16_sve	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 40 of file integer.cpp.

 {
     return add_same_sve<int16_t>(src0, src1, dst, policy, window);
 }

References add_same_sve< int16_t >(), and arm_compute::test::validation::dst.

◆ add_s32_neon()

void add_s32_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 43 of file integer.cpp.

 {
     return add_same_neon<int32_t>(src0, src1, dst, policy, window);
 }

References arm_compute::test::validation::dst.

◆ add_s32_sve()

void add_s32_sve	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 46 of file integer.cpp.

 {
     return add_same_sve<int32_t>(src0, src1, dst, policy, window);
 }

References add_same_sve< int32_t >(), and arm_compute::test::validation::dst.

◆ add_same_neon()

void arm_compute::cpu::add_same_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 39 of file impl.h.

 {
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<ScalarType, wrapper::traits::BitWidth::W128>;
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     constexpr int window_step_x         = 16 / sizeof(ScalarType);
     const auto    window_start_x        = static_cast<int>(window.x().start());
     const auto    window_end_x          = static_cast<int>(window.x().end());
     const bool    is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const ScalarType *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<ScalarType *>(output.ptr());
  
                 const ScalarType broadcast_value     = *reinterpret_cast<const ScalarType *>(broadcast_input.ptr());
                 const auto       broadcast_value_vec = wrapper::vdup_n(broadcast_value, ExactTagType{});
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const auto non_broadcast_v = wrapper::vloadq(non_broadcast_input_ptr + x);
                     const auto res             = (policy == ConvertPolicy::SATURATE)
                                                      ? wrapper::vqadd(broadcast_value_vec, non_broadcast_v)
                                                      : wrapper::vadd(broadcast_value_vec, non_broadcast_v);
                     wrapper::vstore(output_ptr + x, res);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto non_broadcast_v = *(non_broadcast_input_ptr + x);
                     *(output_ptr + x)          = (policy == ConvertPolicy::SATURATE)
                                                      ? wrapper::add_sat(broadcast_value, non_broadcast_v)
                                                      : broadcast_value + non_broadcast_v;
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const ScalarType *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const ScalarType *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<ScalarType *>(output.ptr());
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const auto val1 = wrapper::vloadq(input1_ptr + x);
                     const auto val2 = wrapper::vloadq(input2_ptr + x);
                     const auto res =
                         (policy == ConvertPolicy::SATURATE) ? wrapper::vqadd(val1, val2) : wrapper::vadd(val1, val2);
                     wrapper::vstore(output_ptr + x, res);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto val1 = *(input1_ptr + x);
                     const auto val2 = *(input2_ptr + x);
                     *(output_ptr + x) =
                         (policy == ConvertPolicy::SATURATE) ? wrapper::add_sat(val1, val2) : val1 + val2;
                 }
             },
             input1, input2, output);
     }
 }

References arm_compute::wrapper::add_sat(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), arm_compute::SATURATE, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), arm_compute::wrapper::vadd(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vqadd(), arm_compute::wrapper::vstore(), Dimensions< T >::x(), and Window::x().

◆ add_same_sve()

void add_same_sve	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 39 of file impl.cpp.

 {
     const auto all_true_pg           = wrapper::svptrue<ScalarType>();
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
     const bool is_sat                = (policy == ConvertPolicy::SATURATE);
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     Iterator input1(src0, window.broadcast_if_dimension_le_one(src0->info()->tensor_shape()));
     Iterator input2(src1, window.broadcast_if_dimension_le_one(src1->info()->tensor_shape()));
     Iterator output(dst, window);
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const ScalarType *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<ScalarType *>(output.ptr());
  
                 const ScalarType broadcast_value     = *reinterpret_cast<const ScalarType *>(broadcast_input.ptr());
                 const auto       broadcast_value_vec = wrapper::svdup_n(broadcast_value);
  
                 int      x  = window_start_x;
                 svbool_t pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
                 do
                 {
                     const auto non_broadcast_v = svld1(pg, non_broadcast_input_ptr + x);
                     auto       res             = is_sat ? wrapper::svqadd(broadcast_value_vec, non_broadcast_v)
                                                         : svadd_z(pg, broadcast_value_vec, non_broadcast_v);
                     svst1(pg, output_ptr + x, res);
  
                     x += wrapper::svcnt<ScalarType>();
                     pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const ScalarType *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const ScalarType *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<ScalarType *>(output.ptr());
  
                 int      x  = window_start_x;
                 svbool_t pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
                 do
                 {
                     const auto val1 = svld1(pg, input1_ptr + x);
                     const auto val2 = svld1(pg, input2_ptr + x);
                     const auto res  = is_sat ? wrapper::svqadd(val1, val2) : svadd_z(pg, val1, val2);
                     svst1(pg, output_ptr + x, res);
  
                     x += wrapper::svcnt<ScalarType>();
                     pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             input1, input2, output);
     }
 }

References Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), arm_compute::SATURATE, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), Dimensions< T >::x(), and Window::x().

◆ add_same_sve< float >()

template void arm_compute::cpu::add_same_sve< float >	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Referenced by add_fp32_sve().

◆ add_same_sve< int16_t >()

template void arm_compute::cpu::add_same_sve< int16_t >	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Referenced by add_s16_sve().

◆ add_same_sve< int32_t >()

template void arm_compute::cpu::add_same_sve< int32_t >	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Referenced by add_s32_sve().

◆ add_same_sve< uint8_t >()

template void arm_compute::cpu::add_same_sve< uint8_t >	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Referenced by add_u8_sve().

◆ add_sub_q8_neon_fixedpoint()

void add_sub_q8_neon_fixedpoint	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window,
		bool	is_addition
	)

Definition at line 85 of file impl.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
  
     const auto in0_info = src0->info();
     const auto in1_info = src1->info();
  
     const auto &in0_shape = in0_info->tensor_shape();
     const auto &in1_shape = in1_info->tensor_shape();
  
     // Create input windows.
     Window in0_win = window.broadcast_if_dimension_le_one(in0_shape);
     Window in1_win = window.broadcast_if_dimension_le_one(in1_shape);
  
     // Clear the x dimension on the execution window as we process the whole row each iteration.
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     constexpr int window_step_x         = 16;
     const auto    window_start_x        = window.x().start();
     const auto    window_end_x          = window.x().end();
     const auto    is_broadcast_across_x = in0_shape.x() != in1_shape.x();
  
     const auto iq0_info  = in0_info->quantization_info().uniform();
     const auto iq1_info  = in1_info->quantization_info().uniform();
     const auto oq_info   = dst->info()->quantization_info().uniform();
     const auto in0_scale = iq0_info.scale / oq_info.scale;
     const auto in1_scale = is_addition ? (iq1_info.scale / oq_info.scale) : (-(iq1_info.scale / oq_info.scale));
     const auto offset = float(oq_info.offset) - in0_scale * float(iq0_info.offset) - in1_scale * float(iq1_info.offset);
  
     constexpr float _2pow11        = 2048;
     const auto      in0_scale_5p11 = static_cast<int16_t>(support::cpp11::lround(in0_scale * _2pow11));
     const auto      in1_scale_5p11 = static_cast<int16_t>(support::cpp11::lround(in1_scale * _2pow11));
     const auto      offset_21p11   = static_cast<int32_t>(support::cpp11::lround(offset * _2pow11));
  
     constexpr uint8_t shift_amount_remainder = 3;
  
     if (is_broadcast_across_x)
     {
         // Prefix: a = non-broadcast, b = broadcast.
  
         const auto is_broadcast_input_1 = in1_win.x().step() == 0;
         auto       a_win                = is_broadcast_input_1 ? in0_win : in1_win;
         auto       b_win                = is_broadcast_input_1 ? in1_win : in0_win;
         const auto a_tensor             = is_broadcast_input_1 ? src0 : src1;
         const auto b_tensor             = is_broadcast_input_1 ? src1 : src0;
  
         const auto a_scale_5p11  = is_broadcast_input_1 ? in0_scale_5p11 : in1_scale_5p11;
         const auto b_scale       = is_broadcast_input_1 ? in1_scale : in0_scale;
         const auto a_vscale_5p11 = wrapper::vdup_n(a_scale_5p11, wrapper::traits::vector_64_tag());
  
 #ifndef __aarch64__
         const auto a_scale = is_broadcast_input_1 ? in0_scale : in1_scale;
 #endif // __aarch64__
  
         // Clear the x dimension on the execution window as we process the whole row each iteration.
         a_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator a_input_it(a_tensor, a_win);
         Iterator b_input_it(b_tensor, b_win);
         Iterator out_it(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto a_ptr   = reinterpret_cast<const ScalarType *>(a_input_it.ptr());
                 const auto b_ptr   = reinterpret_cast<const ScalarType *>(b_input_it.ptr());
                 const auto out_ptr = reinterpret_cast<ScalarType *>(out_it.ptr());
  
                 const auto b_val                   = *b_ptr;
                 const auto b_scaled                = b_scale * b_val;
                 const auto b_scaled_21p11          = static_cast<int32_t>(support::cpp11::lround(b_scaled * _2pow11));
                 const auto b_scaled_offseted_21p11 = b_scaled_21p11 + offset_21p11;
                 const auto b_vscaled_offseted_21p11 =
                     wrapper::vdup_n(b_scaled_offseted_21p11, wrapper::traits::vector_128_tag());
  
 #ifndef __aarch64__
                 const auto b_scaled_offseted = b_scaled + offset;
 #endif // __aarch64__
  
                 int x = window_start_x;
  
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     // Load the input.
                     const auto a_vin_8p0 = wrapper::vloadq(a_ptr + x);
  
                     // Widen the non-broadcast elements to signed 16-bit regardless of the input signedness.
                     const auto a_vin_16p0_0 = wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(a_vin_8p0)));
                     const auto a_vin_16p0_1 = wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(a_vin_8p0)));
  
                     // Multiply the non-broadcast elements by the scale factor, add the scaled broadcast elements and the offset.
                     // Widen and store the result in 32-bit integer.
                     const auto vout_21p11_00 =
                         wrapper::vmlal(b_vscaled_offseted_21p11, wrapper::vgetlow(a_vin_16p0_0), a_vscale_5p11);
                     const auto vout_21p11_01 =
                         wrapper::vmlal(b_vscaled_offseted_21p11, wrapper::vgethigh(a_vin_16p0_0), a_vscale_5p11);
                     const auto vout_21p11_10 =
                         wrapper::vmlal(b_vscaled_offseted_21p11, wrapper::vgetlow(a_vin_16p0_1), a_vscale_5p11);
                     const auto vout_21p11_11 =
                         wrapper::vmlal(b_vscaled_offseted_21p11, wrapper::vgethigh(a_vin_16p0_1), a_vscale_5p11);
  
                     // Remove 3 bits of the fractional part, round, narrow to 16-bit and saturate the result.
                     const auto vout_8p8_0 =
                         wrapper::vcombine(wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(vout_21p11_00),
                                           wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(vout_21p11_01));
                     const auto vout_8p8_1 =
                         wrapper::vcombine(wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(vout_21p11_10),
                                           wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(vout_21p11_11));
  
                     // Remove 8 bits of the fractional part, round, narrow to 8-bit and saturate the result.
                     const auto vout_8p0 =
                         wrapper::vcombine(wrapper::vqrshrn<8>(vout_8p8_0), wrapper::vqrshrn<8>(vout_8p8_1));
  
                     // Store the result.
                     wrapper::vstore(out_ptr + x, vout_8p0);
                 }
  
                 // Process the left-over elements.
                 for (; x < window_end_x; ++x)
                 {
 #ifdef __aarch64__
                     out_ptr[x] = wrapper::vqrshrn<8>(wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(
                         int32_t(a_ptr[x]) * a_scale_5p11 + b_scaled_offseted_21p11));
 #else  // __aarch64__
                     out_ptr[x] = utility::clamp<int, ScalarType>(
                         support::cpp11::lround(float(a_ptr[x]) * a_scale + b_scaled_offseted));
 #endif // __aarch64__
                 }
             },
             b_input_it, a_input_it, out_it);
     }
     else
     {
         const auto vscale0_5p11  = wrapper::vdup_n(in0_scale_5p11, wrapper::traits::vector_64_tag());
         const auto vscale1_5p11  = wrapper::vdup_n(in1_scale_5p11, wrapper::traits::vector_64_tag());
         const auto voffset_21p11 = wrapper::vdup_n(offset_21p11, wrapper::traits::vector_128_tag());
  
         // Clear the x dimension on the execution window as we process the whole row each iteration.
         in0_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         in1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator in0_it(src0, in0_win);
         Iterator in1_it(src1, in1_win);
         Iterator out_it(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto in0_ptr = reinterpret_cast<const ScalarType *>(in0_it.ptr());
                 const auto in1_ptr = reinterpret_cast<const ScalarType *>(in1_it.ptr());
                 const auto out_ptr = reinterpret_cast<ScalarType *>(out_it.ptr());
  
                 int x = window_start_x;
  
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     // Load the inputs.
                     const auto vin0_8p0 = wrapper::vloadq(in0_ptr + x);
                     const auto vin1_8p0 = wrapper::vloadq(in1_ptr + x);
  
                     // Widen the input elements to signed 16-bit regardless of the input signedness.
                     const auto vin0_16p0_0 = wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(vin0_8p0)));
                     const auto vin0_16p0_1 = wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(vin0_8p0)));
                     const auto vin1_16p0_0 = wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(vin1_8p0)));
                     const auto vin1_16p0_1 = wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(vin1_8p0)));
  
                     // Multiply the input elements by the scale factor and add the offset.
                     // Widen and store the result in 32-bit integer.
                     const auto vscaled0_offseted_21p11_00 =
                         wrapper::vmlal(voffset_21p11, wrapper::vgetlow(vin0_16p0_0), vscale0_5p11);
                     const auto vscaled0_offseted_21p11_01 =
                         wrapper::vmlal(voffset_21p11, wrapper::vgethigh(vin0_16p0_0), vscale0_5p11);
                     const auto vscaled0_offseted_21p11_10 =
                         wrapper::vmlal(voffset_21p11, wrapper::vgetlow(vin0_16p0_1), vscale0_5p11);
                     const auto vscaled0_offseted_21p11_11 =
                         wrapper::vmlal(voffset_21p11, wrapper::vgethigh(vin0_16p0_1), vscale0_5p11);
  
                     const auto vout_21p11_00 =
                         wrapper::vmlal(vscaled0_offseted_21p11_00, wrapper::vgetlow(vin1_16p0_0), vscale1_5p11);
                     const auto vout_21p11_01 =
                         wrapper::vmlal(vscaled0_offseted_21p11_01, wrapper::vgethigh(vin1_16p0_0), vscale1_5p11);
                     const auto vout_21p11_10 =
                         wrapper::vmlal(vscaled0_offseted_21p11_10, wrapper::vgetlow(vin1_16p0_1), vscale1_5p11);
                     const auto vout_21p11_11 =
                         wrapper::vmlal(vscaled0_offseted_21p11_11, wrapper::vgethigh(vin1_16p0_1), vscale1_5p11);
  
                     // Remove 3 bits of the fractional part, round, narrow to 16-bit and saturate the result.
                     const auto vout_8p8_0 =
                         wrapper::vcombine(wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(vout_21p11_00),
                                           wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(vout_21p11_01));
                     const auto vout_8p8_1 =
                         wrapper::vcombine(wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(vout_21p11_10),
                                           wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(vout_21p11_11));
  
                     // Remove 8 bits of the fractional part, round, narrow to 8-bit and saturate the result.
                     const auto vout_8p0 =
                         wrapper::vcombine(wrapper::vqrshrn<8>(vout_8p8_0), wrapper::vqrshrn<8>(vout_8p8_1));
  
                     // Store the result.
                     wrapper::vstore(out_ptr + x, vout_8p0);
                 }
  
                 // Process the left-over elements.
                 for (; x < window_end_x; ++x)
                 {
 #ifdef __aarch64__
                     out_ptr[x] = wrapper::vqrshrn<8>(wrapper::vqrshrn_ex<shift_amount_remainder, ScalarType>(
                         int32_t(in0_ptr[x]) * in0_scale_5p11 + int32_t(in1_ptr[x]) * in1_scale_5p11 + offset_21p11));
 #else  // __aarch64__
                     out_ptr[x] = utility::clamp<int, ScalarType>(
                         support::cpp11::lround(float(in0_ptr[x]) * in0_scale + float(in1_ptr[x]) * in1_scale + offset));
 #endif // __aarch64__
                 }
             },
             in0_it, in1_it, out_it);
     }
 }

◆ add_sub_q8_neon_fixedpoint< int8_t >()

template void arm_compute::cpu::add_sub_q8_neon_fixedpoint< int8_t >	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window,
		bool	is_addition
	)

Referenced by sub_qasymm8_signed_neon_fixedpoint().

◆ add_sub_q8_neon_fixedpoint< uint8_t >()

template void arm_compute::cpu::add_sub_q8_neon_fixedpoint< uint8_t >	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window,
		bool	is_addition
	)

Referenced by sub_qasymm8_neon_fixedpoint().

◆ add_sub_q8_neon_fixedpoint_possible()

bool add_sub_q8_neon_fixedpoint_possible	(	const ITensorInfo *	src0,
		const ITensorInfo *	src1,
		const ITensorInfo *	dst,
		bool	is_addition
	)

Definition at line 45 of file impl.cpp.

 {
     const auto iq0 = src0->quantization_info().uniform();
     const auto iq1 = src1->quantization_info().uniform();
     const auto oq  = dst->quantization_info().uniform();
  
     const auto scale0 = iq0.scale / oq.scale;
     const auto scale1 = iq1.scale / oq.scale;
  
     if (scale0 < -15.f || scale0 > 15.f || scale1 < -15.f || scale1 > 15.f)
     {
         // The scale factor cannot be stored as 5.11 signed fixed-point number.
         return false;
     }
  
     const auto offset = float(oq.offset) - scale0 * float(iq0.offset) - scale1 * float(iq1.offset);
  
     const auto max_acc = is_addition ? ((std::abs(scale0) + std::abs(scale1)) * 256.f + std::abs(offset))
                                      : ((std::abs(scale0) - std::abs(scale1)) * 256.f + std::abs(offset));
  
     if (max_acc > 1048575.f) // 2^20 - 1
     {
         // It might not be possible to store the result as 21.11 signed fixed-point number.
         return false;
     }
  
     return true;
 }

References arm_compute::test::validation::dst, offset(), ITensorInfo::quantization_info(), and QuantizationInfo::uniform().

Referenced by add_q8_neon_fixedpoint_possible(), and sub_q8_neon_fixedpoint_possible().

◆ add_sub_qasymm8_neon()

void add_sub_qasymm8_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window,
		bool	is_addition
	)

Definition at line 311 of file impl.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     constexpr int window_step_x         = 16;
     const auto    window_start_x        = static_cast<int>(window.x().start());
     const auto    window_end_x          = static_cast<int>(window.x().end());
     const bool    is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
  
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
  
     const auto scale1 = iq1_info.scale / oq_info.scale;
     const auto scale2 = is_addition ? (iq2_info.scale / oq_info.scale) : (-(iq2_info.scale / oq_info.scale));
     const auto offset = float(oq_info.offset) - scale1 * float(iq1_info.offset) - scale2 * float(iq2_info.offset);
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
  
         const auto af_scale = is_broadcast_input_2 ? scale1 : scale2;
         const auto bf_scale = is_broadcast_input_2 ? scale2 : scale1;
         const auto vscale1  = vdupq_n_f32(af_scale);
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = non_broadcast_input.ptr();
                 const auto output_ptr              = output.ptr();
  
                 const auto broadcast_value = *broadcast_input.ptr();
                 const auto bf              = vdupq_n_f32(float(broadcast_value) * scale2 + offset);
                 const auto bfs             = float(broadcast_value) * bf_scale + offset;
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const uint8x16_t a = vld1q_u8(non_broadcast_input_ptr + x);
  
                     const auto a_u16_0 = vmovl_u8(vget_low_u8(a));
                     const auto a_u16_1 = vmovl_u8(vget_high_u8(a));
  
                     const auto af_0 = vmlaq_f32(bf, vcvtq_f32_u32(vmovl_u16(vget_low_u16(a_u16_0))), vscale1);
                     const auto af_1 = vmlaq_f32(bf, vcvtq_f32_u32(vmovl_u16(vget_high_u16(a_u16_0))), vscale1);
                     const auto af_2 = vmlaq_f32(bf, vcvtq_f32_u32(vmovl_u16(vget_low_u16(a_u16_1))), vscale1);
                     const auto af_3 = vmlaq_f32(bf, vcvtq_f32_u32(vmovl_u16(vget_high_u16(a_u16_1))), vscale1);
  
                     int32x4_t rf_0{};
                     int32x4_t rf_1{};
                     int32x4_t rf_2{};
                     int32x4_t rf_3{};
  
 #ifdef __aarch64__
                     rf_0 = vcvtnq_s32_f32(af_0);
                     rf_1 = vcvtnq_s32_f32(af_1);
                     rf_2 = vcvtnq_s32_f32(af_2);
                     rf_3 = vcvtnq_s32_f32(af_3);
 #else  //__aarch64__
                     rf_0          = vcvtq_s32_f32(af_0);
                     rf_1          = vcvtq_s32_f32(af_1);
                     rf_2          = vcvtq_s32_f32(af_2);
                     rf_3          = vcvtq_s32_f32(af_3);
 #endif //__aarch64__
  
                     const uint8x8_t pa = vqmovun_s16(vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1)));
                     const uint8x8_t pb = vqmovun_s16(vcombine_s16(vqmovn_s32(rf_2), vqmovn_s32(rf_3)));
                     vst1q_u8(output_ptr + x, vcombine_u8(pa, pb));
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto result = float(non_broadcast_input_ptr[x]) * af_scale + bfs;
 #ifdef __aarch64__
                     output_ptr[x] = utility::clamp<int, uint8_t>(support::cpp11::lround(result));
 #else  // __aarch64__
                     output_ptr[x] = utility::clamp<int, uint8_t>(support::cpp11::trunc(result));
 #endif // __aarch64__
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         const auto vscale1 = vdupq_n_f32(scale1);
         const auto vscale2 = vdupq_n_f32(scale2);
         const auto voffset = vdupq_n_f32(offset);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = input1.ptr();
                 const auto input2_ptr = input2.ptr();
                 const auto output_ptr = output.ptr();
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const uint8x16_t a = vld1q_u8(input1_ptr + x);
                     const uint8x16_t b = vld1q_u8(input2_ptr + x);
  
                     const auto a_u16_0 = vmovl_u8(vget_low_u8(a));
                     const auto a_u16_1 = vmovl_u8(vget_high_u8(a));
                     const auto b_u16_0 = vmovl_u8(vget_low_u8(b));
                     const auto b_u16_1 = vmovl_u8(vget_high_u8(b));
  
                     const auto af_0 = vmlaq_f32(voffset, vcvtq_f32_u32(vmovl_u16(vget_low_u16(a_u16_0))), vscale1);
                     const auto af_1 = vmlaq_f32(voffset, vcvtq_f32_u32(vmovl_u16(vget_high_u16(a_u16_0))), vscale1);
                     const auto af_2 = vmlaq_f32(voffset, vcvtq_f32_u32(vmovl_u16(vget_low_u16(a_u16_1))), vscale1);
                     const auto af_3 = vmlaq_f32(voffset, vcvtq_f32_u32(vmovl_u16(vget_high_u16(a_u16_1))), vscale1);
  
                     const auto bf_0 = vmlaq_f32(af_0, vcvtq_f32_u32(vmovl_u16(vget_low_u16(b_u16_0))), vscale2);
                     const auto bf_1 = vmlaq_f32(af_1, vcvtq_f32_u32(vmovl_u16(vget_high_u16(b_u16_0))), vscale2);
                     const auto bf_2 = vmlaq_f32(af_2, vcvtq_f32_u32(vmovl_u16(vget_low_u16(b_u16_1))), vscale2);
                     const auto bf_3 = vmlaq_f32(af_3, vcvtq_f32_u32(vmovl_u16(vget_high_u16(b_u16_1))), vscale2);
  
                     int32x4_t rf_0{};
                     int32x4_t rf_1{};
                     int32x4_t rf_2{};
                     int32x4_t rf_3{};
  
 #ifdef __aarch64__
                     rf_0 = vcvtnq_s32_f32(bf_0);
                     rf_1 = vcvtnq_s32_f32(bf_1);
                     rf_2 = vcvtnq_s32_f32(bf_2);
                     rf_3 = vcvtnq_s32_f32(bf_3);
 #else  //__aarch64__
                     rf_0          = vcvtq_s32_f32(bf_0);
                     rf_1          = vcvtq_s32_f32(bf_1);
                     rf_2          = vcvtq_s32_f32(bf_2);
                     rf_3          = vcvtq_s32_f32(bf_3);
 #endif //__aarch64__
  
                     const uint8x8_t pa = vqmovun_s16(vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1)));
                     const uint8x8_t pb = vqmovun_s16(vcombine_s16(vqmovn_s32(rf_2), vqmovn_s32(rf_3)));
                     vst1q_u8(output_ptr + x, vcombine_u8(pa, pb));
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto result = float(input1_ptr[x]) * scale1 + float(input2_ptr[x]) * scale2 + offset;
 #ifdef __aarch64__
                     output_ptr[x] = utility::clamp<int, uint8_t>(support::cpp11::lround(result));
 #else  // __aarch64__
                     output_ptr[x] = utility::clamp<int, uint8_t>(support::cpp11::trunc(result));
 #endif // __aarch64__
                 }
             },
             input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), arm_compute::support::cpp11::lround(), UniformQuantizationInfo::offset, offset(), Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), arm_compute::support::cpp11::trunc(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

Referenced by add_qasymm8_neon(), and sub_qasymm8_neon().

◆ add_sub_qasymm8_signed_neon()

void add_sub_qasymm8_signed_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window,
		bool	is_addition
	)

Definition at line 501 of file impl.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     constexpr int window_step_x         = 16;
     const auto    window_start_x        = static_cast<int>(window.x().start());
     const auto    window_end_x          = static_cast<int>(window.x().end());
     const bool    is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
  
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
  
     const auto scale1 = iq1_info.scale / oq_info.scale;
     const auto scale2 = is_addition ? (iq2_info.scale / oq_info.scale) : (-(iq2_info.scale / oq_info.scale));
     const auto offset = float(oq_info.offset) - scale1 * float(iq1_info.offset) - scale2 * float(iq2_info.offset);
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
  
         const auto af_scale = is_broadcast_input_2 ? scale1 : scale2;
         const auto bf_scale = is_broadcast_input_2 ? scale2 : scale1;
         const auto vscale1  = vdupq_n_f32(af_scale);
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const int8_t *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<int8_t *>(output.ptr());
  
                 const auto broadcast_value = *reinterpret_cast<const int8_t *>(broadcast_input.ptr());
                 const auto bf              = vdupq_n_f32(float(broadcast_value) * scale2 + offset);
                 const auto bfs             = float(broadcast_value) * bf_scale + offset;
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const int8x16_t a = vld1q_s8(non_broadcast_input_ptr + x);
  
                     const auto a_s16_0 = vmovl_s8(vget_low_s8(a));
                     const auto a_s16_1 = vmovl_s8(vget_high_s8(a));
  
                     const auto af_0 = vmlaq_f32(bf, vcvtq_f32_s32(vmovl_s16(vget_low_s16(a_s16_0))), vscale1);
                     const auto af_1 = vmlaq_f32(bf, vcvtq_f32_s32(vmovl_s16(vget_high_s16(a_s16_0))), vscale1);
                     const auto af_2 = vmlaq_f32(bf, vcvtq_f32_s32(vmovl_s16(vget_low_s16(a_s16_1))), vscale1);
                     const auto af_3 = vmlaq_f32(bf, vcvtq_f32_s32(vmovl_s16(vget_high_s16(a_s16_1))), vscale1);
  
                     int32x4_t rf_0{};
                     int32x4_t rf_1{};
                     int32x4_t rf_2{};
                     int32x4_t rf_3{};
  
 #ifdef __aarch64__
                     rf_0 = vcvtnq_s32_f32(af_0);
                     rf_1 = vcvtnq_s32_f32(af_1);
                     rf_2 = vcvtnq_s32_f32(af_2);
                     rf_3 = vcvtnq_s32_f32(af_3);
 #else  //__aarch64__
                     rf_0          = vcvtq_s32_f32(af_0);
                     rf_1          = vcvtq_s32_f32(af_1);
                     rf_2          = vcvtq_s32_f32(af_2);
                     rf_3          = vcvtq_s32_f32(af_3);
 #endif //__aarch64__
  
                     const int8x8_t pa = vqmovn_s16(vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1)));
                     const int8x8_t pb = vqmovn_s16(vcombine_s16(vqmovn_s32(rf_2), vqmovn_s32(rf_3)));
                     vst1q_s8(output_ptr + x, vcombine_s8(pa, pb));
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto result = float(non_broadcast_input_ptr[x]) * af_scale + bfs;
 #ifdef __aarch64__
                     output_ptr[x] = utility::clamp<int, int8_t>(support::cpp11::lround(result));
 #else  // __aarch64__
                     output_ptr[x] = utility::clamp<int, int8_t>(support::cpp11::trunc(result));
 #endif // __aarch64__
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         const auto vscale1 = vdupq_n_f32(scale1);
         const auto vscale2 = vdupq_n_f32(scale2);
         const auto voffset = vdupq_n_f32(offset);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const int8_t *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const int8_t *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<int8_t *>(output.ptr());
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const int8x16_t a = vld1q_s8(input1_ptr + x);
                     const int8x16_t b = vld1q_s8(input2_ptr + x);
  
                     const auto a_s16_0 = vmovl_s8(vget_low_s8(a));
                     const auto a_s16_1 = vmovl_s8(vget_high_s8(a));
                     const auto b_s16_0 = vmovl_s8(vget_low_s8(b));
                     const auto b_s16_1 = vmovl_s8(vget_high_s8(b));
  
                     const auto af_0 = vmlaq_f32(voffset, vcvtq_f32_s32(vmovl_s16(vget_low_s16(a_s16_0))), vscale1);
                     const auto af_1 = vmlaq_f32(voffset, vcvtq_f32_s32(vmovl_s16(vget_high_s16(a_s16_0))), vscale1);
                     const auto af_2 = vmlaq_f32(voffset, vcvtq_f32_s32(vmovl_s16(vget_low_s16(a_s16_1))), vscale1);
                     const auto af_3 = vmlaq_f32(voffset, vcvtq_f32_s32(vmovl_s16(vget_high_s16(a_s16_1))), vscale1);
  
                     const auto bf_0 = vmlaq_f32(af_0, vcvtq_f32_s32(vmovl_s16(vget_low_s16(b_s16_0))), vscale2);
                     const auto bf_1 = vmlaq_f32(af_1, vcvtq_f32_s32(vmovl_s16(vget_high_s16(b_s16_0))), vscale2);
                     const auto bf_2 = vmlaq_f32(af_2, vcvtq_f32_s32(vmovl_s16(vget_low_s16(b_s16_1))), vscale2);
                     const auto bf_3 = vmlaq_f32(af_3, vcvtq_f32_s32(vmovl_s16(vget_high_s16(b_s16_1))), vscale2);
  
                     int32x4_t rf_0{};
                     int32x4_t rf_1{};
                     int32x4_t rf_2{};
                     int32x4_t rf_3{};
  
 #ifdef __aarch64__
                     rf_0 = vcvtnq_s32_f32(bf_0);
                     rf_1 = vcvtnq_s32_f32(bf_1);
                     rf_2 = vcvtnq_s32_f32(bf_2);
                     rf_3 = vcvtnq_s32_f32(bf_3);
 #else  //__aarch64__
                     rf_0          = vcvtq_s32_f32(bf_0);
                     rf_1          = vcvtq_s32_f32(bf_1);
                     rf_2          = vcvtq_s32_f32(bf_2);
                     rf_3          = vcvtq_s32_f32(bf_3);
 #endif //__aarch64__
  
                     const int8x8_t pa = vqmovn_s16(vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1)));
                     const int8x8_t pb = vqmovn_s16(vcombine_s16(vqmovn_s32(rf_2), vqmovn_s32(rf_3)));
                     vst1q_s8(output_ptr + x, vcombine_s8(pa, pb));
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto result = float(input1_ptr[x]) * scale1 + float(input2_ptr[x]) * scale2 + offset;
 #ifdef __aarch64__
                     output_ptr[x] = utility::clamp<int, int8_t>(support::cpp11::lround(result));
 #else  // __aarch64__
                     output_ptr[x] = utility::clamp<int, int8_t>(support::cpp11::trunc(result));
 #endif // __aarch64__
                 }
             },
             input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), arm_compute::support::cpp11::lround(), UniformQuantizationInfo::offset, offset(), Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), arm_compute::support::cpp11::trunc(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

Referenced by add_qasymm8_signed_neon(), and sub_qasymm8_signed_neon().

◆ add_u8_neon()

void add_u8_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 31 of file integer.cpp.

 {
     return add_same_neon<uint8_t>(src0, src1, dst, policy, window);
 }

References arm_compute::test::validation::dst.

◆ add_u8_sve()

void add_u8_sve	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 34 of file integer.cpp.

 {
     return add_same_sve<uint8_t>(src0, src1, dst, policy, window);
 }

References add_same_sve< uint8_t >(), and arm_compute::test::validation::dst.

◆ avg_poolingMxNxD_q8_neon_ndhwc()

void arm_compute::cpu::avg_poolingMxNxD_q8_neon_ndhwc	(	const ITensor *	src,
		ITensor *	dst0,
		Pooling3dLayerInfo &	pool_info,
		const Window &	window_out,
		const int	window_step_x
	)

Definition at line 39 of file quantized.h.

 {
     using q8x8_t  = typename wrapper::traits::neon_vector<T, 8>::type;
     using q8x16_t = typename wrapper::traits::neon_vector<T, 16>::type;
     using q16_t   = typename wrapper::traits::promote_t<T>;
     using q16x8_t = typename wrapper::traits::neon_vector<q16_t, 8>::type;
     using q32_t   = typename wrapper::traits::promote_t<q16_t>;
     using q32x4_t = typename wrapper::traits::neon_vector<q32_t, 4>::type;
  
     int pool_stride_x = static_cast<int>(pool_info.stride.width);
     int pool_stride_y = static_cast<int>(pool_info.stride.height);
     int pool_stride_z = static_cast<int>(pool_info.stride.depth);
  
     const int pool_size_x = pool_info.is_global_pooling ? src->info()->tensor_shape().y() : pool_info.pool_size.width;
     const int pool_size_y = pool_info.is_global_pooling ? src->info()->tensor_shape().z() : pool_info.pool_size.height;
     const int pool_size_z = pool_info.is_global_pooling ? src->info()->tensor_shape()[3] : pool_info.pool_size.depth;
  
     const int pool_pad_top    = static_cast<int>(pool_info.padding.top);
     const int pool_pad_bottom = static_cast<int>(pool_info.padding.bottom);
     const int pool_pad_left   = static_cast<int>(pool_info.padding.left);
     const int pool_pad_right  = static_cast<int>(pool_info.padding.right);
     const int pool_pad_front  = static_cast<int>(pool_info.padding.front);
     const int pool_pad_back   = static_cast<int>(pool_info.padding.back);
  
     const int upper_bound_w = src->info()->dimension(1) + (pool_info.exclude_padding ? 0 : pool_pad_right);
     const int upper_bound_h = src->info()->dimension(2) + (pool_info.exclude_padding ? 0 : pool_pad_bottom);
     const int upper_bound_d = src->info()->dimension(3) + (pool_info.exclude_padding ? 0 : pool_pad_back);
  
     const int input_dim_c = src->info()->dimension(0);
     const int input_dim_w = src->info()->dimension(1);
     const int input_dim_h = src->info()->dimension(2);
     const int input_dim_d = src->info()->dimension(3);
  
     const int y_stride = static_cast<int>(src->info()->strides_in_bytes().y());
     const int z_stride = static_cast<int>(src->info()->strides_in_bytes().z());
     const int w_stride = static_cast<int>(src->info()->strides_in_bytes()[3]);
     const int n_stride = static_cast<int>(src->info()->strides_in_bytes()[4]);
  
     const uint8_t *in_ptr_start = src->buffer() + src->info()->offset_first_element_in_bytes();
  
     const int window_end_x   = input_dim_c;
     const int window_start_x = 0;
  
     Iterator out(dst0, window_out);
  
     const float32x4_t             half_scale_v = vdupq_n_f32(0.5f);
     const UniformQuantizationInfo src_qinfo    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo dst_qinfo    = dst0->info()->quantization_info().uniform();
  
     const float quant_rescale = dst_qinfo.scale / src_qinfo.scale;
     // "new_offset" doesn't have to consider the "half_scale_v" in its computation
     // With a requantization performed in a single step there won't be uncertainties introduced
     const int32_t new_offset =
         dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / quant_rescale);
  
     execute_window_loop(
         window_out,
         [&](const Coordinates &id)
         {
             // Computing the theoretical input starting/ending points
             const int in_idx_width  = static_cast<int>(id.y()) * pool_stride_x - pool_pad_left;
             const int in_idx_height = static_cast<int>(id.z()) * pool_stride_y - pool_pad_top;
             const int in_idx_depth  = static_cast<int>(id[3]) * pool_stride_z - pool_pad_front;
  
             const int pool_start_x = std::max(0, -in_idx_width);
             const int pool_end_x_t = std::min(input_dim_w + pool_pad_left - in_idx_width, pool_size_x);
             const int pool_start_y = std::max(0, -in_idx_height);
             const int pool_end_y_t = std::min(input_dim_h + pool_pad_top - in_idx_height, pool_size_y);
  
             const int pool_start_z = std::max(0, -in_idx_depth);
             const int pool_end_z_t = std::min(input_dim_d + pool_pad_front - in_idx_depth, pool_size_z);
  
             // The end of width to consider in calculation should exclude PAD_X, PAD_Y and PAD_Z
             const int pool_end_x = std::min(pool_end_x_t, input_dim_w - in_idx_width);
             const int pool_end_y = std::min(pool_end_y_t, input_dim_h - in_idx_height);
             const int pool_end_z = std::min(pool_end_z_t, input_dim_d - in_idx_depth);
  
             // Calculate scale
             const float scale =
                 calculate_avg_scale_pool3d(pool_info.exclude_padding, id, pool_size_x, pool_size_y, pool_size_z,
                                            upper_bound_w, upper_bound_h, upper_bound_d, pool_pad_left, pool_pad_top,
                                            pool_pad_front, pool_stride_x, pool_stride_y, pool_stride_z);
  
             const uint8_t *in_ptr_n = in_ptr_start + id[4] * n_stride;
  
             int x_off = window_start_x;
  
             for (; x_off <= (window_end_x - window_step_x); x_off += window_step_x) // C
             {
                 q32x4_t vres1 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                 q32x4_t vres2 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                 q32x4_t vres3 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                 q32x4_t vres4 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
  
                 // Perform pooling
                 for (int z = pool_start_z; z < pool_end_z; ++z)
                 {
                     const uint8_t *in_ptr_z = in_ptr_n + (z + in_idx_depth) * w_stride;
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         const uint8_t *in_ptr_y = in_ptr_z + (y + in_idx_height) * z_stride;
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const uint8_t *in_ptr_x = in_ptr_y + (x + in_idx_width) * y_stride;
                             const q8x16_t  data     = wrapper::vloadq(reinterpret_cast<const T *>(in_ptr_x) + x_off);
  
                             const q16x8_t data_q16  = wrapper::vmovl(wrapper::vgetlow(data));
                             const q16x8_t data2_q16 = wrapper::vmovl(wrapper::vgethigh(data));
                             vres1                   = wrapper::vadd(vres1, wrapper::vmovl(wrapper::vgetlow(data_q16)));
                             vres2                   = wrapper::vadd(vres2, wrapper::vmovl(wrapper::vgethigh(data_q16)));
                             vres3                   = wrapper::vadd(vres3, wrapper::vmovl(wrapper::vgetlow(data2_q16)));
                             vres4 = wrapper::vadd(vres4, wrapper::vmovl(wrapper::vgethigh(data2_q16)));
                         }
                     }
                 }
  
                 if (src_qinfo != dst_qinfo)
                 {
                     const float32x4x4_t vres = {{
                         vcvtq_f32_q32(vres1),
                         vcvtq_f32_q32(vres2),
                         vcvtq_f32_q32(vres3),
                         vcvtq_f32_q32(vres4),
                     }};
                     const auto          requantized_dst =
                         vrequantize_pooling_with_scale<q8x16_t>(vres, quant_rescale, scale, new_offset);
                     // Store result
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, wrapper::vgetlow(requantized_dst));
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off + 8, wrapper::vgethigh(requantized_dst));
                 }
                 else
                 {
                     const float32x4_t scale_v = vdupq_n_f32(scale);
                     // Divide by scale and add 0.5f to round to nearest instead of rounding towards zero
                     vres1 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres1), scale_v));
                     vres2 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres2), scale_v));
                     vres3 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres3), scale_v));
                     vres4 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres4), scale_v));
  
                     const q8x8_t res1 = wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(vres1), wrapper::vmovn(vres2)));
                     const q8x8_t res2 = wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(vres3), wrapper::vmovn(vres4)));
                     // Store result
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, res1);
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off + 8, res2);
                 }
             }
  
             // Left-overs loop
             for (; x_off < window_end_x; ++x_off)
             {
                 q32_t res = static_cast<q32_t>(0.f);
  
                 // Perform pooling
                 for (int z = pool_start_z; z < pool_end_z; ++z)
                 {
                     const uint8_t *in_ptr_z = in_ptr_n + (z + in_idx_depth) * w_stride;
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         const uint8_t *in_ptr_y = in_ptr_z + (y + in_idx_height) * z_stride;
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const uint8_t *in_ptr_x = in_ptr_y + (x + in_idx_width) * y_stride;
                             const T        data     = *(reinterpret_cast<const T *>(in_ptr_x) + x_off);
                             res += data;
                         }
                     }
                 }
  
                 if (src_qinfo != dst_qinfo)
                 {
                     const float res_f           = static_cast<float>(res);
                     const float new_scale       = quant_rescale / scale;
                     const auto  requantized_dst = quantize<T>(res_f, UniformQuantizationInfo(new_scale, new_offset));
  
                     // Store result
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = requantized_dst;
                 }
                 else
                 {
                     // Divide by scale and add 0.5f to round to nearest instead of rounding towards zero
                     res = static_cast<T>(0.5f + static_cast<float>(res) * scale);
  
                     // Store result
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = res;
                 }
             }
         },
         out);
 }

◆ batch_normalization_nchw()

void arm_compute::cpu::batch_normalization_nchw	(	const Window &	window,
		ITensor *	in,
		ITensor *	out,
		const ITensor *	in_mean,
		const ITensor *	in_var,
		const ITensor *	in_beta,
		const ITensor *	in_gamma,
		float	epsilon,
		ActivationLayerInfo	act_info
	)

SIMD vector tag type.

Definition at line 36 of file impl.h.

 {
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
  
     const int  window_step_x  = 16 / sizeof(T);
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Window win_to_use = window;
     win_to_use.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(in, win_to_use);
     Iterator output(out, win_to_use);
  
     F activation_functor(act_info);
  
     // Hold information about the current feature map we are iterating.
     // Only compute denominator and constants once per feature map.
     int slice = -1;
  
     const auto input_mean = reinterpret_cast<const T *>(in_mean->ptr_to_element(Coordinates(0, 0)));
     const auto input_var  = reinterpret_cast<const T *>(in_var->ptr_to_element(Coordinates(0, 0)));
     const auto input_gamma =
         (in_gamma != nullptr) ? reinterpret_cast<const T *>(in_gamma->ptr_to_element(Coordinates(0, 0))) : nullptr;
     const auto input_beta =
         (in_beta != nullptr) ? reinterpret_cast<const T *>(in_beta->ptr_to_element(Coordinates(0, 0))) : nullptr;
  
     T mean        = static_cast<T>(0);
     T var         = static_cast<T>(0);
     T gamma       = static_cast<T>(1);
     T beta        = static_cast<T>(0);
     T denominator = static_cast<T>(0);
  
     auto       mean_vec        = wrapper::vdup_n(mean, ExactTagType{});
     auto       var_vec         = wrapper::vdup_n(var, ExactTagType{});
     auto       gamma_vec       = wrapper::vdup_n(gamma, ExactTagType{});
     auto       beta_vec        = wrapper::vdup_n(beta, ExactTagType{});
     auto       denominator_vec = wrapper::vdup_n(denominator, ExactTagType{});
     const auto epsilon_vec     = wrapper::vdup_n(static_cast<T>(epsilon), ExactTagType{});
     execute_window_loop(
         win_to_use,
         [&](const Coordinates &id)
         {
             const auto input_ptr  = reinterpret_cast<const T *>(input.ptr());
             const auto output_ptr = reinterpret_cast<T *>(output.ptr());
  
             if (slice != id.z())
             {
                 mean     = input_mean[id.z()];
                 var      = input_var[id.z()];
                 mean_vec = wrapper::vdup_n(mean, ExactTagType{});
                 var_vec  = wrapper::vdup_n(var, ExactTagType{});
                 if (input_gamma != nullptr)
                 {
                     gamma     = input_gamma[id.z()];
                     gamma_vec = wrapper::vdup_n(gamma, ExactTagType{});
                 }
                 if (input_beta != nullptr)
                 {
                     beta     = input_beta[id.z()];
                     beta_vec = wrapper::vdup_n(beta, ExactTagType{});
                 }
  
                 // Calculate denominator
                 denominator_vec = wrapper::vinvsqrt(wrapper::vadd(var_vec, epsilon_vec));
                 denominator     = wrapper::vgetlane(denominator_vec, 0);
                 slice           = id.z();
             }
  
             // Perform core calculations using vector operations
             int x = window_start_x;
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 // Calculate x bar
                 const auto numerator = wrapper::vsub(wrapper::vloadq(input_ptr + x), mean_vec);
                 const auto x_bar     = wrapper::vmul(numerator, denominator_vec);
                 auto       res       = wrapper::vmla(beta_vec, x_bar, gamma_vec);
  
                 // Perform fused activation
                 if (fused_activation)
                 {
                     activation_functor(res);
                 }
  
                 // Store results
                 wrapper::vstore(output_ptr + x, res);
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 const T numerator = input_ptr[x] - mean;
                 const T x_bar     = numerator * denominator;
                 T       res       = beta + x_bar * gamma;
  
                 // Perform fused activation
                 if (fused_activation)
                 {
                     activation_functor(res);
                 }
  
                 // Store results
                 *(output_ptr + x) = res;
             }
         },
         input, output);
 }

◆ bilinear_neon_scale()

void arm_compute::cpu::bilinear_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 315 of file list.h.

 {
     ARM_COMPUTE_UNUSED(offsets);
     ARM_COMPUTE_UNUSED(dx);
     ARM_COMPUTE_UNUSED(dy);
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
  
     // Compute the ratio between source and destination dimensions
     const float scale_x =
         scale_utils::calculate_resize_ratio(src->info()->dimension(1), dst->info()->dimension(1), align_corners);
     const float scale_y =
         scale_utils::calculate_resize_ratio(src->info()->dimension(2), dst->info()->dimension(2), align_corners);
  
     const int in_stride_y  = src->info()->strides_in_bytes()[1];
     const int in_stride_z  = src->info()->strides_in_bytes()[2];
     const int in_stride_w  = src->info()->strides_in_bytes()[3];
     const int out_stride_y = dst->info()->strides_in_bytes()[1];
     const int out_stride_z = dst->info()->strides_in_bytes()[2];
     const int out_stride_w = dst->info()->strides_in_bytes()[3];
     const int in_dim_w     = src->info()->dimension(1);
     const int in_dim_h     = src->info()->dimension(2);
     const int out_dim_ch   = dst->info()->dimension(0);
     const int step_cout    = 16 / sizeof(T);
  
     Window window_execution = window;
     window_execution.set(Window::DimX, Window::Dimension(0, 1, 1));
     Window win_in_out(window);
     win_in_out.set(Window::DimY, Window::Dimension(0, 0, 0));
     win_in_out.set(Window::DimZ, Window::Dimension(0, 0, 0));
     Iterator in(src, win_in_out);
     Iterator out(dst, win_in_out);
  
     const int xo_start = window_execution.y().start();
     const int xo_end   = window_execution.y().end();
     const int xo_step  = window_execution.y().step();
     const int yo_start = window_execution.z().start();
     const int yo_end   = window_execution.z().end();
     const int yo_step  = window_execution.z().step();
     const int bo_start = window_execution[3].start();
     const int bo_end   = window_execution[3].end();
     const int bo_step  = window_execution[3].step();
  
     if (border_mode == BorderMode::CONSTANT)
     {
 #ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC
         using ConstType = typename std::conditional<std::is_same<T, float16_t>::value, half, T>::type;
 #else  /* __ARM_FEATURE_FP16_VECTOR_ARITHMETIC */
         using ConstType = T;
 #endif /* __ARM_FEATURE_FP16_VECTOR_ARITHMETIC */
         const T const_border_value = static_cast<T>(constant_border_value.get<ConstType>());
  
         for (int bo = bo_start; bo < bo_end; bo += bo_step)
         {
             const uint8_t *in_ptr_base  = in.ptr() + bo * in_stride_w;
             uint8_t       *out_ptr_base = out.ptr() + bo * out_stride_w;
  
             for (int yo = yo_start; yo < yo_end; yo += yo_step)
             {
                 // Floating-point coordinate
                 const float yi_f = ((yo + sampling_offset) * scale_y - sampling_offset);
                 // Integer coordinate
                 const auto yi = static_cast<int>(std::floor(yi_f));
                 // Weight for the y coordinate
                 const auto a1 = (yi_f - static_cast<float>(yi));
                 const auto b1 = (1.f - a1);
  
                 for (int xo = xo_start; xo < xo_end; xo += xo_step)
                 {
                     // Floating-point coordinate
                     const float xi_f = ((xo + sampling_offset) * scale_x - sampling_offset);
                     // Integer coordinate
                     const auto xi = static_cast<int>(std::floor(xi_f));
                     // Weight for the x coordinate
                     const auto a = (xi_f - static_cast<float>(xi));
                     const auto b = (1.f - a);
  
                     const auto s00_s = static_cast<T>(b * b1);
                     const auto s01_s = static_cast<T>(a * b1);
                     const auto s10_s = static_cast<T>(b * a1);
                     const auto s11_s = static_cast<T>(a * a1);
  
                     const uint8_t *in_ptr  = in_ptr_base + xi * in_stride_y + yi * in_stride_z;
                     uint8_t       *out_ptr = out_ptr_base + xo * out_stride_y + yo * out_stride_z;
  
                     int cout = 0;
                     for (; cout <= (out_dim_ch - step_cout); cout += step_cout)
                     {
                         auto in00 = wrapper::vdup_n(static_cast<T>(const_border_value), ExactTagType{});
                         auto in01 = wrapper::vdup_n(static_cast<T>(const_border_value), ExactTagType{});
                         auto in10 = wrapper::vdup_n(static_cast<T>(const_border_value), ExactTagType{});
                         auto in11 = wrapper::vdup_n(static_cast<T>(const_border_value), ExactTagType{});
                         if ((yi >= 0) && (yi < in_dim_h))
                         {
                             if ((xi >= 0) && (xi < in_dim_w))
                             {
                                 in00 = wrapper::vloadq(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T)));
                             }
                             if (((xi + 1) >= 0) && ((xi + 1) < in_dim_w))
                             {
                                 in01 = wrapper::vloadq(
                                     reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + in_stride_y));
                             }
                         }
                         if (((yi + 1) >= 0) && ((yi + 1) < in_dim_h))
                         {
                             if ((xi >= 0) && (xi < in_dim_w))
                             {
                                 in10 = wrapper::vloadq(
                                     reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + in_stride_z));
                             }
                             if (((xi + 1) >= 0) && ((xi + 1) < in_dim_w))
                             {
                                 in11 = wrapper::vloadq(
                                     reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + in_stride_y + in_stride_z));
                             }
                         }
  
                         const auto s00  = wrapper::vdup_n(s00_s, ExactTagType{});
                         const auto s01  = wrapper::vdup_n(s01_s, ExactTagType{});
                         const auto s10  = wrapper::vdup_n(s10_s, ExactTagType{});
                         const auto s11  = wrapper::vdup_n(s11_s, ExactTagType{});
                         auto       out0 = wrapper::vdup_n(static_cast<T>(0), ExactTagType{});
                         out0            = wrapper::vmla(out0, in00, s00);
                         out0            = wrapper::vmla(out0, in01, s01);
                         out0            = wrapper::vmla(out0, in10, s10);
                         out0            = wrapper::vmla(out0, in11, s11);
                         wrapper::vstore(reinterpret_cast<T *>(out_ptr + cout * sizeof(T)), out0);
                     }
  
                     for (; cout < out_dim_ch; ++cout)
                     {
                         auto in00 = static_cast<T>(const_border_value);
                         auto in01 = static_cast<T>(const_border_value);
                         auto in10 = static_cast<T>(const_border_value);
                         auto in11 = static_cast<T>(const_border_value);
                         if ((yi >= 0) && (yi < in_dim_h))
                         {
                             if ((xi >= 0) && (xi < in_dim_w))
                             {
                                 in00 = *(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T)));
                             }
                             if (((xi + 1) >= 0) && ((xi + 1) < in_dim_w))
                             {
                                 in01 = *(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + in_stride_y));
                             }
                         }
                         if (((yi + 1) >= 0) && ((yi + 1) < in_dim_h))
                         {
                             if ((xi >= 0) && (xi < in_dim_w))
                             {
                                 in10 = *(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + in_stride_z));
                             }
                             if (((xi + 1) >= 0) && ((xi + 1) < in_dim_w))
                             {
                                 in11 = *(
                                     reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + in_stride_y + in_stride_z));
                             }
                         }
                         auto out0 = static_cast<T>(0);
                         out0 += in00 * s00_s;
                         out0 += in01 * s01_s;
                         out0 += in10 * s10_s;
                         out0 += in11 * s11_s;
                         *(reinterpret_cast<T *>(out_ptr + cout * sizeof(T))) = out0;
                     }
                 }
             }
         }
     }
     else if (border_mode == BorderMode::REPLICATE)
     {
         for (int bo = bo_start; bo < bo_end; bo += bo_step)
         {
             const uint8_t *in_ptr  = in.ptr() + bo * in_stride_w;
             uint8_t       *out_ptr = out.ptr() + bo * out_stride_w;
  
             for (int yo = yo_start; yo < yo_end; yo += yo_step)
             {
                 // Floating-point coordinate
                 const float yi_f = ((yo + sampling_offset) * scale_y - sampling_offset);
                 // Integer coordinate
                 const auto yi = static_cast<int>(std::floor(yi_f));
                 // Weight for the y coordinate
                 const auto a1 = (yi_f - static_cast<float>(yi));
                 const auto b1 = (1.f - a1);
  
                 const int yi0 = utility::clamp<int>(yi, 0, in_dim_h - 1);
                 const int yi1 = utility::clamp<int>(yi + 1, 0, in_dim_h - 1);
  
                 const int yi0_offset = yi0 * in_stride_z;
                 const int yi1_offset = yi1 * in_stride_z;
  
                 const int y_offset = yo * out_stride_z;
                 for (int xo = xo_start; xo < xo_end; xo += xo_step)
                 {
                     // Floating-point coordinate
                     const float xi_f = ((xo + sampling_offset) * scale_x - sampling_offset);
                     // Integer coordinate
                     const auto xi = static_cast<int>(std::floor(xi_f));
                     // Weight for the x coordinate
                     const auto a = (xi_f - static_cast<float>(xi));
                     const auto b = (1.f - a);
  
                     const auto s00_s = static_cast<T>(b * b1);
                     const auto s01_s = static_cast<T>(a * b1);
                     const auto s10_s = static_cast<T>(b * a1);
                     const auto s11_s = static_cast<T>(a * a1);
  
                     const auto s00 = wrapper::vdup_n(s00_s, ExactTagType{});
                     const auto s01 = wrapper::vdup_n(s01_s, ExactTagType{});
                     const auto s10 = wrapper::vdup_n(s10_s, ExactTagType{});
                     const auto s11 = wrapper::vdup_n(s11_s, ExactTagType{});
  
                     const int xi0 = utility::clamp<int>(xi, 0, in_dim_w - 1);
                     const int xi1 = utility::clamp<int>(xi + 1, 0, in_dim_w - 1);
  
                     const int xi0_offset = xi0 * in_stride_y;
                     const int xi1_offset = xi1 * in_stride_y;
  
                     const int offset = xo * out_stride_y + y_offset;
  
                     int cout = 0;
                     for (; cout <= (out_dim_ch - step_cout); cout += step_cout)
                     {
                         const auto in00 = wrapper::vloadq(
                             reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + xi0_offset + yi0_offset));
                         const auto in01 = wrapper::vloadq(
                             reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + xi1_offset + yi0_offset));
                         const auto in10 = wrapper::vloadq(
                             reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + xi0_offset + yi1_offset));
                         const auto in11 = wrapper::vloadq(
                             reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + xi1_offset + yi1_offset));
  
                         auto out0 = wrapper::vmul(in00, s00);
                         out0      = wrapper::vmla(out0, in01, s01);
                         out0      = wrapper::vmla(out0, in10, s10);
                         out0      = wrapper::vmla(out0, in11, s11);
                         wrapper::vstore(reinterpret_cast<T *>(out_ptr + offset + cout * sizeof(T)), out0);
                     }
  
                     for (; cout < out_dim_ch; ++cout)
                     {
                         const T in00 =
                             *(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + xi0_offset + yi0_offset));
                         const T in01 =
                             *(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + xi1_offset + yi0_offset));
                         const T in10 =
                             *(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + xi0_offset + yi1_offset));
                         const T in11 =
                             *(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T) + xi1_offset + yi1_offset));
  
                         T out0 = in00 * s00_s;
                         out0 += in01 * s01_s;
                         out0 += in10 * s10_s;
                         out0 += in11 * s11_s;
                         *(reinterpret_cast<T *>(out_ptr + offset + cout * sizeof(T))) = out0;
                     }
                 }
             }
         }
     }
     else
     {
         ARM_COMPUTE_ERROR("Not implemented");
     }
 }

References ARM_COMPUTE_ERROR, ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, arm_compute::scale_utils::calculate_resize_ratio(), arm_compute::CONSTANT, Window::DimX, Window::DimY, Window::DimZ, arm_compute::test::validation::dst, Window::Dimension::end(), PixelValue::get(), offset(), Iterator::ptr(), arm_compute::REPLICATE, arm_compute::test::validation::scale_x, arm_compute::test::validation::scale_y, Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), Window::Dimension::step(), type, arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmla(), arm_compute::wrapper::vmul(), arm_compute::wrapper::vstore(), Window::y(), and Window::z().

◆ bounding_box_transform()

void arm_compute::cpu::bounding_box_transform	(	const ITensor *	boxes,
		ITensor *	pred_boxes,
		const ITensor *	deltas,
		BoundingBoxTransformInfo	bbinfo,
		const Window &	window
	)

Definition at line 33 of file impl.h.

 {
     const size_t num_classes  = deltas->info()->tensor_shape()[0] >> 2;
     const size_t deltas_width = deltas->info()->tensor_shape()[0];
     const int    img_h        = std::floor(bbinfo.img_height() / bbinfo.scale() + 0.5f);
     const int    img_w        = std::floor(bbinfo.img_width() / bbinfo.scale() + 0.5f);
  
     const auto scale_after  = (bbinfo.apply_scale() ? T(bbinfo.scale()) : T(1));
     const auto scale_before = T(bbinfo.scale());
     ARM_COMPUTE_ERROR_ON(scale_before <= 0);
     const auto offset = (bbinfo.correct_transform_coords() ? T(1.f) : T(0.f));
  
     auto pred_ptr  = reinterpret_cast<T *>(pred_boxes->buffer() + pred_boxes->info()->offset_first_element_in_bytes());
     auto delta_ptr = reinterpret_cast<T *>(deltas->buffer() + deltas->info()->offset_first_element_in_bytes());
  
     Iterator box_it(boxes, window);
     execute_window_loop(
         window,
         [&](const Coordinates &id)
         {
             const auto ptr    = reinterpret_cast<T *>(box_it.ptr());
             const auto b0     = *ptr;
             const auto b1     = *(ptr + 1);
             const auto b2     = *(ptr + 2);
             const auto b3     = *(ptr + 3);
             const T    width  = (b2 / scale_before) - (b0 / scale_before) + T(1.f);
             const T    height = (b3 / scale_before) - (b1 / scale_before) + T(1.f);
             const T    ctr_x  = (b0 / scale_before) + T(0.5f) * width;
             const T    ctr_y  = (b1 / scale_before) + T(0.5f) * height;
             for (size_t j = 0; j < num_classes; ++j)
             {
                 // Extract deltas
                 const size_t delta_id = id.y() * deltas_width + 4u * j;
                 const T      dx       = delta_ptr[delta_id] / T(bbinfo.weights()[0]);
                 const T      dy       = delta_ptr[delta_id + 1] / T(bbinfo.weights()[1]);
                 T            dw       = delta_ptr[delta_id + 2] / T(bbinfo.weights()[2]);
                 T            dh       = delta_ptr[delta_id + 3] / T(bbinfo.weights()[3]);
                 // Clip dw and dh
                 dw = std::min(dw, T(bbinfo.bbox_xform_clip()));
                 dh = std::min(dh, T(bbinfo.bbox_xform_clip()));
                 // Determine the predictions
                 const T pred_ctr_x = dx * width + ctr_x;
                 const T pred_ctr_y = dy * height + ctr_y;
                 const T pred_w     = std::exp(dw) * width;
                 const T pred_h     = std::exp(dh) * height;
                 // Store the prediction into the output tensor
                 pred_ptr[delta_id] = scale_after * utility::clamp<T>(pred_ctr_x - T(0.5f) * pred_w, T(0), T(img_w - 1));
                 pred_ptr[delta_id + 1] =
                     scale_after * utility::clamp<T>(pred_ctr_y - T(0.5f) * pred_h, T(0), T(img_h - 1));
                 pred_ptr[delta_id + 2] =
                     scale_after * utility::clamp<T>(pred_ctr_x + T(0.5f) * pred_w - offset, T(0), T(img_w - 1));
                 pred_ptr[delta_id + 3] =
                     scale_after * utility::clamp<T>(pred_ctr_y + T(0.5f) * pred_h - offset, T(0), T(img_h - 1));
             }
         },
         box_it);
 }

References BoundingBoxTransformInfo::apply_scale(), ARM_COMPUTE_ERROR_ON, BoundingBoxTransformInfo::bbox_xform_clip(), ITensor::buffer(), BoundingBoxTransformInfo::correct_transform_coords(), arm_compute::execute_window_loop(), BoundingBoxTransformInfo::img_height(), BoundingBoxTransformInfo::img_width(), ITensor::info(), offset(), ITensorInfo::offset_first_element_in_bytes(), Iterator::ptr(), BoundingBoxTransformInfo::scale(), ITensorInfo::tensor_shape(), and BoundingBoxTransformInfo::weights().

◆ bounding_box_transform_qsymm16()

void bounding_box_transform_qsymm16	(	const ITensor *	boxes,
		ITensor *	pred_boxes,
		const ITensor *	deltas,
		BoundingBoxTransformInfo	bbinfo,
		const Window &	window
	)

Definition at line 32 of file impl.cpp.

 {
     const size_t num_classes  = deltas->info()->tensor_shape()[0] >> 2;
     const size_t deltas_width = deltas->info()->tensor_shape()[0];
     const int    img_h        = std::floor(bbinfo.img_height() / bbinfo.scale() + 0.5f);
     const int    img_w        = std::floor(bbinfo.img_width() / bbinfo.scale() + 0.5f);
  
     const auto scale_after  = (bbinfo.apply_scale() ? bbinfo.scale() : 1.f);
     const auto scale_before = bbinfo.scale();
     const auto offset       = (bbinfo.correct_transform_coords() ? 1.f : 0.f);
  
     auto pred_ptr =
         reinterpret_cast<uint16_t *>(pred_boxes->buffer() + pred_boxes->info()->offset_first_element_in_bytes());
     auto delta_ptr = reinterpret_cast<uint8_t *>(deltas->buffer() + deltas->info()->offset_first_element_in_bytes());
  
     const auto boxes_qinfo  = boxes->info()->quantization_info().uniform();
     const auto deltas_qinfo = deltas->info()->quantization_info().uniform();
     const auto pred_qinfo   = pred_boxes->info()->quantization_info().uniform();
  
     Iterator box_it(boxes, window);
     execute_window_loop(
         window,
         [&](const Coordinates &id)
         {
             const auto  ptr    = reinterpret_cast<uint16_t *>(box_it.ptr());
             const auto  b0     = dequantize_qasymm16(*ptr, boxes_qinfo);
             const auto  b1     = dequantize_qasymm16(*(ptr + 1), boxes_qinfo);
             const auto  b2     = dequantize_qasymm16(*(ptr + 2), boxes_qinfo);
             const auto  b3     = dequantize_qasymm16(*(ptr + 3), boxes_qinfo);
             const float width  = (b2 / scale_before) - (b0 / scale_before) + 1.f;
             const float height = (b3 / scale_before) - (b1 / scale_before) + 1.f;
             const float ctr_x  = (b0 / scale_before) + 0.5f * width;
             const float ctr_y  = (b1 / scale_before) + 0.5f * height;
             for (size_t j = 0; j < num_classes; ++j)
             {
                 // Extract deltas
                 const size_t delta_id = id.y() * deltas_width + 4u * j;
                 const float  dx       = dequantize_qasymm8(delta_ptr[delta_id], deltas_qinfo) / bbinfo.weights()[0];
                 const float  dy       = dequantize_qasymm8(delta_ptr[delta_id + 1], deltas_qinfo) / bbinfo.weights()[1];
                 float        dw       = dequantize_qasymm8(delta_ptr[delta_id + 2], deltas_qinfo) / bbinfo.weights()[2];
                 float        dh       = dequantize_qasymm8(delta_ptr[delta_id + 3], deltas_qinfo) / bbinfo.weights()[3];
                 // Clip dw and dh
                 dw = std::min(dw, bbinfo.bbox_xform_clip());
                 dh = std::min(dh, bbinfo.bbox_xform_clip());
                 // Determine the predictions
                 const float pred_ctr_x = dx * width + ctr_x;
                 const float pred_ctr_y = dy * height + ctr_y;
                 const float pred_w     = std::exp(dw) * width;
                 const float pred_h     = std::exp(dh) * height;
                 // Store the prediction into the output tensor
                 pred_ptr[delta_id] = quantize_qasymm16(
                     scale_after * utility::clamp<float>(pred_ctr_x - 0.5f * pred_w, 0.f, img_w - 1.f), pred_qinfo);
                 pred_ptr[delta_id + 1] = quantize_qasymm16(
                     scale_after * utility::clamp<float>(pred_ctr_y - 0.5f * pred_h, 0.f, img_h - 1.f), pred_qinfo);
                 pred_ptr[delta_id + 2] = quantize_qasymm16(
                     scale_after * utility::clamp<float>(pred_ctr_x + 0.5f * pred_w - offset, 0.f, img_w - 1.f),
                     pred_qinfo);
                 pred_ptr[delta_id + 3] = quantize_qasymm16(
                     scale_after * utility::clamp<float>(pred_ctr_y + 0.5f * pred_h - offset, 0.f, img_h - 1.f),
                     pred_qinfo);
             }
         },
         box_it);
 }

References BoundingBoxTransformInfo::apply_scale(), BoundingBoxTransformInfo::bbox_xform_clip(), ITensor::buffer(), BoundingBoxTransformInfo::correct_transform_coords(), arm_compute::dequantize_qasymm16(), arm_compute::dequantize_qasymm8(), arm_compute::execute_window_loop(), BoundingBoxTransformInfo::img_height(), BoundingBoxTransformInfo::img_width(), ITensor::info(), offset(), ITensorInfo::offset_first_element_in_bytes(), Iterator::ptr(), ITensorInfo::quantization_info(), arm_compute::quantize_qasymm16(), BoundingBoxTransformInfo::scale(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), and BoundingBoxTransformInfo::weights().

Referenced by neon_qu16_boundingboxtransform().

◆ common_neon_scale()

void arm_compute::cpu::common_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 592 of file list.h.

 {
     if (policy == InterpolationPolicy::BILINEAR)
     {
         bilinear_neon_scale<T>(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset,
                                align_corners, window);
     }
     else if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         nearest_neon_scale<T>(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ compute_all_anchors()

void arm_compute::cpu::compute_all_anchors	(	const ITensor *	anchors,
		ITensor *	all_anchors,
		ComputeAnchorsInfo	anchors_info,
		const Window &	window
	)

Definition at line 36 of file impl.h.

 {
     Iterator all_anchors_it(all_anchors, window);
     Iterator anchors_it(all_anchors, window);
  
     const size_t num_anchors = anchors->info()->dimension(1);
     const T      stride      = 1.f / anchors_info.spatial_scale();
     const size_t feat_width  = anchors_info.feat_width();
  
     execute_window_loop(
         window,
         [&](const Coordinates &id)
         {
             const size_t anchor_offset = id.y() % num_anchors;
  
             const auto out_anchor_ptr = reinterpret_cast<T *>(all_anchors_it.ptr());
             const auto anchor_ptr     = reinterpret_cast<T *>(anchors->ptr_to_element(Coordinates(0, anchor_offset)));
  
             const size_t shift_idy = id.y() / num_anchors;
             const T      shiftx    = (shift_idy % feat_width) * stride;
             const T      shifty    = (shift_idy / feat_width) * stride;
  
             *out_anchor_ptr       = *anchor_ptr + shiftx;
             *(out_anchor_ptr + 1) = *(1 + anchor_ptr) + shifty;
             *(out_anchor_ptr + 2) = *(2 + anchor_ptr) + shiftx;
             *(out_anchor_ptr + 3) = *(3 + anchor_ptr) + shifty;
         },
         all_anchors_it);
 }

References ITensorInfo::dimension(), arm_compute::execute_window_loop(), ComputeAnchorsInfo::feat_width(), ITensor::info(), Iterator::ptr(), ITensor::ptr_to_element(), ComputeAnchorsInfo::spatial_scale(), and Window::y().

◆ compute_all_anchors_qasymm16()

void compute_all_anchors_qasymm16	(	const ITensor *	anchors,
		ITensor *	all_anchors,
		ComputeAnchorsInfo	anchors_info,
		const Window &	window
	)

Definition at line 31 of file impl.cpp.

 {
     Iterator all_anchors_it(all_anchors, window);
     Iterator anchors_it(all_anchors, window);
  
     const size_t num_anchors = anchors->info()->dimension(1);
     const float  stride      = 1.f / anchors_info.spatial_scale();
     const size_t feat_width  = anchors_info.feat_width();
  
     const UniformQuantizationInfo qinfo = anchors->info()->quantization_info().uniform();
  
     execute_window_loop(
         window,
         [&](const Coordinates &id)
         {
             const size_t anchor_offset = id.y() % num_anchors;
  
             const auto out_anchor_ptr = reinterpret_cast<int16_t *>(all_anchors_it.ptr());
             const auto anchor_ptr = reinterpret_cast<int16_t *>(anchors->ptr_to_element(Coordinates(0, anchor_offset)));
  
             const size_t shift_idy = id.y() / num_anchors;
             const float  shiftx    = (shift_idy % feat_width) * stride;
             const float  shifty    = (shift_idy / feat_width) * stride;
  
             const float new_anchor_x1 = dequantize_qsymm16(*anchor_ptr, qinfo.scale) + shiftx;
             const float new_anchor_y1 = dequantize_qsymm16(*(1 + anchor_ptr), qinfo.scale) + shifty;
             const float new_anchor_x2 = dequantize_qsymm16(*(2 + anchor_ptr), qinfo.scale) + shiftx;
             const float new_anchor_y2 = dequantize_qsymm16(*(3 + anchor_ptr), qinfo.scale) + shifty;
  
             *out_anchor_ptr       = quantize_qsymm16(new_anchor_x1, qinfo.scale);
             *(out_anchor_ptr + 1) = quantize_qsymm16(new_anchor_y1, qinfo.scale);
             *(out_anchor_ptr + 2) = quantize_qsymm16(new_anchor_x2, qinfo.scale);
             *(out_anchor_ptr + 3) = quantize_qsymm16(new_anchor_y2, qinfo.scale);
         },
         all_anchors_it);
 }

References arm_compute::dequantize_qsymm16(), ITensorInfo::dimension(), arm_compute::execute_window_loop(), ComputeAnchorsInfo::feat_width(), ITensor::info(), Iterator::ptr(), ITensor::ptr_to_element(), arm_compute::test::validation::qinfo, ITensorInfo::quantization_info(), arm_compute::quantize_qsymm16(), QuantizationInfo::scale(), ComputeAnchorsInfo::spatial_scale(), QuantizationInfo::uniform(), and Window::y().

Referenced by neon_qu16_computeallanchors().

◆ compute_region_coordinate()

float arm_compute::cpu::compute_region_coordinate	(	int	p,
		float	bin_size,
		float	roi_anchor,
		float	max_value
	)

inline

Definition at line 267 of file impl.h.

 {
     const float region_start = p * bin_size + roi_anchor;
     return utility::clamp(region_start, 0.0f, max_value);
 }

References arm_compute::utility::clamp().

Referenced by roi_align().

◆ depth_to_space_nchw_any()

void depth_to_space_nchw_any	(	const uint8_t *	src,
		uint8_t *	dst,
		const uintptr_t	src_shape[4],
		const uintptr_t	src_strides[4],
		const uintptr_t	dst_strides[4],
		uintptr_t	element_size,
		uintptr_t	block_size
	)

Definition at line 35 of file impl.cpp.

 {
     ARM_COMPUTE_ERROR_ON(src_strides[0] != element_size);
     ARM_COMPUTE_ERROR_ON(dst_strides[0] != element_size);
  
     const auto dst_channels         = src_shape[2] / (block_size * block_size);
     const auto src_block_col_stride = dst_channels * src_strides[2];
     const auto src_block_row_stride = block_size * dst_channels * src_strides[2];
  
     auto *src_batch_ptr = src;
     auto *dst_batch_ptr = dst;
  
     for (uintptr_t batch = 0; batch < src_shape[3]; ++batch)
     {
         auto *src_channel_ptr = src_batch_ptr;
         auto *dst_channel_ptr = dst_batch_ptr;
  
         for (uintptr_t channel = 0; channel < dst_channels; ++channel)
         {
             auto *src_height_block_ptr = src_channel_ptr;
             auto *dst_row_ptr          = dst_channel_ptr;
  
             for (uintptr_t height_block = 0; height_block < src_shape[1]; ++height_block)
             {
                 auto *src_block_row_ptr = src_height_block_ptr;
  
                 for (uintptr_t block_row = 0; block_row < block_size; ++block_row)
                 {
                     auto *src_width_block_ptr = src_block_row_ptr;
                     auto *dst_col_ptr         = dst_row_ptr;
  
                     for (uintptr_t width_block = 0; width_block < src_shape[0]; ++width_block)
                     {
                         auto *src_block_col_ptr = src_width_block_ptr;
  
                         for (uintptr_t block_col = 0; block_col < block_size; ++block_col)
                         {
                             // The source pointer is accumulated as:
                             //
                             // src_block_col_ptr =
                             //   src +
                             //   batch * dst_strides[3] +
                             //   (channel + (block_row * block_size + block_col) * dst_channels) * src_strides[2] +
                             //   height_block * src_strides[1] +
                             //   width_block * element_size;
                             //
                             // The destination pointer is accumuated as:
                             //
                             // dst_col_ptr =
                             //   dst +
                             //   batch * dst_strides[3] +
                             //   channel * dst_strides[2] +
                             //   (height_block * block_size + block_row) * dst_strides[1] +
                             //   (width_block * block_size + block_col) * element_size
  
                             std::memcpy(dst_col_ptr, src_block_col_ptr, element_size);
  
                             src_block_col_ptr += src_block_col_stride;
                             dst_col_ptr += element_size;
                         }
  
                         src_width_block_ptr += element_size;
                     }
  
                     src_block_row_ptr += src_block_row_stride;
                     dst_row_ptr += dst_strides[1];
                 }
  
                 src_height_block_ptr += src_strides[1];
             }
  
             src_channel_ptr += src_strides[2];
             dst_channel_ptr += dst_strides[2];
         }
  
         src_batch_ptr += src_strides[3];
         dst_batch_ptr += dst_strides[3];
     }
 }

References ARM_COMPUTE_ERROR_ON, arm_compute::test::validation::dst, and arm_compute::test::validation::src.

Referenced by NEDepthToSpaceLayerKernel::run().

◆ depth_to_space_nhwc_any()

void depth_to_space_nhwc_any	(	const uint8_t *	src,
		uint8_t *	dst,
		const uintptr_t	src_shape[4],
		const uintptr_t	src_strides[4],
		const uintptr_t	dst_strides[4],
		uintptr_t	element_size,
		uintptr_t	block_size
	)

Definition at line 35 of file impl.cpp.

 {
     ARM_COMPUTE_ERROR_ON(src_strides[0] != element_size);
     ARM_COMPUTE_ERROR_ON(dst_strides[0] != element_size);
  
     const auto src_block_row_stride   = (src_shape[0] / block_size) * element_size;
     const auto dst_width_block_stride = block_size * dst_strides[1];
  
     auto *src_batch_ptr = src;
     auto *dst_batch_ptr = dst;
  
     for (uintptr_t batch = 0; batch < src_shape[3]; ++batch)
     {
         auto *src_height_block_ptr = src_batch_ptr;
         auto *dst_row_ptr          = dst_batch_ptr;
  
         for (uintptr_t height_block = 0; height_block < src_shape[2]; ++height_block)
         {
             auto *src_block_row_ptr = src_height_block_ptr;
  
             for (uintptr_t block_row = 0; block_row < block_size; ++block_row)
             {
                 auto *src_width_block_ptr = src_block_row_ptr;
                 auto *dst_width_block_ptr = dst_row_ptr;
  
                 for (uintptr_t width_block = 0; width_block < src_shape[1]; ++width_block)
                 {
                     // The source pointer is accumulated as:
                     //
                     // src_width_block_ptr =
                     //   src +
                     //   batch * src_strides[3] +
                     //   height_block * src_strides[2] +
                     //   width_block * src_strides[1] +
                     //   block_row * (src_shape[0] / block_size) * element_size;
                     //
                     // The destination pointer is accumulated as:
                     //
                     // dst_width_block_ptr =
                     //     dst +
                     //     batch * dst_strides[3] +
                     //     (height_block * block_size + block_row) * dst_strides[2] +
                     //     width_block * block_size * dst_strides[1];
  
                     std::memcpy(dst_width_block_ptr, src_width_block_ptr, src_block_row_stride);
  
                     src_width_block_ptr += src_strides[1];
                     dst_width_block_ptr += dst_width_block_stride;
                 }
  
                 src_block_row_ptr += src_block_row_stride;
                 dst_row_ptr += dst_strides[2];
             }
  
             src_height_block_ptr += src_strides[2];
         }
  
         src_batch_ptr += src_strides[3];
         dst_batch_ptr += dst_strides[3];
     }
 }

References ARM_COMPUTE_ERROR_ON, arm_compute::test::validation::dst, and arm_compute::test::validation::src.

Referenced by NEDepthToSpaceLayerKernel::run().

◆ depthwise_loop_generic_fp()

void arm_compute::cpu::depthwise_loop_generic_fp	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	biases,
		ITensor *	dst,
		const PadStrideInfo &	conv_info,
		const Size2D &	dilation,
		unsigned int	depth_multiplier,
		const Window &	window,
		bool	has_biases
	)

Definition at line 244 of file impl.h.

 {
     const auto run_info =
         DepthwiseConvolutionRunInfo(*src->info(), *weights->info(), conv_info, window, depth_multiplier);
  
     Window execution_window = window;
     execution_window.set(Window::DimX, Window::Dimension(0, run_info.input_depth, 1));
  
     Window win_input = execution_window;
     win_input.set(Window::DimX, Window::Dimension(0, run_info.input_depth, 1));
     win_input.set(Window::DimY, dim_manual_loop);
     win_input.set(Window::DimZ, dim_manual_loop);
  
     Window win_weights = window;
     win_weights.set_dimension_step(Window::DimX, run_info.x_step);
     win_weights.set(Window::DimY, dim_manual_loop);
     win_weights.set(Window::DimZ, dim_manual_loop);
     win_weights.set(Window::DimW, dim_manual_loop);
  
     Window win_output = window;
     win_output.set_dimension_step(Window::DimX, run_info.x_step);
  
     Iterator input_it(src, win_input);
     Iterator weights_it(weights, win_weights);
     Iterator output_it(dst, win_output);
     Iterator biases_it{};
  
     if (has_biases)
     {
         biases_it = Iterator(biases, win_weights);
     }
  
     execute_window_loop(
         execution_window,
         [&](const Coordinates &id)
         {
             std::vector<T> acc(depth_multiplier, static_cast<T>(0));
  
             const int input_y      = id.y() * run_info.conv_stride_x - run_info.conv_pad_left;
             const int input_z      = id.z() * run_info.conv_stride_y - run_info.conv_pad_top;
             int       input_offset = input_y * run_info.input_stride_y + input_z * run_info.input_stride_z;
  
             auto weights_ptr = weights_it.ptr();
             for (size_t h = 0; h < run_info.weights_height; ++h)
             {
                 int offs = input_offset;
                 for (size_t w = 0; w < run_info.weights_width; ++w)
                 {
                     const bool is_valid_region = is_valid_input_region(input_y, input_z, w, h, run_info, dilation);
                     const auto input_val =
                         is_valid_region ? *(reinterpret_cast<T *>(input_it.ptr() + std::min(static_cast<size_t>(offs),
                                                                                             run_info.input_max_offset)))
                                         : T(0);
  
                     for (size_t m = 0; m < depth_multiplier; ++m)
                     {
                         const auto weights_val =
                             *(reinterpret_cast<T *>(weights_ptr + m * sizeof(T) + w * run_info.weights_stride_y));
                         acc.at(m) = support::cpp11::fma(weights_val, input_val, acc.at(m));
                     }
  
                     offs += dilation.x() * run_info.input_stride_y;
                 }
  
                 weights_ptr += run_info.weights_stride_z;
                 input_offset += dilation.y() * run_info.input_stride_z;
             }
  
             if (has_biases)
             {
                 for (size_t m = 0; m < depth_multiplier; ++m)
                 {
                     const auto biases_val = *(reinterpret_cast<T *>(biases_it.ptr() + m * sizeof(T)));
                     *(reinterpret_cast<T *>(output_it.ptr() + m * sizeof(T))) = acc.at(m) + biases_val;
                 }
             }
             else
             {
                 for (size_t m = 0; m < depth_multiplier; ++m)
                 {
                     *(reinterpret_cast<T *>(output_it.ptr() + m * sizeof(T))) = acc.at(m);
                 }
             }
         },
         input_it, weights_it, biases_it, output_it);
 }

References arm_compute::test::validation::conv_info, dim_manual_loop, Window::DimW, Window::DimX, Window::DimY, Window::DimZ, arm_compute::test::validation::dst, arm_compute::execute_window_loop(), arm_compute::support::cpp11::fma(), ITensor::info(), is_valid_input_region(), Iterator::ptr(), Window::set(), Window::set_dimension_step(), arm_compute::test::validation::src, arm_compute::test::validation::w, Size2D::x(), and Size2D::y().

◆ depthwise_loop_multiplier1_fp()

void arm_compute::cpu::depthwise_loop_multiplier1_fp	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	biases,
		ITensor *	dst,
		const PadStrideInfo &	conv_info,
		const Size2D &	dilation,
		const Window &	window,
		bool	has_biases
	)

Definition at line 114 of file impl.h.

 {
     constexpr auto element_per_vector = vector_size / sizeof(T);
     using VectorType                  = typename wrapper::traits::neon_vector<T, element_per_vector>::type;
     using TagType                     = typename wrapper::traits::neon_vector<T, element_per_vector>::tag_type;
  
     const auto run_info = DepthwiseConvolutionRunInfo(*src->info(), *weights->info(), conv_info, window);
  
     const VectorType zero_vector = wrapper::vdup_n(static_cast<T>(0), TagType{});
  
     Window execution_window = window;
     execution_window.set(Window::DimX, dim_single_unit_step);
  
     Window win_input = window;
     win_input.set(Window::DimX, dim_manual_loop);
     win_input.set(Window::DimY, dim_manual_loop);
     win_input.set(Window::DimZ, dim_manual_loop);
  
     Window win_weights = win_input;
     win_weights.set(Window::DimW, dim_manual_loop);
  
     Window win_output = window;
     win_output.set(Window::DimX, dim_manual_loop);
  
     Iterator input_it(src, win_input);
     Iterator weights_it(weights, win_weights);
     Iterator output_it(dst, win_output);
     Iterator biases_it{};
  
     if (has_biases)
     {
         biases_it = Iterator(biases, win_weights);
     }
  
     execute_window_loop(
         execution_window,
         [&](const Coordinates &id)
         {
             const int32_t input_y           = id.y() * run_info.conv_stride_x - run_info.conv_pad_left;
             const int32_t input_z           = id.z() * run_info.conv_stride_y - run_info.conv_pad_top;
             const int64_t base_input_offset = input_y * run_info.input_stride_y + input_z * run_info.input_stride_z;
  
             auto const base_weights_ptr = weights_it.ptr();
             uint32_t   x                = run_info.x_start;
  
             for (; x < run_info.x_leftover_start; x += run_info.x_step)
             {
                 VectorType acc          = zero_vector;
                 auto       weights_ptr  = base_weights_ptr;
                 int64_t    input_offset = base_input_offset;
  
                 for (uint32_t h = 0; h < run_info.weights_height; ++h)
                 {
                     int64_t offs = input_offset + x * sizeof(T);
                     for (uint32_t w = 0; w < run_info.weights_width; ++w)
                     {
                         const bool is_valid_region = is_valid_input_region(input_y, input_z, w, h, run_info, dilation);
                         const auto input_vals =
                             is_valid_region
                                 ? wrapper::vload(reinterpret_cast<T *>(
                                       input_it.ptr() + std::min(static_cast<size_t>(offs), run_info.input_max_offset)))
                                 : zero_vector;
                         const auto weights_vals =
                             wrapper::vload(reinterpret_cast<T *>(weights_ptr + w * run_info.weights_stride_y) + x);
                         acc = wrapper::vmla(acc, weights_vals, input_vals);
  
                         offs += dilation.x() * run_info.input_stride_y;
                     }
  
                     weights_ptr += run_info.weights_stride_z;
                     input_offset += dilation.y() * run_info.input_stride_z;
                 }
  
                 if (has_biases)
                 {
                     const auto biases_vals = wrapper::vload(reinterpret_cast<T *>(biases_it.ptr()) + x);
                     acc                    = wrapper::vadd(acc, biases_vals);
                 }
  
                 wrapper::vstore(reinterpret_cast<T *>(output_it.ptr()) + x, acc);
             }
  
             for (; x < run_info.x_end; ++x)
             {
                 auto    acc_scalar   = T{0};
                 auto    weights_ptr  = base_weights_ptr;
                 int64_t input_offset = base_input_offset;
  
                 for (size_t h = 0; h < run_info.weights_height; ++h)
                 {
                     int64_t offs = input_offset + x * sizeof(T);
                     for (size_t w = 0; w < run_info.weights_width; ++w)
                     {
                         const bool is_valid_region = is_valid_input_region(input_y, input_z, w, h, run_info, dilation);
                         const auto input_vals =
                             is_valid_region
                                 ? *reinterpret_cast<T *>(input_it.ptr() +
                                                          std::min(static_cast<size_t>(offs), run_info.input_max_offset))
                                 : 0;
                         const auto weights_vals =
                             *(reinterpret_cast<T *>(weights_ptr + w * run_info.weights_stride_y) + x);
  
                         acc_scalar += (input_vals * weights_vals);
  
                         offs += dilation.x() * run_info.input_stride_y;
                     }
  
                     weights_ptr += run_info.weights_stride_z;
                     input_offset += dilation.y() * run_info.input_stride_z;
                 }
  
                 if (has_biases)
                 {
                     const auto biases_vals = *(reinterpret_cast<T *>(biases_it.ptr()) + x);
                     acc_scalar += biases_vals;
                 }
                 *(reinterpret_cast<T *>(output_it.ptr()) + x) = acc_scalar;
             }
         },
         input_it, weights_it, biases_it, output_it);
 }

References arm_compute::test::validation::conv_info, dim_manual_loop, dim_single_unit_step, Window::DimW, Window::DimX, Window::DimY, Window::DimZ, arm_compute::test::validation::dst, arm_compute::execute_window_loop(), arm_compute::test::validation::for(), ITensor::info(), is_valid_input_region(), Iterator::ptr(), Window::set(), arm_compute::test::validation::src, arm_compute::wrapper::vadd(), arm_compute::wrapper::vdup_n(), vector_size, arm_compute::wrapper::vload(), arm_compute::wrapper::vmla(), arm_compute::wrapper::vstore(), arm_compute::test::validation::w, Size2D::x(), and Size2D::y().

◆ directconv3d_float_neon_ndhwc()

void arm_compute::cpu::directconv3d_float_neon_ndhwc	(	const ITensor *	src0,
		const ITensor *	src1,
		const ITensor *	src2,
		ITensor *	dst,
		const Conv3dInfo &	conv_info,
		const Window &	window
	)

Definition at line 40 of file list.h.

 {
     const ITensor *src     = src0;
     const ITensor *weights = src1;
     const ITensor *biases  = src2;
  
     using vtype                                = wrapper::traits::neon_bitvector<T, wrapper::traits::BitWidth::W128>;
     using vector_type                          = typename vtype::type;
     using tag_type                             = typename vtype::tag_type;
     constexpr int num_elems_read_per_iteration = 16 / sizeof(T);
  
     // Scalar quantities (N D H W Cin)
     const int element_size   = src->info()->element_size();
     const int input_stride_w = src->info()->strides_in_bytes().y() / element_size;
     const int input_stride_h = src->info()->strides_in_bytes().z() / element_size;
     const int input_stride_d = src->info()->strides_in_bytes()[3] / element_size;
     const int input_stride_n = src->info()->strides_in_bytes()[4] / element_size;
     const int input_dim_w    = src->info()->dimension(1);
     const int input_dim_h    = src->info()->dimension(2);
     const int input_dim_d    = src->info()->dimension(3);
  
     // Kernel info (D H W Cin Cout)
     const unsigned int kernel_stride_w = weights->info()->strides_in_bytes()[2] / element_size;
     const unsigned int kernel_stride_h = weights->info()->strides_in_bytes()[3] / element_size;
     const unsigned int kernel_stride_d = weights->info()->strides_in_bytes()[4] / element_size;
     const int          kernel_dim_w    = weights->info()->dimension(2);
     const int          kernel_dim_h    = weights->info()->dimension(3);
     const int          kernel_dim_d    = weights->info()->dimension(4);
  
     // Convolution padding and stride
     const int conv_pad_top   = conv_info.padding.top;
     const int conv_pad_left  = conv_info.padding.left;
     const int conv_pad_front = conv_info.padding.front;
     const int conv_stride_w  = conv_info.stride.width;
     const int conv_stride_h  = conv_info.stride.height;
     const int conv_stride_d  = conv_info.stride.depth;
  
     // Setup input window for the output iterator
     Window window_out = window;
     window_out.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     // Setup input window for the weights iterator
     Window window_w = calculate_max_window(*weights->info(), Steps());
     window_w.set(Window::DimY, Window::Dimension(0, 1, 1));
     window_w.set(Window::DimZ, Window::Dimension(0, 1, 1));
     window_w.set(Window::DimW, Window::Dimension(0, 1, 1));
     window_w.set(4, Window::Dimension(0, 1, 1));
  
     Iterator out(dst, window_out);
     Iterator wei(weights, window_w);
  
     const T *biases_ptr = nullptr;
     if (biases != nullptr)
     {
         biases_ptr = reinterpret_cast<T *>(biases->buffer() + biases->info()->offset_first_element_in_bytes());
     }
     execute_window_loop(
         window_out,
         [&](const Coordinates &id)
         {
             // We are computing the theoretical input starting points
             const int in_w_start_t = static_cast<int>(id.y()) * conv_stride_w - conv_pad_left;
             const int in_h_start_t = static_cast<int>(id.z()) * conv_stride_h - conv_pad_top;
             const int in_d_start_t = static_cast<int>(id[3]) * conv_stride_d - conv_pad_front;
             const int in_w_end_t   = in_w_start_t + kernel_dim_w;
             const int in_h_end_t   = in_h_start_t + kernel_dim_h;
             const int in_d_end_t   = in_d_start_t + kernel_dim_d;
  
             // We are computing the valid initial and ending input points by checking the borders
             const int in_w_start = std::max(in_w_start_t, 0);
             const int in_h_start = std::max(in_h_start_t, 0);
             const int in_d_start = std::max(in_d_start_t, 0);
             const int in_w_end   = std::min(in_w_end_t, input_dim_w);
             const int in_h_end   = std::min(in_h_end_t, input_dim_h);
             const int in_d_end   = std::min(in_d_end_t, input_dim_d);
  
             // We use the input points to select the valid weight points to use
             const int wei_w_start = in_w_start - in_w_start_t;
             const int wei_h_start = in_h_start - in_h_start_t;
             const int wei_d_start = in_d_start - in_d_start_t;
             const int wei_w_end   = kernel_dim_w - (in_w_end_t - in_w_end);
             const int wei_h_end   = kernel_dim_h - (in_h_end_t - in_h_end);
             const int wei_d_end   = kernel_dim_d - (in_d_end_t - in_d_end);
  
             const int      index_c_out_end = weights->info()->dimension(0);
             const int      index_c_in_end  = weights->info()->dimension(1);
             const T *const in_ptr_start =
                 reinterpret_cast<const T *>(src->buffer() + src->info()->offset_first_element_in_bytes()) +
                 id[4] * input_stride_n;
  
             execute_window_loop(
                 window_w,
                 [&](const Coordinates &id_w)
                 {
                     /*
             * This is the loop in the weights, and it goes along OFM (output feature map)
             */
                     const auto weights_ptr_start = reinterpret_cast<const T *>(wei.ptr());
                     T          out_temp          = static_cast<T>(0);
                     T         *out_ptr           = reinterpret_cast<T *>(out.ptr());
                     for (int index_wei_d = wei_d_start, index_in_d = in_d_start; index_wei_d < wei_d_end;
                          ++index_wei_d, ++index_in_d)
                     {
                         const auto in_ptr_d      = in_ptr_start + index_in_d * input_stride_d;
                         const auto weights_ptr_d = weights_ptr_start + index_wei_d * kernel_stride_d;
                         for (int index_wei_h = wei_h_start, index_in_h = in_h_start; index_wei_h < wei_h_end;
                              ++index_wei_h, ++index_in_h)
                         {
                             const T *const in_ptr_row      = in_ptr_d + index_in_h * input_stride_h;
                             const T *const weights_ptr_row = weights_ptr_d + index_wei_h * kernel_stride_h;
                             for (int index_wei_w = wei_w_start, index_in_w = in_w_start; index_wei_w < wei_w_end;
                                  ++index_wei_w, ++index_in_w)
                             {
                                 const T    *in_ptr_mover      = in_ptr_row + index_in_w * input_stride_w;
                                 const T    *weights_ptr_mover = weights_ptr_row + index_wei_w * kernel_stride_w;
                                 int         index_c_in        = 0;
                                 vector_type out_temp_vec      = wrapper::vdup_n(static_cast<T>(0), tag_type());
                                 vector_type w_vec             = wrapper::vdup_n(static_cast<T>(0), tag_type());
                                 for (; index_c_in <= index_c_in_end - num_elems_read_per_iteration;
                                      index_c_in += num_elems_read_per_iteration,
                                      in_ptr_mover += num_elems_read_per_iteration)
                                 {
                                     const auto src_vec = wrapper::vloadq(in_ptr_mover);
                                     //Load Cin weights
                                     for (int k = 0; k < num_elems_read_per_iteration;
                                          ++k, weights_ptr_mover += index_c_out_end)
                                     {
                                         w_vec = wrapper::vsetlane(*weights_ptr_mover, w_vec, k);
                                     }
                                     out_temp_vec = wrapper::vmla(out_temp_vec, w_vec, src_vec);
                                 }
                                 out_temp += vreduce(out_temp_vec);
                                 for (; index_c_in < index_c_in_end;
                                      ++index_c_in, ++in_ptr_mover, weights_ptr_mover += index_c_out_end)
                                 {
                                     const auto src_val = *(in_ptr_mover);
                                     const auto w_val   = *(weights_ptr_mover);
                                     out_temp += src_val * w_val;
                                 }
                             }
                         }
                     }
                     *(reinterpret_cast<T *>(out_ptr + id_w[0])) =
                         (biases_ptr != nullptr) ? out_temp + biases_ptr[id_w[0]] : out_temp;
                 },
                 wei);
         },
         out);
 }

References ITensor::buffer(), arm_compute::calculate_max_window(), arm_compute::test::validation::conv_info, ITensorInfo::dimension(), Window::DimW, Window::DimX, Window::DimY, Window::DimZ, arm_compute::test::validation::dst, arm_compute::execute_window_loop(), ITensor::info(), ITensorInfo::offset_first_element_in_bytes(), Iterator::ptr(), Window::set(), arm_compute::test::validation::src, ITensorInfo::strides_in_bytes(), type, arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmla(), arm_compute::vreduce(), and arm_compute::wrapper::vsetlane().

◆ directconv3d_quantized_neon_ndhwc()

void arm_compute::cpu::directconv3d_quantized_neon_ndhwc	(	const ITensor *	src0,
		const ITensor *	src1,
		const ITensor *	src2,
		ITensor *	dst,
		const Conv3dInfo &	conv_info,
		const Window &	window
	)

Definition at line 41 of file quantized.h.

 {
     const ITensor *src     = src0;
     const ITensor *weights = src1;
     const ITensor *biases  = src2;
  
     using vtype                                = wrapper::traits::neon_bitvector<T, wrapper::traits::BitWidth::W128>;
     using vector_type                          = typename vtype::type;
     using tag_type                             = typename vtype::tag_type;
     constexpr int num_elems_read_per_iteration = 16 / sizeof(T);
     using q16_t                                = typename wrapper::traits::promote_t<T>;
     using q32_t                                = typename wrapper::traits::promote_t<q16_t>;
     using q32x4_t                              = typename wrapper::traits::neon_vector<q32_t, 4>::type;
  
     const int32_t input_offset   = -src->info()->quantization_info().uniform().offset;
     const float   input_scale    = src->info()->quantization_info().uniform().scale;
     const int32_t weights_offset = -weights->info()->quantization_info().uniform().offset;
     const float   weights_scale  = weights->info()->quantization_info().uniform().scale;
     const int32_t output_offset  = dst->info()->quantization_info().uniform().offset;
     const float   output_scale   = dst->info()->quantization_info().uniform().scale;
  
     int32_t     output_multiplier = 0;
     int32_t     output_shift      = 0;
     const float multiplier        = input_scale * weights_scale / output_scale;
     arm_compute::quantization::calculate_quantized_multiplier(multiplier, &output_multiplier, &output_shift);
  
     // Scalar quantities (N D H W Cin)
     const int element_size   = src->info()->element_size();
     const int input_stride_w = src->info()->strides_in_bytes().y() / element_size;
     const int input_stride_h = src->info()->strides_in_bytes().z() / element_size;
     const int input_stride_d = src->info()->strides_in_bytes()[3] / element_size;
     const int input_stride_n = src->info()->strides_in_bytes()[4] / element_size;
     const int input_dim_w    = src->info()->dimension(1);
     const int input_dim_h    = src->info()->dimension(2);
     const int input_dim_d    = src->info()->dimension(3);
  
     // Kernel info (D H W Cin Cout)
     const unsigned int kernel_stride_w = weights->info()->strides_in_bytes()[2] / element_size;
     const unsigned int kernel_stride_h = weights->info()->strides_in_bytes()[3] / element_size;
     const unsigned int kernel_stride_d = weights->info()->strides_in_bytes()[4] / element_size;
     const int          kernel_dim_w    = weights->info()->dimension(2);
     const int          kernel_dim_h    = weights->info()->dimension(3);
     const int          kernel_dim_d    = weights->info()->dimension(4);
  
     // Convolution padding and stride
     const int conv_pad_top   = conv_info.padding.top;
     const int conv_pad_left  = conv_info.padding.left;
     const int conv_pad_front = conv_info.padding.front;
     const int conv_stride_w  = conv_info.stride.width;
     const int conv_stride_h  = conv_info.stride.height;
     const int conv_stride_d  = conv_info.stride.depth;
  
     // Setup input window for the output iterator
     Window window_out = window;
     window_out.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     // Setup input window for the weights iterator
     Window window_w = calculate_max_window(*weights->info(), Steps());
     window_w.set(Window::DimY, Window::Dimension(0, 1, 1));
     window_w.set(Window::DimZ, Window::Dimension(0, 1, 1));
     window_w.set(Window::DimW, Window::Dimension(0, 1, 1));
     window_w.set(4, Window::Dimension(0, 1, 1));
  
     Iterator out(dst, window_out);
     Iterator wei(weights, window_w);
  
     const int32_t *biases_ptr = nullptr;
     if (biases != nullptr)
     {
         biases_ptr = reinterpret_cast<int32_t *>(biases->buffer() + biases->info()->offset_first_element_in_bytes());
     }
     execute_window_loop(
         window_out,
         [&](const Coordinates &id)
         {
             // We are computing the theoretical input starting points
             const int in_w_start_t = static_cast<int>(id.y()) * conv_stride_w - conv_pad_left;
             const int in_h_start_t = static_cast<int>(id.z()) * conv_stride_h - conv_pad_top;
             const int in_d_start_t = static_cast<int>(id[3]) * conv_stride_d - conv_pad_front;
             const int in_w_end_t   = in_w_start_t + kernel_dim_w;
             const int in_h_end_t   = in_h_start_t + kernel_dim_h;
             const int in_d_end_t   = in_d_start_t + kernel_dim_d;
  
             // We are computing the valid initial and ending input points by checking the borders
             const int in_w_start = std::max(in_w_start_t, 0);
             const int in_h_start = std::max(in_h_start_t, 0);
             const int in_d_start = std::max(in_d_start_t, 0);
             const int in_w_end   = std::min(in_w_end_t, input_dim_w);
             const int in_h_end   = std::min(in_h_end_t, input_dim_h);
             const int in_d_end   = std::min(in_d_end_t, input_dim_d);
  
             // We use the input points to select the valid weight points to use
             const int wei_w_start = in_w_start - in_w_start_t;
             const int wei_h_start = in_h_start - in_h_start_t;
             const int wei_d_start = in_d_start - in_d_start_t;
             const int wei_w_end   = kernel_dim_w - (in_w_end_t - in_w_end);
             const int wei_h_end   = kernel_dim_h - (in_h_end_t - in_h_end);
             const int wei_d_end   = kernel_dim_d - (in_d_end_t - in_d_end);
  
             const int      index_c_out_end = weights->info()->dimension(0);
             const int      index_c_in_end  = weights->info()->dimension(1);
             const T *const in_ptr_start =
                 reinterpret_cast<const T *>(src->buffer() + src->info()->offset_first_element_in_bytes()) +
                 id[4] * input_stride_n;
  
             execute_window_loop(
                 window_w,
                 [&](const Coordinates &id_w)
                 {
                     /*
             * This is the loop in the weights, and it goes along OFM (output feature map)
             */
                     const auto weights_ptr_start = reinterpret_cast<const T *>(wei.ptr());
                     int32_t    acc               = static_cast<int32_t>(0);
                     T         *out_ptr           = reinterpret_cast<T *>(out.ptr());
                     for (int index_wei_d = wei_d_start, index_in_d = in_d_start; index_wei_d < wei_d_end;
                          ++index_wei_d, ++index_in_d)
                     {
                         const auto in_ptr_d      = in_ptr_start + index_in_d * input_stride_d;
                         const auto weights_ptr_d = weights_ptr_start + index_wei_d * kernel_stride_d;
                         for (int index_wei_h = wei_h_start, index_in_h = in_h_start; index_wei_h < wei_h_end;
                              ++index_wei_h, ++index_in_h)
                         {
                             const T *const in_ptr_row      = in_ptr_d + index_in_h * input_stride_h;
                             const T *const weights_ptr_row = weights_ptr_d + index_wei_h * kernel_stride_h;
                             for (int index_wei_w = wei_w_start, index_in_w = in_w_start; index_wei_w < wei_w_end;
                                  ++index_wei_w, ++index_in_w)
                             {
                                 const T    *in_ptr_mover      = in_ptr_row + index_in_w * input_stride_w;
                                 const T    *weights_ptr_mover = weights_ptr_row + index_wei_w * kernel_stride_w;
                                 int         index_c_in        = 0;
                                 vector_type w_vec             = wrapper::vdup_n(static_cast<T>(0), tag_type());
  
                                 q32x4_t acc_q32_0 = wrapper::vdup_n(static_cast<q32_t>(0), tag_type());
                                 q32x4_t acc_q32_1 = wrapper::vdup_n(static_cast<q32_t>(0), tag_type());
                                 q32x4_t acc_q32_2 = wrapper::vdup_n(static_cast<q32_t>(0), tag_type());
                                 q32x4_t acc_q32_3 = wrapper::vdup_n(static_cast<q32_t>(0), tag_type());
  
                                 for (; index_c_in <= index_c_in_end - num_elems_read_per_iteration;
                                      index_c_in += num_elems_read_per_iteration,
                                      in_ptr_mover += num_elems_read_per_iteration)
                                 {
                                     const auto src_vec = wrapper::vloadq(in_ptr_mover);
                                     //Load Cin weights
                                     for (int k = 0; k < num_elems_read_per_iteration;
                                          ++k, weights_ptr_mover += index_c_out_end)
                                     {
                                         w_vec = wrapper::vsetlane(*weights_ptr_mover, w_vec, k);
                                     }
                                     q32x4_t src_q32_0 = wrapper::vdup_n(static_cast<q32_t>(input_offset), tag_type());
                                     q32x4_t src_q32_1 = wrapper::vdup_n(static_cast<q32_t>(input_offset), tag_type());
                                     q32x4_t src_q32_2 = wrapper::vdup_n(static_cast<q32_t>(input_offset), tag_type());
                                     q32x4_t src_q32_3 = wrapper::vdup_n(static_cast<q32_t>(input_offset), tag_type());
  
                                     q32x4_t wei_q32_0 = wrapper::vdup_n(static_cast<q32_t>(weights_offset), tag_type());
                                     q32x4_t wei_q32_1 = wrapper::vdup_n(static_cast<q32_t>(weights_offset), tag_type());
                                     q32x4_t wei_q32_2 = wrapper::vdup_n(static_cast<q32_t>(weights_offset), tag_type());
                                     q32x4_t wei_q32_3 = wrapper::vdup_n(static_cast<q32_t>(weights_offset), tag_type());
  
                                     const auto src_q16_0 = wrapper::vmovl(wrapper::vgetlow(src_vec));
                                     const auto src_q16_1 = wrapper::vmovl(wrapper::vgethigh(src_vec));
                                     const auto wei_q16_0 = wrapper::vmovl(wrapper::vgetlow(w_vec));
                                     const auto wei_q16_1 = wrapper::vmovl(wrapper::vgethigh(w_vec));
  
                                     src_q32_0 = wrapper::vadd(src_q32_0, wrapper::vmovl(wrapper::vgetlow(src_q16_0)));
                                     src_q32_1 = wrapper::vadd(src_q32_1, wrapper::vmovl(wrapper::vgethigh(src_q16_0)));
                                     src_q32_2 = wrapper::vadd(src_q32_2, wrapper::vmovl(wrapper::vgetlow(src_q16_1)));
                                     src_q32_3 = wrapper::vadd(src_q32_3, wrapper::vmovl(wrapper::vgethigh(src_q16_1)));
  
                                     wei_q32_0 = wrapper::vadd(wei_q32_0, wrapper::vmovl(wrapper::vgetlow(wei_q16_0)));
                                     wei_q32_1 = wrapper::vadd(wei_q32_1, wrapper::vmovl(wrapper::vgethigh(wei_q16_0)));
                                     wei_q32_2 = wrapper::vadd(wei_q32_2, wrapper::vmovl(wrapper::vgetlow(wei_q16_1)));
                                     wei_q32_3 = wrapper::vadd(wei_q32_3, wrapper::vmovl(wrapper::vgethigh(wei_q16_1)));
  
                                     acc_q32_0 = wrapper::vmla(acc_q32_0, wei_q32_0, src_q32_0);
                                     acc_q32_1 = wrapper::vmla(acc_q32_1, wei_q32_1, src_q32_1);
                                     acc_q32_2 = wrapper::vmla(acc_q32_2, wei_q32_2, src_q32_2);
                                     acc_q32_3 = wrapper::vmla(acc_q32_3, wei_q32_3, src_q32_3);
                                 }
 #if defined(__aarch64__)
                                 acc += wrapper::vaddv(acc_q32_0);
                                 acc += wrapper::vaddv(acc_q32_1);
                                 acc += wrapper::vaddv(acc_q32_2);
                                 acc += wrapper::vaddv(acc_q32_3);
 #else // __aarch64__
                                 auto temp = wrapper::vpadd(wrapper::vgethigh(acc_q32_0), wrapper::vgetlow(acc_q32_0));
                                 temp      = wrapper::vpadd(temp, temp);
                                 acc += wrapper::vgetlane(temp, 0);
  
                                 temp = wrapper::vpadd(wrapper::vgethigh(acc_q32_1), wrapper::vgetlow(acc_q32_1));
                                 temp = wrapper::vpadd(temp, temp);
                                 acc += wrapper::vgetlane(temp, 0);
  
                                 temp = wrapper::vpadd(wrapper::vgethigh(acc_q32_2), wrapper::vgetlow(acc_q32_2));
                                 temp = wrapper::vpadd(temp, temp);
                                 acc += wrapper::vgetlane(temp, 0);
  
                                 temp = wrapper::vpadd(wrapper::vgethigh(acc_q32_3), wrapper::vgetlow(acc_q32_3));
                                 temp = wrapper::vpadd(temp, temp);
                                 acc += wrapper::vgetlane(temp, 0);
  
 #endif // __aarch64__
  
                                 for (; index_c_in < index_c_in_end;
                                      ++index_c_in, ++in_ptr_mover, weights_ptr_mover += index_c_out_end)
                                 {
                                     const auto src_val = *(in_ptr_mover) + input_offset;
                                     const auto w_val   = *(weights_ptr_mover) + weights_offset;
                                     acc += src_val * w_val;
                                 }
                             }
                         }
                     }
  
                     if (biases)
                     {
                         acc += *reinterpret_cast<const int32_t *>(biases_ptr + id_w[0]);
                     }
  
                     T out_val =
                         finalize_quantization(acc, output_multiplier, output_shift, output_offset, T(0), T(0), false);
                     *(reinterpret_cast<T *>(out_ptr + id_w[0])) = out_val;
                 },
                 wei);
         },
         out);
 }

◆ elementwise_arithm_op() [1/3]

float32x4x4_t arm_compute::cpu::elementwise_arithm_op	(	const float32x4x4_t &	a,
		const float32x4x4_t &	b
	)

Definition at line 643 of file impl.h.

 {
     using neon_vector_float = wrapper::traits::neon_vector<float, 4>;
     float32x4x4_t out       = {{
               elementwise_arithm_op<op, neon_vector_float>(a.val[0], b.val[0]),
               elementwise_arithm_op<op, neon_vector_float>(a.val[1], b.val[1]),
               elementwise_arithm_op<op, neon_vector_float>(a.val[2], b.val[2]),
               elementwise_arithm_op<op, neon_vector_float>(a.val[3], b.val[3]),
     }};
     return out;
 }

References arm_compute::test::validation::b.

◆ elementwise_arithm_op() [2/3]

void arm_compute::cpu::elementwise_arithm_op	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 301 of file impl.h.

 {
     using scalar_type = typename VectorType::scalar_type;
  
     elementwise_op<scalar_type, scalar_type, VectorType>(
         in1, in2, out, window, &elementwise_arithm_op_scalar<op, scalar_type>,
         &elementwise_arithm_op_broadcast_loop<op, scalar_type, VectorType>,
         &elementwise_arithm_op_loop<op, scalar_type, VectorType>);
 }

◆ elementwise_arithm_op() [3/3]

VectorType::type arm_compute::cpu::elementwise_arithm_op	(	const typename VectorType::type &	a,
		const typename VectorType::type &	b
	)

Definition at line 34 of file impl.h.

 {
     using vec_type    = typename VectorType::type;
     using scalar_type = typename VectorType::scalar_type;
     using tag_type    = typename VectorType::tag_type;
  
     vec_type res = wrapper::vdup_n(static_cast<scalar_type>(0), tag_type{});
  
     switch (op)
     {
         case ArithmeticOperation::MAX:
             res = wrapper::vmax(a, b);
             break;
         case ArithmeticOperation::MIN:
             res = wrapper::vmin(a, b);
             break;
         case ArithmeticOperation::SQUARED_DIFF:
         {
             const vec_type tmp = wrapper::vsub(a, b);
             res                = wrapper::vmul(tmp, tmp);
             break;
         }
         case ArithmeticOperation::PRELU:
         {
             const vec_type zero = wrapper::vdup_n(static_cast<scalar_type>(0), tag_type{});
             const vec_type tmp  = wrapper::vmul(a, b);
             const auto     gt   = wrapper::vcgt(a, zero);
  
             res = wrapper::vbsl(gt, a, tmp);
             break;
         }
  
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
  
     return res;
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::MAX, arm_compute::MIN, arm_compute::PRELU, arm_compute::SQUARED_DIFF, type, arm_compute::wrapper::vbsl(), arm_compute::wrapper::vcgt(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vmax(), arm_compute::wrapper::vmin(), arm_compute::wrapper::vmul(), and arm_compute::wrapper::vsub().

◆ elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< float, 4 > >()

float32x4_t arm_compute::cpu::elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< float, 4 > >	(	const float32x4_t &	a,
		const float32x4_t &	b
	)

inline

Definition at line 232 of file impl.h.

 {
     return wrapper::vdiv(a, b);
 }

References arm_compute::test::validation::b, and arm_compute::wrapper::vdiv().

◆ elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< int32_t, 4 > >()

int32x4_t arm_compute::cpu::elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< int32_t, 4 > >	(	const int32x4_t &	a,
		const int32x4_t &	b
	)

inline

Definition at line 224 of file impl.h.

 {
     return vcvtq_s32_f32(vfloorq_f32(wrapper::vdiv(vcvtq_f32_s32(a), vcvtq_f32_s32(b))));
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vdiv(), and arm_compute::vfloorq_f32().

◆ elementwise_arithm_op< ArithmeticOperation::POWER, typename wrapper::traits::neon_vector< float, 4 > >()

float32x4_t arm_compute::cpu::elementwise_arithm_op< ArithmeticOperation::POWER, typename wrapper::traits::neon_vector< float, 4 > >	(	const float32x4_t &	a,
		const float32x4_t &	b
	)

inline

Definition at line 240 of file impl.h.

 {
     return wrapper::vpow(a, b);
 }

References arm_compute::test::validation::b, and arm_compute::wrapper::vpow().

◆ elementwise_arithm_op_broadcast()

VectorType::type arm_compute::cpu::elementwise_arithm_op_broadcast	(	const typename VectorType::type &	a,
		const ScalarType &	broadcast_value,
		const bool	reorder
	)

Definition at line 74 of file impl.h.

 {
     using tag_type = typename VectorType::tag_type;
     using vec_type = typename VectorType::type;
  
     vec_type broadcast_vector = wrapper::vdup_n(broadcast_value, tag_type{});
     return elementwise_arithm_op<op, VectorType>(reorder ? broadcast_vector : a, reorder ? a : broadcast_vector);
 }

References type, and arm_compute::wrapper::vdup_n().

◆ elementwise_arithm_op_broadcast_loop()

int arm_compute::cpu::elementwise_arithm_op_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const ScalarType *	non_broadcast_input_ptr,
		const ScalarType &	broadcast_value,
		ScalarType *	output_ptr,
		const bool	reorder
	)

inline

Definition at line 282 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = wrapper::vloadq((non_broadcast_input_ptr + x));
         wrapper::vstore(output_ptr + x,
                         elementwise_arithm_op_broadcast<op, ScalarType, VectorType>(a, broadcast_value, reorder));
     }
     return x;
 }

References arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ elementwise_arithm_op_loop()

int arm_compute::cpu::elementwise_arithm_op_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const ScalarType *	input1_ptr,
		const ScalarType *	input2_ptr,
		ScalarType *	output_ptr
	)

inline

Definition at line 264 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = wrapper::vloadq(input1_ptr + x);
         const auto b = wrapper::vloadq(input2_ptr + x);
         wrapper::vstore(output_ptr + x, elementwise_arithm_op<op, VectorType>(a, b));
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ elementwise_arithm_op_quantized()

void arm_compute::cpu::elementwise_arithm_op_quantized	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 1283 of file impl.h.

 {
     elementwise_op_quantized(in1, in2, out, window, &elementwise_arithm_op_quantized_scalar<op>,
                              &elementwise_arithm_op_quantized_broadcast_loop<op>,
                              &elementwise_arithm_op_quantized_loop<op>);
 }

References elementwise_op_quantized().

◆ elementwise_arithm_op_quantized_broadcast_loop()

int arm_compute::cpu::elementwise_arithm_op_quantized_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const uint8_t *	non_broadcast_input_ptr,
		float32x4x4_t	broadcast_vector,
		uint8_t *	output_ptr,
		int32x4_t	voffset_non_broadcast,
		float32x4_t	vscale_non_broadcast,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo,
		bool	reorder
	)

inline

Definition at line 725 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af =
             load_quantized(non_broadcast_input_ptr + x, voffset_non_broadcast, vscale_non_broadcast);
         const float32x4x4_t rf =
             elementwise_arithm_op<op>(reorder ? broadcast_vector : af, reorder ? af : broadcast_vector);
         store_quantized(output_ptr + x, rf, voffseto, invvscaleo);
     }
     return x;
 }

References load_quantized(), and store_quantized().

◆ elementwise_arithm_op_quantized_loop()

int arm_compute::cpu::elementwise_arithm_op_quantized_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const uint8_t *	input1_ptr,
		const uint8_t *	input2_ptr,
		uint8_t *	output_ptr,
		int32x4_t	voffset1,
		int32x4_t	voffset2,
		float32x4_t	vscale1,
		float32x4_t	vscale2,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo
	)

inline

Definition at line 673 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         // Get inputs and compute output
         const float32x4x4_t af = load_quantized(input1_ptr + x, voffset1, vscale1);
         const float32x4x4_t bf = load_quantized(input2_ptr + x, voffset2, vscale2);
         const float32x4x4_t rf = elementwise_arithm_op<op>(af, bf);
         store_quantized(output_ptr + x, rf, voffseto, invvscaleo);
     }
     return x;
 }

References load_quantized(), and store_quantized().

◆ elementwise_arithm_op_quantized_scalar()

uint8_t arm_compute::cpu::elementwise_arithm_op_quantized_scalar	(	const float &	a,
		const float &	b,
		UniformQuantizationInfo	qinfo
	)

inline

Definition at line 630 of file impl.h.

 {
     return quantize_qasymm8(elementwise_arithm_op_scalar<op>(a, b), qinfo);
 }

References arm_compute::test::validation::b, arm_compute::test::validation::qinfo, and arm_compute::quantize_qasymm8().

◆ elementwise_arithm_op_quantized_signed()

void arm_compute::cpu::elementwise_arithm_op_quantized_signed	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 1291 of file impl.h.

 {
     elementwise_op_quantized_signed(in1, in2, out, window, &elementwise_arithm_op_quantized_signed_scalar<op>,
                                     &elementwise_arithm_op_quantized_signed_broadcast_loop<op>,
                                     &elementwise_arithm_op_quantized_singed_loop<op>);
 }

References elementwise_op_quantized_signed().

◆ elementwise_arithm_op_quantized_signed_broadcast_loop()

int arm_compute::cpu::elementwise_arithm_op_quantized_signed_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const int8_t *	non_broadcast_input_ptr,
		float32x4x4_t	broadcast_vector,
		int8_t *	output_ptr,
		int32x4_t	voffset_non_broadcast,
		float32x4_t	vscale_non_broadcast,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo,
		bool	reorder
	)

inline

Definition at line 749 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af =
             load_quantized_signed(non_broadcast_input_ptr + x, voffset_non_broadcast, vscale_non_broadcast);
         const float32x4x4_t rf =
             elementwise_arithm_op<op>(reorder ? broadcast_vector : af, reorder ? af : broadcast_vector);
         store_quantized_signed(output_ptr + x, rf, voffseto, invvscaleo);
     }
     return x;
 }

References load_quantized_signed(), and store_quantized_signed().

◆ elementwise_arithm_op_quantized_signed_scalar()

int8_t arm_compute::cpu::elementwise_arithm_op_quantized_signed_scalar	(	const float &	a,
		const float &	b,
		UniformQuantizationInfo	qinfo
	)

inline

Definition at line 637 of file impl.h.

 {
     return quantize_qasymm8_signed(elementwise_arithm_op_scalar<op>(a, b), qinfo);
 }

References arm_compute::test::validation::b, arm_compute::test::validation::qinfo, and arm_compute::quantize_qasymm8_signed().

◆ elementwise_arithm_op_quantized_singed_loop()

int arm_compute::cpu::elementwise_arithm_op_quantized_singed_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const int8_t *	input1_ptr,
		const int8_t *	input2_ptr,
		int8_t *	output_ptr,
		int32x4_t	voffset1,
		int32x4_t	voffset2,
		float32x4_t	vscale1,
		float32x4_t	vscale2,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo
	)

inline

Definition at line 699 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         // Get inputs and compute output
         const float32x4x4_t af = load_quantized_signed(input1_ptr + x, voffset1, vscale1);
         const float32x4x4_t bf = load_quantized_signed(input2_ptr + x, voffset2, vscale2);
         const float32x4x4_t rf = elementwise_arithm_op<op>(af, bf);
         store_quantized_signed(output_ptr + x, rf, voffseto, invvscaleo);
     }
     return x;
 }

References load_quantized_signed(), and store_quantized_signed().

◆ elementwise_arithm_op_scalar()

ScalarType arm_compute::cpu::elementwise_arithm_op_scalar	(	const ScalarType &	a,
		const ScalarType &	b
	)

inline

Definition at line 176 of file impl.h.

 {
     auto res = ScalarType(0);
  
     switch (op)
     {
         case ArithmeticOperation::MAX:
             res = std::max(a, b);
             break;
         case ArithmeticOperation::MIN:
             res = std::min(a, b);
             break;
         case ArithmeticOperation::SQUARED_DIFF:
         {
             res = (a - b) * (a - b);
             break;
         }
         case ArithmeticOperation::PRELU:
         {
             res = (a > 0 ? a : a * b);
             break;
         }
         case ArithmeticOperation::DIV:
         {
             res = a / b;
             if (std::is_integral<ScalarType>::value)
             {
                 res = (b == 0) ? 0 : res;
                 if (static_cast<int32_t>(a) % static_cast<int32_t>(b) != 0 && ((a < 0) != (b < 0)))
                 {
                     --res;
                 }
             }
             break;
         }
         case ArithmeticOperation::POWER:
         {
             res = std::pow(a, b);
             break;
         }
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
     return res;
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::DIV, arm_compute::MAX, arm_compute::MIN, arm_compute::POWER, arm_compute::PRELU, and arm_compute::SQUARED_DIFF.

◆ elementwise_arithmetic_op() [1/2]

void elementwise_arithmetic_op	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		ArithmeticOperation	op,
		const Window &	window
	)

Definition at line 38 of file impl.cpp.

 {
     using VectorType = typename sve_vector<ScalarType>::type;
  
     const auto all_true_pg = svptrue<ScalarType>();
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr              = reinterpret_cast<ScalarType *>(output.ptr());
                 const auto non_broadcast_input_ptr = reinterpret_cast<const ScalarType *>(non_broadcast_input.ptr());
                 const ScalarType broadcast_value   = *reinterpret_cast<const ScalarType *>(broadcast_input.ptr());
                 const auto       broadcast_vector  = svdup_n(broadcast_value);
  
                 int x = window_start_x;
  
                 svbool_t pg = svwhilelt<ScalarType>(x, window_end_x);
                 do
                 {
                     const auto non_broadcast_vector = svld1(pg, non_broadcast_input_ptr + x);
                     VectorType res{};
  
                     if (is_broadcast_input_2)
                     {
                         res = elementwise_arithmetic_op<typename sve_vector<ScalarType>::type>(pg, non_broadcast_vector,
                                                                                                broadcast_vector, op);
                     }
                     else
                     {
                         res = elementwise_arithmetic_op<typename sve_vector<ScalarType>::type>(
                             pg, broadcast_vector, non_broadcast_vector, op);
                     }
                     svst1(pg, output_ptr + x, res);
  
                     x += svcnt<ScalarType>();
                     pg = svwhilelt<ScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr = reinterpret_cast<ScalarType *>(output.ptr());
                 const auto input1_ptr = reinterpret_cast<const ScalarType *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const ScalarType *>(input2.ptr());
  
                 int x = window_start_x;
  
                 svbool_t pg = svwhilelt<ScalarType>(x, window_end_x);
                 do
                 {
                     const auto in1 = svld1(pg, input1_ptr + x);
                     const auto in2 = svld1(pg, input2_ptr + x);
                     const auto res = elementwise_arithmetic_op<typename sve_vector<ScalarType>::type>(pg, in1, in2, op);
                     svst1(pg, output_ptr + x, res);
  
                     x += svcnt<ScalarType>();
                     pg = svwhilelt<ScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             input1, input2, output);
     }
 }

References Window::broadcast_if_dimension_le_one(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), type, Dimensions< T >::x(), and Window::x().

◆ elementwise_arithmetic_op() [2/2]

VectorType arm_compute::cpu::elementwise_arithmetic_op	(	svbool_t &	pg,
		const VectorType &	a,
		const VectorType &	b,
		ArithmeticOperation	op
	)

Definition at line 73 of file impl.h.

 {
     using ScalarType = typename wrapper::sve_scalar<VectorType>::type;
     VectorType res{};
  
     switch (op)
     {
         case ArithmeticOperation::MAX:
             res = svmax_z(pg, a, b);
             break;
         case ArithmeticOperation::MIN:
             res = svmin_z(pg, a, b);
             break;
         case ArithmeticOperation::SQUARED_DIFF:
         {
             const auto tmp = svsub_z(pg, a, b);
             res            = svmul_z(pg, tmp, tmp);
             break;
         }
         case ArithmeticOperation::PRELU:
         {
             const auto zero = svdup_n(ScalarType(0));
             const auto tmp  = svmul_z(pg, a, b);
             const auto gt   = svcmpgt(pg, a, zero);
             res             = svsel(gt, a, tmp);
             break;
         }
         case ArithmeticOperation::DIV:
         {
             res = elementwise_div(pg, a, b);
             break;
         }
         case ArithmeticOperation::POWER:
         {
             res = elementwise_pow(pg, a, b);
             break;
         }
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
  
     return res;
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::DIV, elementwise_div(), elementwise_pow(), arm_compute::MAX, arm_compute::MIN, arm_compute::POWER, arm_compute::PRELU, arm_compute::SQUARED_DIFF, and type.

◆ elementwise_arithmetic_op< float16_t >()

template void arm_compute::cpu::elementwise_arithmetic_op< float16_t >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const ArithmeticOperation	op,
		const Window &	window
	)

◆ elementwise_arithmetic_op< float32_t >()

template void arm_compute::cpu::elementwise_arithmetic_op< float32_t >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const ArithmeticOperation	op,
		const Window &	window
	)

Referenced by sve_fp32_elementwise_binary().

◆ elementwise_arithmetic_op< int16_t >()

template void arm_compute::cpu::elementwise_arithmetic_op< int16_t >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const ArithmeticOperation	op,
		const Window &	window
	)

Referenced by sve_s16_elementwise_binary().

◆ elementwise_arithmetic_op< int32_t >()

template void arm_compute::cpu::elementwise_arithmetic_op< int32_t >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const ArithmeticOperation	op,
		const Window &	window
	)

Referenced by sve_s32_elementwise_binary().

◆ elementwise_arithmetic_quantized_op()

void arm_compute::cpu::elementwise_arithmetic_quantized_op	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		ArithmeticOperation	op,
		const Window &	window
	)

Definition at line 96 of file impl.h.

 {
     const auto all_true_pg = wrapper::svptrue<ScalarType>();
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
  
     const auto output_voffset = svdup_n(out->info()->quantization_info().uniform().offset);
     const auto output_vscale  = svdup_n(1.f / out->info()->quantization_info().uniform().scale);
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
  
         const auto non_broadcast_qinfo =
             is_broadcast_input_2 ? in1->info()->quantization_info() : in2->info()->quantization_info();
         const auto broadcast_qinfo =
             is_broadcast_input_2 ? in2->info()->quantization_info() : in1->info()->quantization_info();
  
         const auto non_broadcast_voffset = svdup_n(non_broadcast_qinfo.uniform().offset);
         const auto non_broadcast_vscale  = svdup_n(non_broadcast_qinfo.uniform().scale);
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr              = reinterpret_cast<ScalarType *>(output.ptr());
                 const auto non_broadcast_input_ptr = reinterpret_cast<const ScalarType *>(non_broadcast_input.ptr());
                 const ScalarType broadcast_value   = *reinterpret_cast<const ScalarType *>(broadcast_input.ptr());
                 const float      broadcast_value_f =
                     Qasymm8QuantizationHelper<ScalarType>::dequantize(broadcast_value, broadcast_qinfo);
                 const auto in2 = svcreate4(svdup_n(broadcast_value_f), svdup_n(broadcast_value_f),
                                            svdup_n(broadcast_value_f), svdup_n(broadcast_value_f));
  
                 int x = window_start_x;
  
                 svbool_t pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
                 do
                 {
                     const auto in1 =
                         load_quantized(non_broadcast_input_ptr + x, pg, non_broadcast_voffset, non_broadcast_vscale);
  
                     svfloat32x4_t result{};
  
                     if (!is_broadcast_input_2)
                     {
                         result =
                             svcreate4(elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in2, 0), svget4(in1, 0), op),
                                       elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in2, 1), svget4(in1, 1), op),
                                       elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in2, 2), svget4(in1, 2), op),
                                       elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in2, 3), svget4(in1, 3), op));
                     }
                     else
                     {
                         result =
                             svcreate4(elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in1, 0), svget4(in2, 0), op),
                                       elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in1, 1), svget4(in2, 1), op),
                                       elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in1, 2), svget4(in2, 2), op),
                                       elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in1, 3), svget4(in2, 3), op));
                     }
  
                     store_quantized(output_ptr + x, pg, result, output_voffset, output_vscale);
  
                     x += wrapper::svcnt<ScalarType>();
                     pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
  
         const auto in1_voffset = svdup_n(in1->info()->quantization_info().uniform().offset);
         const auto in1_vscale  = svdup_n(in1->info()->quantization_info().uniform().scale);
  
         const auto in2_voffset = svdup_n(in2->info()->quantization_info().uniform().offset);
         const auto in2_vscale  = svdup_n(in2->info()->quantization_info().uniform().scale);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr = reinterpret_cast<ScalarType *>(output.ptr());
                 const auto input1_ptr = reinterpret_cast<const ScalarType *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const ScalarType *>(input2.ptr());
  
                 int x = window_start_x;
  
                 svbool_t pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
                 do
                 {
                     const auto in1 = load_quantized(input1_ptr + x, pg, in1_voffset, in1_vscale);
                     const auto in2 = load_quantized(input2_ptr + x, pg, in2_voffset, in2_vscale);
  
                     const auto result =
                         svcreate4(elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in1, 0), svget4(in2, 0), op),
                                   elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in1, 1), svget4(in2, 1), op),
                                   elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in1, 2), svget4(in2, 2), op),
                                   elementwise_arithmetic_op<svfloat32_t>(pg, svget4(in1, 3), svget4(in2, 3), op));
  
                     store_quantized(output_ptr + x, pg, result, output_voffset, output_vscale);
  
                     x += wrapper::svcnt<ScalarType>();
                     pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             input1, input2, output);
     }
 }

References Window::broadcast_if_dimension_le_one(), Qasymm8QuantizationHelper< QUANTIZED_TYPE >::dequantize(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), load_quantized(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), store_quantized(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ elementwise_comp_op() [1/2]

uint32x4x4_t arm_compute::cpu::elementwise_comp_op	(	const float32x4x4_t &	a,
		const float32x4x4_t &	b
	)

inline

Definition at line 663 of file impl.h.

 {
     uint32x4x4_t out = {{elementwise_comp_op<op, float32x4_t, uint32x4_t>(a.val[0], b.val[0]),
                          elementwise_comp_op<op, float32x4_t, uint32x4_t>(a.val[1], b.val[1]),
                          elementwise_comp_op<op, float32x4_t, uint32x4_t>(a.val[2], b.val[2]),
                          elementwise_comp_op<op, float32x4_t, uint32x4_t>(a.val[3], b.val[3])}};
     return out;
 }

References arm_compute::test::validation::b.

◆ elementwise_comp_op() [2/2]

OutputVectorType arm_compute::cpu::elementwise_comp_op	(	const InputVectorType &	a,
		const InputVectorType &	b
	)

inline

Definition at line 343 of file impl.h.

 {
     OutputVectorType res = {0, 0, 0, 0};
  
     switch (op)
     {
         case ComparisonOperation::Equal:
             res = wrapper::vceq(a, b);
             break;
         case ComparisonOperation::NotEqual:
             res = wrapper::vnot(wrapper::vceq(a, b));
             break;
         case ComparisonOperation::Greater:
             res = wrapper::vcgt(a, b);
             break;
         case ComparisonOperation::GreaterEqual:
             res = wrapper::vcge(a, b);
             break;
         case ComparisonOperation::Less:
             res = wrapper::vcgt(b, a);
             break;
         case ComparisonOperation::LessEqual:
             res = wrapper::vcge(b, a);
             break;
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
  
     return res;
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::Equal, arm_compute::Greater, arm_compute::GreaterEqual, arm_compute::Less, arm_compute::LessEqual, arm_compute::NotEqual, arm_compute::wrapper::vceq(), arm_compute::wrapper::vcge(), arm_compute::wrapper::vcgt(), and arm_compute::wrapper::vnot().

◆ elementwise_comp_op_16()

void arm_compute::cpu::elementwise_comp_op_16	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 533 of file impl.h.

 {
     elementwise_op<InputScalarType, uint8_t, InputVectorType>(
         in1, in2, out, window, &elementwise_comp_op_scalar<op, InputScalarType>,
         &elementwise_comp_op_broadcast_16_loop<op, InputScalarType, InputVectorType>,
         &elementwise_comp_op_16_loop<op, InputScalarType, InputVectorType>);
 }

◆ elementwise_comp_op_16_loop()

int arm_compute::cpu::elementwise_comp_op_16_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	input1_ptr,
		const InputScalarType *	input2_ptr,
		uint8_t *	output_ptr
	)

inline

Definition at line 472 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a   = wrapper::vloadq(input1_ptr + x);
         const auto b   = wrapper::vloadq(input2_ptr + x);
         const auto res = elementwise_comp_op<op, InputVectorType, uint16x8_t>(a, b);
         wrapper::vstore(output_ptr + x, wrapper::vmovn(res));
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmovn(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_32()

void arm_compute::cpu::elementwise_comp_op_32	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 542 of file impl.h.

 {
     elementwise_op<InputScalarType, uint8_t, InputVectorType>(
         in1, in2, out, window, &elementwise_comp_op_scalar<op, InputScalarType>,
         &elementwise_comp_op_broadcast_32_loop<op, InputScalarType, InputVectorType>,
         &elementwise_comp_op_32_loop<op, InputScalarType, InputVectorType>);
 }

◆ elementwise_comp_op_32_loop()

int arm_compute::cpu::elementwise_comp_op_32_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	input1_ptr,
		const InputScalarType *	input2_ptr,
		uint8_t *	output_ptr
	)

inline

Definition at line 491 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         auto       a    = wrapper::vloadq(input1_ptr + x);
         auto       b    = wrapper::vloadq(input2_ptr + x);
         const auto res  = elementwise_comp_op<op, InputVectorType, uint32x4_t>(a, b);
         a               = wrapper::vloadq(input1_ptr + x + 4);
         b               = wrapper::vloadq(input2_ptr + x + 4);
         const auto res2 = elementwise_comp_op<op, InputVectorType, uint32x4_t>(a, b);
         wrapper::vstore(output_ptr + x, wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(res), wrapper::vmovn(res2))));
     }
     if (x <= window_end_x - 4)
     {
         const auto a   = wrapper::vloadq(input1_ptr + x);
         const auto b   = wrapper::vloadq(input2_ptr + x);
         const auto res = elementwise_comp_op<op, InputVectorType, uint32x4_t>(a, b);
         for (int i = 0; i < 4; i++)
         {
             *(output_ptr + x + i) = wrapper::vgetlane(res, i);
         }
         x = +4;
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vcombine(), arm_compute::wrapper::vgetlane(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmovn(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_8()

void arm_compute::cpu::elementwise_comp_op_8	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 524 of file impl.h.

 {
     elementwise_op<InputScalarType, uint8_t, InputVectorType>(
         in1, in2, out, window, &elementwise_comp_op_scalar<op, InputScalarType>,
         &elementwise_comp_op_broadcast_8_loop<op, InputScalarType, InputVectorType>,
         &elementwise_comp_op_8_loop<op, InputScalarType, InputVectorType>);
 }

◆ elementwise_comp_op_8_loop()

int arm_compute::cpu::elementwise_comp_op_8_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	input1_ptr,
		const InputScalarType *	input2_ptr,
		uint8_t *	output_ptr
	)

inline

Definition at line 453 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a   = wrapper::vloadq(input1_ptr + x);
         const auto b   = wrapper::vloadq(input2_ptr + x);
         const auto res = elementwise_comp_op<op, InputVectorType, uint8x16_t>(a, b);
         wrapper::vstore(output_ptr + x, res);
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_broadcast()

OutputVectorType arm_compute::cpu::elementwise_comp_op_broadcast	(	const InputVectorType &	a,
		const InputScalarType &	broadcast_value,
		const bool	reorder
	)

inline

Definition at line 376 of file impl.h.

 {
     InputVectorType broadcast_vector = wrapper::vdup_n(broadcast_value, wrapper::traits::vector_128_tag());
     return elementwise_comp_op<op, InputVectorType, OutputVectorType>(reorder ? broadcast_vector : a,
                                                                       reorder ? a : broadcast_vector);
 }

References arm_compute::wrapper::vdup_n().

◆ elementwise_comp_op_broadcast_16_loop()

int arm_compute::cpu::elementwise_comp_op_broadcast_16_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	non_broadcast_input_ptr,
		const InputScalarType &	broadcast_value,
		uint8_t *	output_ptr,
		const bool	reorder
	)

inline

Definition at line 403 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint16x8_t>(
             wrapper::vloadq((non_broadcast_input_ptr + x)), broadcast_value, reorder);
         wrapper::vstore(output_ptr + x, wrapper::vmovn(a));
     }
     return x;
 }

References arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmovn(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_broadcast_32_loop()

int arm_compute::cpu::elementwise_comp_op_broadcast_32_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	non_broadcast_input_ptr,
		const InputScalarType &	broadcast_value,
		uint8_t *	output_ptr,
		const bool	reorder
	)

inline

Definition at line 422 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint32x4_t>(
             wrapper::vloadq(non_broadcast_input_ptr + x), broadcast_value, reorder);
         const auto b = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint32x4_t>(
             wrapper::vloadq(non_broadcast_input_ptr + x + 4), broadcast_value, reorder);
         wrapper::vstore(output_ptr + x, wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(a), wrapper::vmovn(b))));
     }
     if (x <= window_end_x - 4)
     {
         const auto a = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint32x4_t>(
             wrapper::vloadq((non_broadcast_input_ptr + x)), broadcast_value, reorder);
         for (int i = 0; i < 4; i++)
         {
             *(output_ptr + x + i) = wrapper::vgetlane(a, i);
         }
         x = +4;
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vcombine(), arm_compute::wrapper::vgetlane(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmovn(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_broadcast_8_loop()

int arm_compute::cpu::elementwise_comp_op_broadcast_8_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	non_broadcast_input_ptr,
		const InputScalarType &	broadcast_value,
		uint8_t *	output_ptr,
		const bool	reorder
	)

inline

Definition at line 384 of file impl.h.

 {
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint8x16_t>(
             wrapper::vloadq((non_broadcast_input_ptr + x)), broadcast_value, reorder);
         wrapper::vstore(output_ptr + x, a);
     }
     return x;
 }

References arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_quantized()

void arm_compute::cpu::elementwise_comp_op_quantized	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 1299 of file impl.h.

 {
     elementwise_op_quantized(in1, in2, out, window, &elementwise_comp_op_quantized_scalar<op>,
                              &elementwise_comp_op_quantized_broadcast_loop<op>,
                              &elementwise_comp_op_quantized_loop<op>);
 }

References elementwise_op_quantized().

◆ elementwise_comp_op_quantized_broadcast_loop()

int arm_compute::cpu::elementwise_comp_op_quantized_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const uint8_t *	non_broadcast_input_ptr,
		float32x4x4_t	broadcast_vector,
		uint8_t *	output_ptr,
		int32x4_t	voffset_non_broadcast,
		float32x4_t	vscale_non_broadcast,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo,
		bool	reorder
	)

inline

Definition at line 826 of file impl.h.

 {
     ARM_COMPUTE_UNUSED(voffseto, invvscaleo);
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af =
             load_quantized(non_broadcast_input_ptr + x, voffset_non_broadcast, vscale_non_broadcast);
         const uint32x4x4_t rf =
             elementwise_comp_op<op>(reorder ? broadcast_vector : af, reorder ? af : broadcast_vector);
         store_quantized(output_ptr + x, rf);
     }
     return x;
 }

References ARM_COMPUTE_UNUSED, load_quantized(), and store_quantized().

◆ elementwise_comp_op_quantized_loop()

int arm_compute::cpu::elementwise_comp_op_quantized_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const uint8_t *	input1_ptr,
		const uint8_t *	input2_ptr,
		uint8_t *	output_ptr,
		int32x4_t	voffset1,
		int32x4_t	voffset2,
		float32x4_t	vscale1,
		float32x4_t	vscale2,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo
	)

inline

Definition at line 774 of file impl.h.

 {
     ARM_COMPUTE_UNUSED(voffseto, invvscaleo);
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af = load_quantized(input1_ptr + x, voffset1, vscale1);
         const float32x4x4_t bf = load_quantized(input2_ptr + x, voffset2, vscale2);
         const uint32x4x4_t  rf = elementwise_comp_op<op>(af, bf);
         store_quantized(output_ptr + x, rf);
     }
     return x;
 }

References ARM_COMPUTE_UNUSED, load_quantized(), and store_quantized().

◆ elementwise_comp_op_quantized_scalar()

uint8_t arm_compute::cpu::elementwise_comp_op_quantized_scalar	(	const float &	a,
		const float &	b,
		UniformQuantizationInfo	qinfo
	)

inline

Definition at line 656 of file impl.h.

 {
     ARM_COMPUTE_UNUSED(qinfo);
     return elementwise_comp_op_scalar<op>(a, b);
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, and arm_compute::test::validation::qinfo.

◆ elementwise_comp_op_quantized_signed()

void arm_compute::cpu::elementwise_comp_op_quantized_signed	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 1307 of file impl.h.

 {
     elementwise_comp_quantized_signed(in1, in2, out, window, &elementwise_comp_op_quantized_scalar<op>,
                                       &elementwise_comp_op_quantized_signed_broadcast_loop<op>,
                                       &elementwise_comp_op_quantized_signed_loop<op>);
 }

References elementwise_comp_quantized_signed().

◆ elementwise_comp_op_quantized_signed_broadcast_loop()

int arm_compute::cpu::elementwise_comp_op_quantized_signed_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const int8_t *	non_broadcast_input_ptr,
		float32x4x4_t	broadcast_vector,
		uint8_t *	output_ptr,
		int32x4_t	voffset_non_broadcast,
		float32x4_t	vscale_non_broadcast,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo,
		bool	reorder
	)

inline

Definition at line 852 of file impl.h.

 {
     ARM_COMPUTE_UNUSED(voffseto, invvscaleo);
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af =
             load_quantized_signed(non_broadcast_input_ptr + x, voffset_non_broadcast, vscale_non_broadcast);
         const uint32x4x4_t rf =
             elementwise_comp_op<op>(reorder ? broadcast_vector : af, reorder ? af : broadcast_vector);
         store_quantized(output_ptr + x, rf);
     }
     return x;
 }

References ARM_COMPUTE_UNUSED, load_quantized_signed(), and store_quantized().

◆ elementwise_comp_op_quantized_signed_loop()

int arm_compute::cpu::elementwise_comp_op_quantized_signed_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const int8_t *	input1_ptr,
		const int8_t *	input2_ptr,
		uint8_t *	output_ptr,
		int32x4_t	voffset1,
		int32x4_t	voffset2,
		float32x4_t	vscale1,
		float32x4_t	vscale2,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo
	)

inline

Definition at line 800 of file impl.h.

 {
     ARM_COMPUTE_UNUSED(voffseto, invvscaleo);
     int x = window_start_x;
     for (; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af = load_quantized_signed(input1_ptr + x, voffset1, vscale1);
         const float32x4x4_t bf = load_quantized_signed(input2_ptr + x, voffset2, vscale2);
         const uint32x4x4_t  rf = elementwise_comp_op<op>(af, bf);
         store_quantized(output_ptr + x, rf);
     }
     return x;
 }

References ARM_COMPUTE_UNUSED, load_quantized_signed(), and store_quantized().

◆ elementwise_comp_op_scalar()

uint8_t arm_compute::cpu::elementwise_comp_op_scalar	(	const InputScalarType &	a,
		const InputScalarType &	b
	)

inline

Definition at line 312 of file impl.h.

 {
     bool res = false;
  
     switch (op)
     {
         case ComparisonOperation::Equal:
             res = (a == b);
             break;
         case ComparisonOperation::NotEqual:
             res = (a != b);
             break;
         case ComparisonOperation::Greater:
             res = (a > b);
             break;
         case ComparisonOperation::GreaterEqual:
             res = (a >= b);
             break;
         case ComparisonOperation::Less:
             res = (a < b);
             break;
         case ComparisonOperation::LessEqual:
             res = (a <= b);
             break;
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
     return res ? ~static_cast<uint8_t>(0) : static_cast<uint8_t>(0);
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::Equal, arm_compute::Greater, arm_compute::GreaterEqual, arm_compute::Less, arm_compute::LessEqual, and arm_compute::NotEqual.

◆ elementwise_comp_quantized_signed()

void arm_compute::cpu::elementwise_comp_quantized_signed	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window,
		uint8_t(*)(const float &, const float &, UniformQuantizationInfo)	scalar_func,
		int()(int, int, int, const int8_t , float32x4x4_t, uint8_t *, int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool)	broadcast_func,
		int()(int, int, int, const int8_t , const int8_t , uint8_t , int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t)	neon_func
	)

inline

Definition at line 1013 of file impl.h.

 {
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
  
     const UniformQuantizationInfo output_qinfo = out->info()->quantization_info().uniform();
  
     const float32x4_t voffseto   = vdupq_n_f32(output_qinfo.offset);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / output_qinfo.scale);
  
     if (is_broadcast_across_x)
     {
         // Select the broadcast input on the X axis
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
  
         const UniformQuantizationInfo broadcast_qinfo     = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo = non_broadcast_tensor->info()->quantization_info().uniform();
  
         const int32x4_t   voffset_non_broadcast = vdupq_n_s32(non_broadcast_qinfo.offset);
         const float32x4_t vscale_non_broadcast  = vdupq_n_f32(non_broadcast_qinfo.scale);
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const int8_t *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<uint8_t *>(output.ptr());
  
                 const int8_t        broadcast_value  = *reinterpret_cast<const int8_t *>(broadcast_input.ptr());
                 const float32x4x4_t broadcast_vector = vdequantize(vdupq_n_s8(broadcast_value), broadcast_qinfo);
  
                 int x = (*broadcast_func)(window_start_x, window_end_x, window_step_x, non_broadcast_input_ptr,
                                           broadcast_vector, output_ptr, voffset_non_broadcast, vscale_non_broadcast,
                                           voffseto, invvscaleo, !is_broadcast_input_2);
                 for (; x < window_end_x; ++x)
                 {
                     const float afs   = dequantize_qasymm8_signed(*(non_broadcast_input_ptr + x), non_broadcast_qinfo);
                     const float bfs   = dequantize_qasymm8_signed(broadcast_value, broadcast_qinfo);
                     *(output_ptr + x) = (*scalar_func)(!is_broadcast_input_2 ? bfs : afs,
                                                        !is_broadcast_input_2 ? afs : bfs, output_qinfo);
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         const UniformQuantizationInfo input1_qinfo = in1->info()->quantization_info().uniform();
         const UniformQuantizationInfo input2_qinfo = in2->info()->quantization_info().uniform();
  
         // Input1 quantization info
         const int32x4_t   voffset1 = vdupq_n_s32(input1_qinfo.offset);
         const float32x4_t vscale1  = vdupq_n_f32(input1_qinfo.scale);
  
         // Input2 quantization info
         const int32x4_t   voffset2 = vdupq_n_s32(input2_qinfo.offset);
         const float32x4_t vscale2  = vdupq_n_f32(input2_qinfo.scale);
  
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const int8_t *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const int8_t *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<uint8_t *>(output.ptr());
  
                 int x = (*neon_func)(window_start_x, window_end_x, window_step_x, input1_ptr, input2_ptr, output_ptr,
                                      voffset1, voffset2, vscale1, vscale2, voffseto, invvscaleo);
                 for (; x < window_end_x; ++x)
                 {
                     const float afs   = dequantize_qasymm8_signed(*(input1_ptr + x), input1_qinfo);
                     const float bfs   = dequantize_qasymm8_signed(*(input2_ptr + x), input2_qinfo);
                     *(output_ptr + x) = (*scalar_func)(afs, bfs, output_qinfo);
                 }
             },
             input1, input2, output);
     }
 }

References arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), arm_compute::dequantize_qasymm8_signed(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), arm_compute::vdequantize(), Dimensions< T >::x(), and Window::x().

Referenced by elementwise_comp_op_quantized_signed().

◆ elementwise_comparison_op() [1/2]

void elementwise_comparison_op	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		ComparisonOperation	op,
		const Window &	window
	)

Definition at line 152 of file impl.cpp.

 {
     static_assert(sizeof(InputScalarType) >= sizeof(OutputScalarType),
                   "input data type's width should be equal to or greater than output data type's width");
  
     using OutputVectorType = typename sve_vector<OutputScalarType>::type;
     const auto all_true_pg = svptrue<InputScalarType>();
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr = reinterpret_cast<OutputScalarType *>(output.ptr());
                 const auto non_broadcast_input_ptr =
                     reinterpret_cast<const InputScalarType *>(non_broadcast_input.ptr());
                 const InputScalarType broadcast_value =
                     *reinterpret_cast<const InputScalarType *>(broadcast_input.ptr());
                 const auto broadcast_vector = svdup_n(broadcast_value);
  
                 int x = window_start_x;
  
                 svbool_t pg = svwhilelt<InputScalarType>(x, window_end_x);
                 do
                 {
                     const auto       non_broadcast_vector = svld1(pg, non_broadcast_input_ptr + x);
                     const svbool_t   output_pg            = narrow_to_byte_predicate<sizeof(InputScalarType)>(pg);
                     OutputVectorType res{};
                     if (is_broadcast_input_2)
                     {
                         res = elementwise_comparison_op<typename sve_vector<InputScalarType>::type,
                                                         typename sve_vector<OutputScalarType>::type>(
                             pg, non_broadcast_vector, broadcast_vector, op);
                     }
                     else
                     {
                         res = elementwise_comparison_op<typename sve_vector<InputScalarType>::type,
                                                         typename sve_vector<OutputScalarType>::type>(
                             pg, broadcast_vector, non_broadcast_vector, op);
                     }
                     svst1(output_pg, output_ptr + x, res);
  
                     x += svcnt<InputScalarType>();
                     pg = svwhilelt<InputScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr = reinterpret_cast<OutputScalarType *>(output.ptr());
                 const auto input1_ptr = reinterpret_cast<const InputScalarType *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const InputScalarType *>(input2.ptr());
  
                 int x = window_start_x;
  
                 svbool_t pg = svwhilelt<InputScalarType>(x, window_end_x);
                 do
                 {
                     const auto in1 = svld1(pg, input1_ptr + x);
                     const auto in2 = svld1(pg, input2_ptr + x);
                     const auto res =
                         elementwise_comparison_op<typename sve_vector<InputScalarType>::type,
                                                   typename sve_vector<OutputScalarType>::type>(pg, in1, in2, op);
                     const svbool_t output_pg = narrow_to_byte_predicate<sizeof(InputScalarType)>(pg);
                     svst1(output_pg, output_ptr + x, res);
  
                     x += svcnt<InputScalarType>();
                     pg = svwhilelt<InputScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             input1, input2, output);
     }
 }

References Window::broadcast_if_dimension_le_one(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), type, Dimensions< T >::x(), and Window::x().

◆ elementwise_comparison_op() [2/2]

OutputVectorType arm_compute::cpu::elementwise_comparison_op	(	svbool_t &	pg,
		const InputVectorType &	a,
		const InputVectorType &	b,
		ComparisonOperation	op
	)

Definition at line 119 of file impl.h.

 {
     svbool_t selection_vector{};
  
     switch (op)
     {
         case ComparisonOperation::Equal:
             selection_vector = svcmpeq(pg, a, b);
             break;
         case ComparisonOperation::NotEqual:
             selection_vector = svcmpne(pg, a, b);
             break;
         case ComparisonOperation::Greater:
             selection_vector = svcmpgt(pg, a, b);
             break;
         case ComparisonOperation::GreaterEqual:
             selection_vector = svcmpge(pg, a, b);
             break;
         case ComparisonOperation::Less:
             selection_vector = svcmplt(pg, a, b);
             break;
         case ComparisonOperation::LessEqual:
             selection_vector = svcmple(pg, a, b);
             break;
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
  
     using InputScalarType = typename wrapper::sve_scalar<InputVectorType>::type;
     selection_vector      = narrow_to_byte_predicate<sizeof(InputScalarType)>(selection_vector);
  
     using OutputScalarType  = typename wrapper::sve_scalar<OutputVectorType>::type;
     const auto false_vector = svdup_n(static_cast<OutputScalarType>((uint32_t)0));
     const auto true_vector  = svdup_n(static_cast<OutputScalarType>(~(uint32_t)0));
     auto       ret          = svsel(selection_vector, true_vector, false_vector);
  
     return ret;
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::Equal, arm_compute::Greater, arm_compute::GreaterEqual, arm_compute::Less, arm_compute::LessEqual, arm_compute::NotEqual, and type.

◆ elementwise_comparison_op< float16_t >()

template void arm_compute::cpu::elementwise_comparison_op< float16_t >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const ComparisonOperation	op,
		const Window &	window
	)

◆ elementwise_comparison_op< float32_t >()

template void arm_compute::cpu::elementwise_comparison_op< float32_t >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const ComparisonOperation	op,
		const Window &	window
	)

◆ elementwise_comparison_op< int16_t >()

template void arm_compute::cpu::elementwise_comparison_op< int16_t >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const ComparisonOperation	op,
		const Window &	window
	)

Referenced by sve_s16_comparison_elementwise_binary().

◆ elementwise_comparison_op< int32_t >()

template void arm_compute::cpu::elementwise_comparison_op< int32_t >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const ComparisonOperation	op,
		const Window &	window
	)

Referenced by sve_s32_comparison_elementwise_binary().

◆ elementwise_comparison_op< uint8_t >()

template void arm_compute::cpu::elementwise_comparison_op< uint8_t >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const ComparisonOperation	op,
		const Window &	window
	)

Referenced by sve_u8_comparison_elementwise_binary().

◆ elementwise_comparison_quantized_op()

void arm_compute::cpu::elementwise_comparison_quantized_op	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		ComparisonOperation	op,
		const Window &	window
	)

Definition at line 235 of file impl.h.

 {
     static_assert(sizeof(InputScalarType) >= sizeof(OutputScalarType),
                   "input data type's width should be equal to or greater than output data type's width");
  
     using OutputVectorType = typename wrapper::traits::sve_vector<OutputScalarType>::type;
     const auto all_true_pg = wrapper::svptrue<InputScalarType>();
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
  
         const auto non_broadcast_qinfo =
             is_broadcast_input_2 ? in1->info()->quantization_info() : in2->info()->quantization_info();
         const auto broadcast_qinfo =
             is_broadcast_input_2 ? in2->info()->quantization_info() : in1->info()->quantization_info();
  
         const auto non_broadcast_voffset = svdup_n(non_broadcast_qinfo.uniform().offset);
         const auto non_broadcast_vscale  = svdup_n(non_broadcast_qinfo.uniform().scale);
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr = reinterpret_cast<OutputScalarType *>(output.ptr());
                 const auto non_broadcast_input_ptr =
                     reinterpret_cast<const InputScalarType *>(non_broadcast_input.ptr());
                 const InputScalarType broadcast_value =
                     *reinterpret_cast<const InputScalarType *>(broadcast_input.ptr());
                 const float broadcast_value_f =
                     Qasymm8QuantizationHelper<InputScalarType>::dequantize(broadcast_value, broadcast_qinfo);
                 const auto in2 = svcreate4(svdup_n(broadcast_value_f), svdup_n(broadcast_value_f),
                                            svdup_n(broadcast_value_f), svdup_n(broadcast_value_f));
  
                 int x = window_start_x;
  
                 svbool_t pg = wrapper::svwhilelt<InputScalarType>(x, window_end_x);
                 do
                 {
                     const auto in1 =
                         load_quantized(non_broadcast_input_ptr + x, pg, non_broadcast_voffset, non_broadcast_vscale);
  
                     svuint8x4_t result{};
  
                     if (!is_broadcast_input_2)
                     {
                         result = svcreate4(elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in2, 0),
                                                                                                     svget4(in1, 0), op),
                                            elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in2, 1),
                                                                                                     svget4(in1, 1), op),
                                            elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in2, 2),
                                                                                                     svget4(in1, 2), op),
                                            elementwise_comparison_op<svfloat32_t, OutputVectorType>(
                                                pg, svget4(in2, 3), svget4(in1, 3), op));
                     }
                     else
                     {
                         result = svcreate4(elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in1, 0),
                                                                                                     svget4(in2, 0), op),
                                            elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in1, 1),
                                                                                                     svget4(in2, 1), op),
                                            elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in1, 2),
                                                                                                     svget4(in2, 2), op),
                                            elementwise_comparison_op<svfloat32_t, OutputVectorType>(
                                                pg, svget4(in1, 3), svget4(in2, 3), op));
                     }
  
                     const auto zipped_bottom = svzip1(svget4(result, 0), svget4(result, 1));
                     const auto zipped_top    = svzip1(svget4(result, 2), svget4(result, 3));
                     const auto zipped        = svzip1(zipped_bottom, zipped_top);
                     svst1(pg, output_ptr + x, zipped);
  
                     x += wrapper::svcnt<InputScalarType>();
                     pg = wrapper::svwhilelt<InputScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
  
         const auto in1_voffset = svdup_n(in1->info()->quantization_info().uniform().offset);
         const auto in1_vscale  = svdup_n(in1->info()->quantization_info().uniform().scale);
  
         const auto in2_voffset = svdup_n(in2->info()->quantization_info().uniform().offset);
         const auto in2_vscale  = svdup_n(in2->info()->quantization_info().uniform().scale);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr = reinterpret_cast<OutputScalarType *>(output.ptr());
                 const auto input1_ptr = reinterpret_cast<const InputScalarType *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const InputScalarType *>(input2.ptr());
  
                 int x = window_start_x;
  
                 svbool_t pg = wrapper::svwhilelt<InputScalarType>(x, window_end_x);
                 do
                 {
                     const auto in1 = load_quantized(input1_ptr + x, pg, in1_voffset, in1_vscale);
                     const auto in2 = load_quantized(input2_ptr + x, pg, in2_voffset, in2_vscale);
                     const auto result =
                         svcreate4(elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in1, 0),
                                                                                            svget4(in2, 0), op),
                                   elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in1, 1),
                                                                                            svget4(in2, 1), op),
                                   elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in1, 2),
                                                                                            svget4(in2, 2), op),
                                   elementwise_comparison_op<svfloat32_t, OutputVectorType>(pg, svget4(in1, 3),
                                                                                            svget4(in2, 3), op));
  
                     const auto zipped_bottom = svzip1(svget4(result, 0), svget4(result, 1));
                     const auto zipped_top    = svzip1(svget4(result, 2), svget4(result, 3));
                     const auto zipped        = svzip1(zipped_bottom, zipped_top);
                     svst1(pg, output_ptr + x, zipped);
  
                     x += wrapper::svcnt<InputScalarType>();
                     pg = wrapper::svwhilelt<InputScalarType>(x, window_end_x);
                 } while (svptest_any(all_true_pg, pg));
             },
             input1, input2, output);
     }
 }

References Window::broadcast_if_dimension_le_one(), Qasymm8QuantizationHelper< QUANTIZED_TYPE >::dequantize(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), load_quantized(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), type, QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ elementwise_div()

VectorType arm_compute::cpu::elementwise_div	(	svbool_t &	pg,
		const VectorType &	a,
		const VectorType &	b
	)

Definition at line 45 of file impl.h.

 {
     return svdiv_z(pg, a, b);
 }

References arm_compute::test::validation::b.

Referenced by elementwise_arithmetic_op().

◆ elementwise_div< svint16_t >()

svint16_t arm_compute::cpu::elementwise_div< svint16_t >	(	svbool_t &	pg,
		const svint16_t &	a,
		const svint16_t &	b
	)

Definition at line 290 of file impl.cpp.

 {
     ARM_COMPUTE_UNUSED(pg, a, b);
     ARM_COMPUTE_ERROR("Not supported");
 }

References ARM_COMPUTE_ERROR, ARM_COMPUTE_UNUSED, and arm_compute::test::validation::b.

◆ elementwise_div< svint32_t >()

svint32_t arm_compute::cpu::elementwise_div< svint32_t >	(	svbool_t &	pg,
		const svint32_t &	a,
		const svint32_t &	b
	)

Definition at line 284 of file impl.cpp.

 {
     return svcvt_s32_z(pg, svdiv_z(pg, svcvt_f32_z(pg, a), svcvt_f32_z(pg, b)));
 }

References arm_compute::test::validation::b.

◆ elementwise_op() [1/2]

void arm_compute::cpu::elementwise_op	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op
	)

inline

Definition at line 86 of file impl.h.

 {
     const int  window_step_x  = 16 / sizeof(ScalarType);
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(in, win);
     Iterator output(out, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             auto       output_ptr = reinterpret_cast<ScalarType *>(output.ptr());
             const auto input_ptr  = reinterpret_cast<const ScalarType *>(input.ptr());
  
             int x = window_start_x;
             for (; x <= window_end_x - window_step_x; x += window_step_x)
             {
                 wrapper::vstore(output_ptr + x, elementwise_op_imp<ScalarType>(op, wrapper::vloadq(input_ptr + x)));
             }
             for (; x < window_end_x; ++x)
             {
                 *(output_ptr + x) = elementwise_op_scalar_imp(op, *(input_ptr + x));
             }
         },
         input, output);
 }

References Window::DimX, elementwise_op_scalar_imp(), Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::input, Iterator::ptr(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vstore(), and Window::x().

◆ elementwise_op() [2/2]

void arm_compute::cpu::elementwise_op	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window,
		OutputScalarType(*)(const InputScalarType &, const InputScalarType &)	scalar_func,
		int()(int, int, int, const InputScalarType , const InputScalarType &, OutputScalarType *, const bool)	broadcast_func,
		int()(int, int, int, const InputScalarType , const InputScalarType , OutputScalarType )	neon_func
	)

Definition at line 86 of file impl.h.

 {
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x         = std::min(16 / static_cast<int>(sizeof(OutputScalarType)), 8);
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr = reinterpret_cast<OutputScalarType *>(output.ptr());
                 const auto non_broadcast_input_ptr =
                     reinterpret_cast<const InputScalarType *>(non_broadcast_input.ptr());
                 const InputScalarType broadcast_value =
                     *reinterpret_cast<const InputScalarType *>(broadcast_input.ptr());
  
                 int x = (*broadcast_func)(window_start_x, window_end_x, window_step_x, non_broadcast_input_ptr,
                                           broadcast_value, output_ptr, !is_broadcast_input_2);
                 for (; x < window_end_x; ++x)
                 {
                     const auto a      = *(non_broadcast_input_ptr + x);
                     *(output_ptr + x) = (*scalar_func)(!is_broadcast_input_2 ? broadcast_value : a,
                                                        !is_broadcast_input_2 ? a : broadcast_value);
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 auto       output_ptr = reinterpret_cast<OutputScalarType *>(output.ptr());
                 const auto input1_ptr = reinterpret_cast<const InputScalarType *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const InputScalarType *>(input2.ptr());
  
                 int x = (*neon_func)(window_start_x, window_end_x, window_step_x, input1_ptr, input2_ptr, output_ptr);
                 for (; x < window_end_x; ++x)
                 {
                     const auto a      = *(input1_ptr + x);
                     const auto b      = *(input2_ptr + x);
                     *(output_ptr + x) = (*scalar_func)(a, b);
                 }
             },
             input1, input2, output);
     }
 }

References arm_compute::test::validation::b, Window::broadcast_if_dimension_le_one(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), Dimensions< T >::x(), and Window::x().

◆ elementwise_op< int8_t >()

void arm_compute::cpu::elementwise_op< int8_t >	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op
	)

inline

Definition at line 119 of file impl.h.

 {
     const int                     window_step_x     = 16;
     const auto                    window_start_x    = static_cast<int>(window.x().start());
     const auto                    window_end_x      = static_cast<int>(window.x().end());
     const UniformQuantizationInfo qi_in             = in->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out            = out->info()->quantization_info().uniform();
     const auto                    min_clamped_value = vdupq_n_f32((-128 - qi_out.offset) * qi_out.scale);
     const auto                    max_clamped_value = vdupq_n_f32((127 - qi_out.offset) * qi_out.scale);
     Window                        win               = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(in, win);
     Iterator output(out, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             int8x16_t  vout;
             auto       output_ptr    = reinterpret_cast<int8_t *>(output.ptr());
             const auto input_ptr     = reinterpret_cast<const int8_t *>(input.ptr());
             const auto vconst_0_f32  = vdupq_n_f32(0);
             auto       clamped_value = (op == ElementWiseUnary::LOG) ? min_clamped_value : max_clamped_value;
  
             int x = window_start_x;
             for (; x <= window_end_x - window_step_x; x += window_step_x)
             {
                 const auto vin = wrapper::vloadq(input_ptr + x);
  
                 // De-quantize
                 const auto vin_deq = vdequantize(vin, qi_in);
  
                 // Perform activation
                 float32x4x4_t vtmp_deq = {{
                     elementwise_op_imp<float>(op, vin_deq.val[0]),
                     elementwise_op_imp<float>(op, vin_deq.val[1]),
                     elementwise_op_imp<float>(op, vin_deq.val[2]),
                     elementwise_op_imp<float>(op, vin_deq.val[3]),
                 }};
  
                 if ((op == ElementWiseUnary::LOG) || (op == ElementWiseUnary::RSQRT))
                 {
                     vtmp_deq.val[0] =
                         vbslq_f32(vcleq_f32(vin_deq.val[0], vconst_0_f32), clamped_value, vtmp_deq.val[0]);
                     vtmp_deq.val[1] =
                         vbslq_f32(vcleq_f32(vin_deq.val[1], vconst_0_f32), clamped_value, vtmp_deq.val[1]);
                     vtmp_deq.val[2] =
                         vbslq_f32(vcleq_f32(vin_deq.val[2], vconst_0_f32), clamped_value, vtmp_deq.val[2]);
                     vtmp_deq.val[3] =
                         vbslq_f32(vcleq_f32(vin_deq.val[3], vconst_0_f32), clamped_value, vtmp_deq.val[3]);
                 }
  
                 // Re-quantize to new output space
                 vout = vquantize_signed(vtmp_deq, qi_out);
                 wrapper::vstore(output_ptr + x, vout);
             }
             for (; x < window_end_x; ++x)
             {
                 qasymm8_signed_t in    = *(reinterpret_cast<const qasymm8_signed_t *>(input_ptr + x));
                 qasymm8_signed_t tmp   = 0;
                 float            tmp_f = dequantize_qasymm8_signed(in, qi_in);
                 if (tmp_f <= 0.0)
                 {
                     if (op == ElementWiseUnary::LOG)
                     {
                         tmp_f = (-128 - qi_out.offset) * qi_out.scale;
                     }
                     else if (op == ElementWiseUnary::RSQRT)
                     {
                         tmp_f = (127 - qi_out.offset) * qi_out.scale;
                     }
                     else
                     {
                         tmp_f = elementwise_op_scalar_imp<float>(op, tmp_f);
                     }
                 }
                 else
                 {
                     tmp_f = elementwise_op_scalar_imp<float>(op, tmp_f);
                 }
                 tmp = quantize_qasymm8_signed(
                     tmp_f, qi_out,
                     RoundingPolicy::
                         TO_ZERO); // Set rounding policy TO_ZERO to be compatible with vquantize_signed() used above that follow same policy for armv7a.
                 // For aarch64 LUT is used and rounding to nearest is used
                 *(output_ptr + x) = tmp;
             }
         },
         input, output);
 }

References arm_compute::dequantize_qasymm8_signed(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), arm_compute::test::validation::input, arm_compute::LOG, UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), arm_compute::quantize_qasymm8_signed(), arm_compute::RSQRT, UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), arm_compute::TO_ZERO, QuantizationInfo::uniform(), arm_compute::vdequantize(), arm_compute::wrapper::vloadq(), arm_compute::vquantize_signed(), arm_compute::wrapper::vstore(), and Window::x().

Referenced by neon_qasymm8_signed_elementwise_unary().

◆ elementwise_op< uint8_t >()

void arm_compute::cpu::elementwise_op< uint8_t >	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op
	)

inline

Definition at line 211 of file impl.h.

 {
     const int                     window_step_x     = 16;
     const auto                    window_start_x    = static_cast<int>(window.x().start());
     const auto                    window_end_x      = static_cast<int>(window.x().end());
     const UniformQuantizationInfo qi_in             = in->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out            = out->info()->quantization_info().uniform();
     const auto                    vconst_0_f32      = vdupq_n_f32(0);
     const auto                    min_clamped_value = vdupq_n_f32((0 - qi_out.offset) * qi_out.scale);
     const auto                    max_clamped_value = vdupq_n_f32((255 - qi_out.offset) * qi_out.scale);
     Window                        win               = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(in, win);
     Iterator output(out, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             uint8x16_t vout;
             auto       clamped_value = (op == ElementWiseUnary::LOG) ? min_clamped_value : max_clamped_value;
             auto       output_ptr    = reinterpret_cast<uint8_t *>(output.ptr());
             const auto input_ptr     = reinterpret_cast<const uint8_t *>(input.ptr());
             int        x             = window_start_x;
             for (; x <= window_end_x - window_step_x; x += window_step_x)
             {
                 const auto vin = wrapper::vloadq(input_ptr + x);
  
                 // De-quantize
                 const auto vin_deq = vdequantize(vin, qi_in);
  
                 // Perform activation
                 float32x4x4_t vtmp_deq = {{
                     elementwise_op_imp<float>(op, vin_deq.val[0]),
                     elementwise_op_imp<float>(op, vin_deq.val[1]),
                     elementwise_op_imp<float>(op, vin_deq.val[2]),
                     elementwise_op_imp<float>(op, vin_deq.val[3]),
                 }};
                 if ((op == ElementWiseUnary::LOG) || (op == ElementWiseUnary::RSQRT))
                 {
                     vtmp_deq.val[0] =
                         vbslq_f32(vcleq_f32(vin_deq.val[0], vconst_0_f32), clamped_value, vtmp_deq.val[0]);
                     vtmp_deq.val[1] =
                         vbslq_f32(vcleq_f32(vin_deq.val[1], vconst_0_f32), clamped_value, vtmp_deq.val[1]);
                     vtmp_deq.val[2] =
                         vbslq_f32(vcleq_f32(vin_deq.val[2], vconst_0_f32), clamped_value, vtmp_deq.val[2]);
                     vtmp_deq.val[3] =
                         vbslq_f32(vcleq_f32(vin_deq.val[3], vconst_0_f32), clamped_value, vtmp_deq.val[3]);
                 }
  
                 // Re-quantize to new output space
                 vout = vquantize(vtmp_deq, qi_out);
                 wrapper::vstore(output_ptr + x, vout);
             }
             for (; x < window_end_x; ++x)
             {
                 qasymm8_t in    = *(reinterpret_cast<const qasymm8_t *>(input_ptr + x));
                 qasymm8_t tmp   = 0;
                 float     tmp_f = dequantize_qasymm8(in, qi_in);
                 if (tmp_f <= 0.0)
                 {
                     if (op == ElementWiseUnary::LOG)
                     {
                         tmp_f = (0 - qi_out.offset) * qi_out.scale;
                     }
                     else if (op == ElementWiseUnary::RSQRT)
                     {
                         tmp_f = (255 - qi_out.offset) * qi_out.scale;
                     }
                     else
                     {
                         tmp_f = elementwise_op_scalar_imp<float>(op, tmp_f);
                     }
                 }
                 else
                 {
                     tmp_f = elementwise_op_scalar_imp<float>(op, tmp_f);
                 }
                 tmp               = quantize_qasymm8(tmp_f, qi_out, RoundingPolicy::TO_ZERO);
                 *(output_ptr + x) = tmp;
             }
         },
         input, output);
 }

References arm_compute::dequantize_qasymm8(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), arm_compute::test::validation::input, arm_compute::LOG, UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), arm_compute::quantize_qasymm8(), arm_compute::RSQRT, UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), arm_compute::TO_ZERO, QuantizationInfo::uniform(), arm_compute::vdequantize(), arm_compute::wrapper::vloadq(), arm_compute::vquantize(), arm_compute::wrapper::vstore(), and Window::x().

Referenced by neon_qasymm8_elementwise_unary().

◆ elementwise_op_imp()

VectorType arm_compute::cpu::elementwise_op_imp	(	ElementWiseUnary	op,
		const VectorType &	a
	)

inline

Definition at line 62 of file impl.h.

 {
     switch (op)
     {
         case ElementWiseUnary::RSQRT:
             return wrapper::vinvsqrt(a);
         case ElementWiseUnary::EXP:
             return wrapper::vexpq(a);
         case ElementWiseUnary::NEG:
             return wrapper::vneg(a);
         case ElementWiseUnary::LOG:
             return wrapper::vlog(a);
         case ElementWiseUnary::ABS:
             return wrapper::vabs(a);
         case ElementWiseUnary::ROUND:
             return wrapper::vround(a);
         case ElementWiseUnary::SIN:
             return wrapper::vsin(a);
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
 }

References arm_compute::ABS, ARM_COMPUTE_ERROR, arm_compute::EXP, arm_compute::LOG, arm_compute::NEG, arm_compute::ROUND, arm_compute::RSQRT, arm_compute::SIN, arm_compute::wrapper::vabs(), arm_compute::wrapper::vexpq(), arm_compute::wrapper::vinvsqrt(), arm_compute::wrapper::vlog(), arm_compute::wrapper::vneg(), arm_compute::wrapper::vround(), and arm_compute::wrapper::vsin().

◆ elementwise_op_quantized()

void arm_compute::cpu::elementwise_op_quantized	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window,
		uint8_t(*)(const float &, const float &, UniformQuantizationInfo)	scalar_func,
		int()(int, int, int, const uint8_t , float32x4x4_t, uint8_t *, int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool)	broadcast_func,
		int()(int, int, int, const uint8_t , const uint8_t , uint8_t , int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t)	neon_func
	)

inline

Definition at line 877 of file impl.h.

 {
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
  
     const UniformQuantizationInfo output_qinfo = out->info()->quantization_info().uniform();
  
     // Output quantization info (add 0.5 to round toward the nearest integer - 0.5 rounds away from zero)
     const float32x4_t voffseto   = vdupq_n_f32(output_qinfo.offset + 0.5f);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / output_qinfo.scale);
  
     if (is_broadcast_across_x)
     {
         // Select the broadcast input on the X axis
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
  
         const UniformQuantizationInfo broadcast_qinfo     = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo = non_broadcast_tensor->info()->quantization_info().uniform();
  
         const int32x4_t   voffset_non_broadcast = vdupq_n_s32(non_broadcast_qinfo.offset);
         const float32x4_t vscale_non_broadcast  = vdupq_n_f32(non_broadcast_qinfo.scale);
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const uint8_t *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<uint8_t *>(output.ptr());
  
                 const uint8_t       broadcast_value  = *reinterpret_cast<const uint8_t *>(broadcast_input.ptr());
                 const float32x4x4_t broadcast_vector = vdequantize(vdupq_n_u8(broadcast_value), broadcast_qinfo);
  
                 int x = (*broadcast_func)(window_start_x, window_end_x, window_step_x, non_broadcast_input_ptr,
                                           broadcast_vector, output_ptr, voffset_non_broadcast, vscale_non_broadcast,
                                           voffseto, invvscaleo, !is_broadcast_input_2);
                 for (; x < window_end_x; ++x)
                 {
                     const float afs   = dequantize_qasymm8(*(non_broadcast_input_ptr + x), non_broadcast_qinfo);
                     const float bfs   = dequantize_qasymm8(broadcast_value, broadcast_qinfo);
                     *(output_ptr + x) = (*scalar_func)(!is_broadcast_input_2 ? bfs : afs,
                                                        !is_broadcast_input_2 ? afs : bfs, output_qinfo);
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         const UniformQuantizationInfo input1_qinfo = in1->info()->quantization_info().uniform();
         const UniformQuantizationInfo input2_qinfo = in2->info()->quantization_info().uniform();
  
         // Input1 quantization info
         const int32x4_t   voffset1 = vdupq_n_s32(input1_qinfo.offset);
         const float32x4_t vscale1  = vdupq_n_f32(input1_qinfo.scale);
  
         // Input2 quantization info
         const int32x4_t   voffset2 = vdupq_n_s32(input2_qinfo.offset);
         const float32x4_t vscale2  = vdupq_n_f32(input2_qinfo.scale);
  
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const uint8_t *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const uint8_t *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<uint8_t *>(output.ptr());
  
                 int x = (*neon_func)(window_start_x, window_end_x, window_step_x, input1_ptr, input2_ptr, output_ptr,
                                      voffset1, voffset2, vscale1, vscale2, voffseto, invvscaleo);
                 for (; x < window_end_x; ++x)
                 {
                     const float afs   = dequantize_qasymm8(*(input1_ptr + x), input1_qinfo);
                     const float bfs   = dequantize_qasymm8(*(input2_ptr + x), input2_qinfo);
                     *(output_ptr + x) = (*scalar_func)(afs, bfs, output_qinfo);
                 }
             },
             input1, input2, output);
     }
 }

References arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), arm_compute::dequantize_qasymm8(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), arm_compute::vdequantize(), Dimensions< T >::x(), and Window::x().

Referenced by elementwise_arithm_op_quantized(), and elementwise_comp_op_quantized().

◆ elementwise_op_quantized_signed()

void arm_compute::cpu::elementwise_op_quantized_signed	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window,
		int8_t(*)(const float &, const float &, UniformQuantizationInfo)	scalar_func,
		int()(int, int, int, const int8_t , float32x4x4_t, int8_t *, int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool)	broadcast_func,
		int()(int, int, int, const int8_t , const int8_t , int8_t , int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t)	neon_func
	)

inline

Definition at line 1148 of file impl.h.

 {
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
  
     const UniformQuantizationInfo output_qinfo = out->info()->quantization_info().uniform();
  
     const float32x4_t voffseto   = vdupq_n_f32(output_qinfo.offset);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / output_qinfo.scale);
  
     if (is_broadcast_across_x)
     {
         // Select the broadcast input on the X axis
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
  
         const UniformQuantizationInfo broadcast_qinfo     = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo = non_broadcast_tensor->info()->quantization_info().uniform();
  
         const int32x4_t   voffset_non_broadcast = vdupq_n_s32(non_broadcast_qinfo.offset);
         const float32x4_t vscale_non_broadcast  = vdupq_n_f32(non_broadcast_qinfo.scale);
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const int8_t *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<int8_t *>(output.ptr());
  
                 const int8_t        broadcast_value  = *reinterpret_cast<const int8_t *>(broadcast_input.ptr());
                 const float32x4x4_t broadcast_vector = vdequantize(vdupq_n_s8(broadcast_value), broadcast_qinfo);
  
                 int x = (*broadcast_func)(window_start_x, window_end_x, window_step_x, non_broadcast_input_ptr,
                                           broadcast_vector, output_ptr, voffset_non_broadcast, vscale_non_broadcast,
                                           voffseto, invvscaleo, !is_broadcast_input_2);
                 for (; x < window_end_x; ++x)
                 {
                     const float afs   = dequantize_qasymm8_signed(*(non_broadcast_input_ptr + x), non_broadcast_qinfo);
                     const float bfs   = dequantize_qasymm8_signed(broadcast_value, broadcast_qinfo);
                     *(output_ptr + x) = (*scalar_func)(!is_broadcast_input_2 ? bfs : afs,
                                                        !is_broadcast_input_2 ? afs : bfs, output_qinfo);
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         const UniformQuantizationInfo input1_qinfo = in1->info()->quantization_info().uniform();
         const UniformQuantizationInfo input2_qinfo = in2->info()->quantization_info().uniform();
  
         // Input1 quantization info
         const int32x4_t   voffset1 = vdupq_n_s32(input1_qinfo.offset);
         const float32x4_t vscale1  = vdupq_n_f32(input1_qinfo.scale);
  
         // Input2 quantization info
         const int32x4_t   voffset2 = vdupq_n_s32(input2_qinfo.offset);
         const float32x4_t vscale2  = vdupq_n_f32(input2_qinfo.scale);
  
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const int8_t *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const int8_t *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<int8_t *>(output.ptr());
  
                 int x = (*neon_func)(window_start_x, window_end_x, window_step_x, input1_ptr, input2_ptr, output_ptr,
                                      voffset1, voffset2, vscale1, vscale2, voffseto, invvscaleo);
                 for (; x < window_end_x; ++x)
                 {
                     const float afs   = dequantize_qasymm8_signed(*(input1_ptr + x), input1_qinfo);
                     const float bfs   = dequantize_qasymm8_signed(*(input2_ptr + x), input2_qinfo);
                     *(output_ptr + x) = (*scalar_func)(afs, bfs, output_qinfo);
                 }
             },
             input1, input2, output);
     }
 }

References arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), arm_compute::dequantize_qasymm8_signed(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), arm_compute::vdequantize(), Dimensions< T >::x(), and Window::x().

Referenced by elementwise_arithm_op_quantized_signed().

◆ elementwise_op_scalar_imp()

ScalarType arm_compute::cpu::elementwise_op_scalar_imp	(	ElementWiseUnary	op,
		const ScalarType &	a
	)

inline

Definition at line 38 of file impl.h.

 {
     switch (op)
     {
         case ElementWiseUnary::RSQRT:
             return 1 / sqrt(a);
         case ElementWiseUnary::EXP:
             return std::exp(a);
         case ElementWiseUnary::NEG:
             return -a;
         case ElementWiseUnary::LOG:
             return std::log(a);
         case ElementWiseUnary::ABS:
             return std::abs(a);
         case ElementWiseUnary::ROUND:
             return support::cpp11::nearbyint(a);
         case ElementWiseUnary::SIN:
             return std::sin(a);
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
 }

References arm_compute::ABS, ARM_COMPUTE_ERROR, arm_compute::EXP, arm_compute::LOG, arm_compute::support::cpp11::nearbyint(), arm_compute::NEG, arm_compute::ROUND, arm_compute::RSQRT, and arm_compute::SIN.

Referenced by elementwise_op().

◆ elementwise_op_sve_imp() [1/2]

std::enable_if<utils::traits::is_floating_point<ScalarType>::value, VectorType>::type arm_compute::cpu::elementwise_op_sve_imp	(	svbool_t	pg,
		ElementWiseUnary	op,
		const VectorType &	a
	)

inline

Definition at line 36 of file impl.cpp.

 {
     switch (op)
     {
         case ElementWiseUnary::RSQRT:
             return svinvsqrt(pg, a);
         case ElementWiseUnary::EXP:
             return wrapper::svexp_z(pg, a);
         case ElementWiseUnary::NEG:
             return svneg_z(pg, a);
         case ElementWiseUnary::LOG:
             return wrapper::svlog_z(pg, a);
         case ElementWiseUnary::ABS:
             return svabs_z(pg, a);
         case ElementWiseUnary::ROUND:
             return svrintn_z(pg, a);
         case ElementWiseUnary::SIN:
             return wrapper::svsin_z(pg, a);
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED");
     }
 }

References arm_compute::ABS, ARM_COMPUTE_ERROR, arm_compute::EXP, arm_compute::LOG, arm_compute::NEG, arm_compute::ROUND, arm_compute::RSQRT, and arm_compute::SIN.

Referenced by elementwise_sve_op().

◆ elementwise_op_sve_imp() [2/2]

std::enable_if<std::is_integral<ScalarType>::value, VectorType>::type arm_compute::cpu::elementwise_op_sve_imp	(	svbool_t	pg,
		ElementWiseUnary	op,
		const VectorType &	a
	)

inline

Definition at line 61 of file impl.cpp.

 {
     switch (op)
     {
         case ElementWiseUnary::NEG:
             return svneg_z(pg, a);
         case ElementWiseUnary::ABS:
             return svabs_z(pg, a);
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED");
     }
 }

References arm_compute::ABS, ARM_COMPUTE_ERROR, and arm_compute::NEG.

◆ elementwise_pow()

VectorType arm_compute::cpu::elementwise_pow	(	svbool_t &	pg,
		const VectorType &	a,
		const VectorType &	b
	)

Definition at line 39 of file impl.h.

 {
     return svpow_z(pg, a, b);
 }

References arm_compute::test::validation::b.

Referenced by elementwise_arithmetic_op().

◆ elementwise_pow< svint32_t >()

svint32_t arm_compute::cpu::elementwise_pow< svint32_t >	(	svbool_t &	pg,
		const svint32_t &	a,
		const svint32_t &	b
	)

Definition at line 278 of file impl.cpp.

 {
     return svcvt_s32_z(pg, svpow_z(pg, svcvt_f32_z(pg, a), svcvt_f32_z(pg, b)));
 }

References arm_compute::test::validation::b.

◆ elementwise_sve_op()

void elementwise_sve_op	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op
	)

Definition at line 75 of file impl.cpp.

 {
     const auto all_true_pg    = wrapper::svptrue<ScalarType>();
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(in, win);
     Iterator output(out, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             auto       output_ptr = reinterpret_cast<ScalarType *>(output.ptr());
             const auto input_ptr  = reinterpret_cast<const ScalarType *>(input.ptr());
             int        x          = window_start_x;
  
             svbool_t pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
             do
             {
                 const auto vin = svld1(pg, input_ptr + x);
                 svst1(pg, output_ptr + x, elementwise_op_sve_imp<ScalarType, decltype(vin)>(pg, op, vin));
                 x += wrapper::svcnt<ScalarType>();
                 pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
             } while (svptest_any(all_true_pg, pg));
         },
         input, output);
 }

References Window::DimX, elementwise_op_sve_imp(), Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::input, Iterator::ptr(), Window::set(), Window::Dimension::start(), and Window::x().

◆ elementwise_sve_op< float16_t >()

template void arm_compute::cpu::elementwise_sve_op< float16_t >	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op
	)

◆ elementwise_sve_op< float32_t >()

template void arm_compute::cpu::elementwise_sve_op< float32_t >	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op
	)

Referenced by sve_fp32_elementwise_unary().

◆ elementwise_sve_op< int32_t >()

template void arm_compute::cpu::elementwise_sve_op< int32_t >	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op
	)

Referenced by sve_s32_elementwise_unary().

◆ fp16_batch_normalization_nchw_non_fused()

void arm_compute::cpu::fp16_batch_normalization_nchw_non_fused	(	const Window &	window,
		ITensor *	input,
		ITensor *	output,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo	act_info
	)

◆ fp16_batch_normalization_nchw_non_fused_brelu()

void arm_compute::cpu::fp16_batch_normalization_nchw_non_fused_brelu	(	const Window &	window,
		ITensor *	input,
		ITensor *	output,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo	act_info
	)

◆ fp16_batch_normalization_nchw_non_fused_lubrelu()

void arm_compute::cpu::fp16_batch_normalization_nchw_non_fused_lubrelu	(	const Window &	window,
		ITensor *	input,
		ITensor *	output,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo	act_info
	)

◆ fp16_batch_normalization_nchw_non_fused_relu()

void arm_compute::cpu::fp16_batch_normalization_nchw_non_fused_relu	(	const Window &	window,
		ITensor *	input,
		ITensor *	output,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo	act_info
	)

◆ fp16_bilinear_neon_scale_nchw()

void arm_compute::cpu::fp16_bilinear_neon_scale_nchw	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Referenced by CpuScaleKernel::configure().

◆ fp16_common_neon_scale()

void arm_compute::cpu::fp16_common_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

◆ fp16_in_bounds_crop_window()

void arm_compute::cpu::fp16_in_bounds_crop_window	(	const ITensor *	input,
		const ITensor *	output,
		float *	output_ptr,
		Coordinates	input_offset,
		int32_t	window_step_x,
		int32_t	output_width_start,
		int32_t	output_width_limit,
		bool	input_has_single_channel,
		bool	is_width_flipped
	)

◆ fp16_nearest_neon_scale_nchw()

void arm_compute::cpu::fp16_nearest_neon_scale_nchw	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Referenced by CpuScaleKernel::configure().

◆ fp16_neon_batch_normalization()

void arm_compute::cpu::fp16_neon_batch_normalization	(	ITensor *	src,
		ITensor *	dst,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ fp16_neon_floor()

void arm_compute::cpu::fp16_neon_floor	(	const void *	src,
		void *	dst,
		int	len
	)

◆ fp16_neon_range_function()

void arm_compute::cpu::fp16_neon_range_function	(	ITensor *	output,
		float	start,
		float	step,
		const Window &	window
	)

◆ fp16_sve_batch_normalization()

void arm_compute::cpu::fp16_sve_batch_normalization	(	ITensor *	src,
		ITensor *	dst,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ fp16_sve_scale()

void arm_compute::cpu::fp16_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

◆ fp32_batch_normalization_nchw_non_fused()

void fp32_batch_normalization_nchw_non_fused	(	const Window &	window,
		ITensor *	input,
		ITensor *	output,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo	act_info
	)

Definition at line 37 of file fp32.cpp.

 {
     batch_normalization_nchw<float, false, detail::dummy<float, 4>>(window, input, output, mean, var, beta, gamma,
                                                                     epsilon, act_info);
 }

References arm_compute::test::validation::act_info, arm_compute::quantization::epsilon, and arm_compute::test::validation::input.

◆ fp32_batch_normalization_nchw_non_fused_brelu()

void fp32_batch_normalization_nchw_non_fused_brelu	(	const Window &	window,
		ITensor *	input,
		ITensor *	output,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo	act_info
	)

Definition at line 65 of file fp32.cpp.

 {
     batch_normalization_nchw<float, true, detail::brelu<float, 4>>(window, input, output, mean, var, beta, gamma,
                                                                    epsilon, act_info);
 }

References arm_compute::test::validation::act_info, arm_compute::quantization::epsilon, and arm_compute::test::validation::input.

◆ fp32_batch_normalization_nchw_non_fused_lubrelu()

void fp32_batch_normalization_nchw_non_fused_lubrelu	(	const Window &	window,
		ITensor *	input,
		ITensor *	output,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo	act_info
	)

Definition at line 79 of file fp32.cpp.

 {
     batch_normalization_nchw<float, true, detail::lubrelu<float, 4>>(window, input, output, mean, var, beta, gamma,
                                                                      epsilon, act_info);
 }

References arm_compute::test::validation::act_info, arm_compute::quantization::epsilon, and arm_compute::test::validation::input.

◆ fp32_batch_normalization_nchw_non_fused_relu()

void fp32_batch_normalization_nchw_non_fused_relu	(	const Window &	window,
		ITensor *	input,
		ITensor *	output,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo	act_info
	)

Definition at line 51 of file fp32.cpp.

 {
     batch_normalization_nchw<float, true, detail::relu<float, 4>>(window, input, output, mean, var, beta, gamma,
                                                                   epsilon, act_info);
 }

References arm_compute::test::validation::act_info, arm_compute::quantization::epsilon, and arm_compute::test::validation::input.

◆ fp32_in_bounds_crop_window()

void fp32_in_bounds_crop_window	(	const ITensor *	input,
		const ITensor *	output,
		float *	output_ptr,
		Coordinates	input_offset,
		int32_t	window_step_x,
		int32_t	output_width_start,
		int32_t	output_width_limit,
		bool	input_has_single_channel,
		bool	is_width_flipped
	)

Definition at line 31 of file fp32.cpp.

 {
     return in_bounds_crop_window<float32_t>(input, output, output_ptr, input_offset, window_step_x, output_width_start,
                                             output_width_limit, input_has_single_channel, is_width_flipped);
 }

References arm_compute::test::validation::input.

◆ fp32_neon_batch_normalization()

void fp32_neon_batch_normalization	(	ITensor *	src,
		ITensor *	dst,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 156 of file fp32.cpp.

 {
     if (act_info.enabled())
     {
         fused_map[act_info.activation()](src, dst, mean, var, beta, gamma, epsilon, act_info, window);
     }
     else
     {
         batch_normalization<detail::dummy<float, 4>>(src, dst, mean, var, beta, gamma, epsilon, act_info, window);
     }
 }

References arm_compute::test::validation::act_info, arm_compute::test::validation::dst, arm_compute::quantization::epsilon, and arm_compute::test::validation::src.

◆ fp32_neon_floor()

void fp32_neon_floor	(	const void *	src,
		void *	dst,
		int	len
	)

Definition at line 37 of file fp32.cpp.

 {
     ARM_COMPUTE_ASSERT_NOT_NULLPTR(src);
     ARM_COMPUTE_ASSERT_NOT_NULLPTR(dst);
     ARM_COMPUTE_ASSERT(len >= 0);
  
     auto psrc = static_cast<const float *>(src);
     auto pdst = static_cast<float *>(dst);
  
     for (; len >= step; len -= step)
     {
         vst1q_f32(pdst, vfloorq_f32(vld1q_f32(psrc)));
         psrc += step;
         pdst += step;
     }
  
     for (; len > 0; --len)
     {
         *pdst = std::floor(*psrc);
         ++pdst;
         ++psrc;
     }
 }

References ARM_COMPUTE_ASSERT, ARM_COMPUTE_ASSERT_NOT_NULLPTR, arm_compute::test::validation::dst, arm_compute::test::validation::src, step, and arm_compute::vfloorq_f32().

◆ fp32_neon_range_function()

void fp32_neon_range_function	(	ITensor *	output,
		float	start,
		float	step,
		const Window &	window
	)

Definition at line 34 of file fp32.cpp.

 {
     return neon_range_function<float32_t>(output, start, step, window);
 }

References step.

◆ fp32_sve_batch_normalization()

void arm_compute::cpu::fp32_sve_batch_normalization	(	ITensor *	src,
		ITensor *	dst,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ fp32_sve_scale()

void fp32_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 97 of file fp32.cpp.

 {
     ARM_COMPUTE_UNUSED(dx, dy, border_mode, constant_border_value);
     if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         fp32_sve_scale_nearest(src, dst, offsets, sampling_offset, align_corners, window);
     }
     else
     {
         ARM_COMPUTE_ERROR("Not implemented");
     }
 }

References ARM_COMPUTE_ERROR, ARM_COMPUTE_UNUSED, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ fp_neon_activation_impl()

void arm_compute::cpu::fp_neon_activation_impl	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 60 of file impl.h.

 {
     /** SIMD vector tag type. */
     using ExactTagType =
         typename arm_compute::wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
     constexpr int                                 window_step_x  = P.step_x;
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
     Window                                        win_collapsed  = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
     // In case of non-aarch64, a small delta value is added to the input
     // to prevent NAN values caused by zeros in inputs to SQRT.
     // In case of aarh64, we call vsqrt directly, so we don't use delta.
 #ifndef __aarch64__
     const auto delta = wrapper::vdup_n(static_cast<T>(P.delta), ExactTagType{});
 #else  /* #ifndef __aarch64__ */
     const auto const_inv_2      = wrapper::vdup_n(static_cast<T>(0.5f), ExactTagType{});
     const auto const_inv_sqrt_2 = wrapper::vdup_n(static_cast<T>(0.70710678118f), ExactTagType{});
 #endif /* __aarch64__ */
     const auto      const_1           = wrapper::vdup_n(static_cast<T>(1.f), ExactTagType{});
     const auto      const_0           = wrapper::vdup_n(static_cast<T>(0.f), ExactTagType{});
     const auto      const_6           = wrapper::vdup_n(static_cast<T>(6.f), ExactTagType{});
     const auto      const_3           = wrapper::vdup_n(static_cast<T>(3.f), ExactTagType{});
     const auto      const_inv_6       = wrapper::vdup_n(static_cast<T>(0.166666667f), ExactTagType{});
     constexpr float soft_relu_thresh  = 12.f;
     const auto      vsoft_relu_thresh = wrapper::vdup_n(static_cast<T>(soft_relu_thresh), ExactTagType{});
     const auto      va                = wrapper::vdup_n(static_cast<T>(act_info.a()), ExactTagType{});
     const auto      vb                = wrapper::vdup_n(static_cast<T>(act_info.b()), ExactTagType{});
     const auto      a                 = static_cast<T>(act_info.a());
     const auto      b                 = static_cast<T>(act_info.b());
     execute_window_loop(
         win_collapsed,
         [&](const Coordinates &)
         {
             const auto input_ptr  = reinterpret_cast<const T *>(input.ptr());
             const auto output_ptr = reinterpret_cast<T *>(output.ptr());
             wrapper::traits::neon_bitvector_t<T, wrapper::traits::BitWidth::W128> tmp;
             // Compute S elements per iteration
             int x = window_start_x;
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin = wrapper::vloadq(input_ptr + x);
                 switch (act)
                 {
                     case ActivationLayerInfo::ActivationFunction::ABS:
                         tmp = wrapper::vabs(vin);
                         break;
                     case ActivationLayerInfo::ActivationFunction::LINEAR:
                         tmp = wrapper::vmla(vb, va, vin);
                         break;
                     case ActivationLayerInfo::ActivationFunction::LOGISTIC:
                         tmp = wrapper::vinv(wrapper::vadd(const_1, wrapper::vexpq(wrapper::vneg(vin))));
                         break;
                     case ActivationLayerInfo::ActivationFunction::RELU:
                         tmp = wrapper::vmax(const_0, vin);
                         break;
                     case ActivationLayerInfo::ActivationFunction::BOUNDED_RELU:
                         tmp = wrapper::vmin(va, wrapper::vmax(const_0, vin));
                         break;
                     case ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU:
                         tmp = wrapper::vmin(va, wrapper::vmax(vb, vin));
                         break;
                     case ActivationLayerInfo::ActivationFunction::LEAKY_RELU:
                         tmp = wrapper::vbsl(wrapper::vcgt(vin, const_0), vin, wrapper::vmul(va, vin));
                         break;
                     case ActivationLayerInfo::ActivationFunction::SOFT_RELU:
                         tmp = wrapper::vbsl(wrapper::vcgt(vin, vsoft_relu_thresh), vin,
                                             wrapper::vlog(wrapper::vadd(const_1, wrapper::vexpq(vin))));
                         break;
                     case ActivationLayerInfo::ActivationFunction::ELU:
                         tmp = wrapper::vbsl(wrapper::vcge(vin, const_0), vin,
                                             wrapper::vmul(va, wrapper::vsub(wrapper::vexpq(vin), const_1)));
                         break;
                     case ActivationLayerInfo::ActivationFunction::SQRT:
 #ifdef __aarch64__
                         tmp = wrapper::vsqrt(vin);
 #else  /* __aarch64__ */
                     {
                         const auto bitmask = wrapper::vceq(vin, wrapper::vdup_n(0.f, ExactTagType{}));
                         tmp = wrapper::vinv(wrapper::vinvsqrt(wrapper::vadd(vin, mask_float_vector(delta, bitmask))));
                         tmp = mask_float_vector(tmp, wrapper::vnot(bitmask));
                     }
 #endif /* __aarch64__ */
                         break;
                     case ActivationLayerInfo::ActivationFunction::SQUARE:
                         tmp = wrapper::vmul(vin, vin);
                         break;
                     case ActivationLayerInfo::ActivationFunction::TANH:
                         tmp = wrapper::vmul(va, wrapper::vtanh(wrapper::vmul(vb, vin)));
                         break;
                     case ActivationLayerInfo::ActivationFunction::IDENTITY:
                         tmp = vin;
                         break;
                     case ActivationLayerInfo::ActivationFunction::HARD_SWISH:
                         tmp = wrapper::vmul(
                             vin,
                             wrapper::vmul(const_inv_6,
                                           wrapper::vmin(const_6, wrapper::vmax(const_0, wrapper::vadd(vin, const_3)))));
                         break;
                     case ActivationLayerInfo::ActivationFunction::SWISH:
                         tmp = wrapper::vmul(vin, wrapper::vinv(wrapper::vadd(
                                                      const_1, wrapper::vexpq(wrapper::vneg(wrapper::vmul(va, vin))))));
                         break;
 #ifdef __aarch64__
                     case ActivationLayerInfo::ActivationFunction::GELU:
                         tmp = wrapper::vmul(
                             vin,
                             wrapper::vmul(const_inv_2,
                                           wrapper::vadd(const_1, wrapper::verf(wrapper::vmul(vin, const_inv_sqrt_2)))));
                         break;
 #endif /* __aarch64__ */
                     default:
                         ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
                 wrapper::vstore(output_ptr + x, tmp);
             }
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 const T in = *(reinterpret_cast<const T *>(input_ptr + x));
                 T       tmp;
                 switch (act)
                 {
                     case ActivationLayerInfo::ActivationFunction::ABS:
                         tmp = std::abs(in);
                         break;
                     case ActivationLayerInfo::ActivationFunction::LINEAR:
                         tmp = a * in + b;
                         break;
                     case ActivationLayerInfo::ActivationFunction::LOGISTIC:
                         tmp = static_cast<T>(1) / (static_cast<T>(1) + std::exp(-in));
                         break;
                     case ActivationLayerInfo::ActivationFunction::RELU:
                         tmp = std::max<T>(static_cast<T>(0), in);
                         break;
                     case ActivationLayerInfo::ActivationFunction::BOUNDED_RELU:
                         tmp = std::min<T>(a, std::max(static_cast<T>(0), in));
                         break;
                     case ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU:
                         tmp = std::min<T>(a, std::max<T>(b, in));
                         break;
                     case ActivationLayerInfo::ActivationFunction::LEAKY_RELU:
                         tmp = (in > 0) ? in : a * in;
                         break;
                     case ActivationLayerInfo::ActivationFunction::SOFT_RELU:
                         tmp = (in > soft_relu_thresh) ? in : std::log(static_cast<T>(1) + std::exp(in));
                         break;
                     case ActivationLayerInfo::ActivationFunction::ELU:
                         tmp = (in >= 0) ? in : a * (std::exp(in) - 1);
                         break;
                     case ActivationLayerInfo::ActivationFunction::SQRT:
                         tmp = std::sqrt(in);
                         break;
                     case ActivationLayerInfo::ActivationFunction::SQUARE:
                         tmp = in * in;
                         break;
                     case ActivationLayerInfo::ActivationFunction::TANH:
                         tmp = a * std::tanh(b * in);
                         break;
                     case ActivationLayerInfo::ActivationFunction::IDENTITY:
                         tmp = in;
                         break;
                     case ActivationLayerInfo::ActivationFunction::HARD_SWISH:
                         tmp = in * ((std::min(std::max((in + 3), 0.0f), 6.0f)) * 0.166666667f);
                         break;
                     case ActivationLayerInfo::ActivationFunction::SWISH:
                         tmp = in / (static_cast<T>(1) + std::exp(-a * in));
                         break;
                     case ActivationLayerInfo::ActivationFunction::GELU:
                         tmp = in * static_cast<T>(0.5f * (1.0f + erff(static_cast<float>(in) / 1.41421356237f)));
                         break;
                     default:
                         ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
                 *(output_ptr + x) = tmp;
             }
         },
         input, output);
 }

◆ fused_batch_normalization_conv()

void arm_compute::cpu::fused_batch_normalization_conv	(	const ITensor *	conv_weights,
		const ITensor *	conv_bias,
		ITensor *	fused_weights,
		ITensor *	fused_bias,
		const ITensor *	bn_mean,
		const ITensor *	bn_var,
		const ITensor *	bn_beta,
		const ITensor *	bn_gamma,
		float	epsilon,
		const Window &	window
	)

Definition at line 154 of file impl.h.

 {
     using ScalarType   = T;
     const int size     = 16 / conv_weights->info()->element_size();
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
  
     const bool run_in_place_weights = (fused_weights == nullptr) || (fused_weights == conv_weights);
     const bool run_in_place_bias    = (fused_bias == nullptr) || (conv_bias != nullptr && fused_bias == conv_bias);
  
     // Set build options
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x  = size;
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Iterator conv_w_in(conv_weights, win);
     Iterator conv_w_out(run_in_place_weights ? conv_weights : fused_weights, win);
  
     const auto conv_bias_in =
         (conv_bias != nullptr ? reinterpret_cast<ScalarType *>(conv_bias->ptr_to_element(Coordinates(0, 0))) : nullptr);
     auto conv_bias_out =
         (run_in_place_bias ? conv_bias_in
                            : reinterpret_cast<ScalarType *>(fused_bias->ptr_to_element(Coordinates(0, 0))));
  
     const auto input_mean  = reinterpret_cast<const ScalarType *>(bn_mean->ptr_to_element(Coordinates(0, 0)));
     const auto input_var   = reinterpret_cast<const ScalarType *>(bn_var->ptr_to_element(Coordinates(0, 0)));
     const auto input_gamma = (bn_gamma != nullptr)
                                  ? reinterpret_cast<const ScalarType *>(bn_gamma->ptr_to_element(Coordinates(0, 0)))
                                  : nullptr;
     const auto input_beta  = (bn_beta != nullptr)
                                  ? reinterpret_cast<const ScalarType *>(bn_beta->ptr_to_element(Coordinates(0, 0)))
                                  : nullptr;
  
     auto       mean_vec    = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       var_vec     = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       gamma_vec   = wrapper::vdup_n(ScalarType(1), ExactTagType{});
     auto       beta_vec    = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       rvar_vec    = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     const auto epsilon_vec = wrapper::vdup_n(ScalarType(epsilon), ExactTagType{});
  
     auto mean                = ScalarType(0.0);
     auto var                 = ScalarType(0.0);
     auto gamma               = ScalarType(1.0);
     auto beta                = ScalarType(0.0);
     auto conv_bias_in_scalar = ScalarType(0.0);
     execute_window_loop(
         win,
         [&](const Coordinates &id)
         {
             var = input_var[id[3]];
             if (input_gamma != nullptr)
             {
                 gamma = input_gamma[id[3]];
             }
  
             if ((id[0] == 0) && (id[1] == 0) && (id[2] == 0))
             {
                 if (input_beta != nullptr)
                 {
                     beta     = input_beta[id[3]];
                     beta_vec = wrapper::vdup_n(beta, ExactTagType{});
                 }
  
                 // Construct vectors
                 mean     = input_mean[id[3]];
                 mean_vec = wrapper::vdup_n(mean, ExactTagType{});
  
                 if (conv_bias_in != nullptr)
                 {
                     conv_bias_in_scalar = conv_bias_in[id[3]];
                 }
                 auto conv_bias_tmp_scalar = (conv_bias_in_scalar - mean) / std::sqrt(var + ScalarType(epsilon));
                 conv_bias_out[id[3]]      = (conv_bias_tmp_scalar * gamma) + beta;
             }
  
             int  x              = window_start_x;
             auto conv_w_in_ptr  = reinterpret_cast<const ScalarType *>(conv_w_in.ptr());
             auto conv_w_out_ptr = reinterpret_cast<ScalarType *>(conv_w_out.ptr());
             var_vec             = wrapper::vdup_n(var, ExactTagType{});
             gamma_vec           = wrapper::vdup_n(gamma, ExactTagType{});
             rvar_vec            = wrapper::vinvsqrt(wrapper::vadd(var_vec, epsilon_vec));
  
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 auto wn = wrapper::vloadq(conv_w_in_ptr + x);
                 wn      = wrapper::vmul(wn, rvar_vec);
                 wn      = wrapper::vmul(wn, gamma_vec);
  
                 // Store results
                 wrapper::vstore(conv_w_out_ptr + x, wn);
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 *(conv_w_out_ptr + x) = *(conv_w_in_ptr + x) / std::sqrt(var + ScalarType(epsilon)) * gamma;
             }
         },
         conv_w_in, conv_w_out);
 }

References Window::DimX, ITensorInfo::element_size(), Window::Dimension::end(), arm_compute::quantization::epsilon, arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), ITensor::ptr_to_element(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::vadd(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vinvsqrt(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmul(), arm_compute::wrapper::vstore(), and Window::x().

◆ fused_batch_normalization_conv_f16()

void arm_compute::cpu::fused_batch_normalization_conv_f16	(	const ITensor *	conv_weights,
		const ITensor *	conv_bias,
		ITensor *	fused_weights,
		ITensor *	fused_bias,
		const ITensor *	bn_mean,
		const ITensor *	bn_var,
		const ITensor *	bn_beta,
		const ITensor *	bn_gamma,
		float	epsilon,
		const Window &	window
	)

◆ fused_batch_normalization_conv_f32()

void fused_batch_normalization_conv_f32	(	const ITensor *	conv_weights,
		const ITensor *	conv_bias,
		ITensor *	fused_weights,
		ITensor *	fused_bias,
		const ITensor *	bn_mean,
		const ITensor *	bn_var,
		const ITensor *	bn_beta,
		const ITensor *	bn_gamma,
		float	epsilon,
		const Window &	window
	)

Definition at line 31 of file fp32.cpp.

 {
     return fused_batch_normalization_conv<float32_t>(conv_weights, conv_bias, fused_weights, fused_bias, bn_mean,
                                                      bn_var, bn_beta, bn_gamma, epsilon, window);
 }

References arm_compute::quantization::epsilon.

◆ fused_batch_normalization_dwc_nchw()

void arm_compute::cpu::fused_batch_normalization_dwc_nchw	(	const ITensor *	dwc_weights,
		const ITensor *	dwc_bias,
		ITensor *	fused_weights,
		ITensor *	fused_bias,
		const ITensor *	bn_mean,
		const ITensor *	bn_var,
		const ITensor *	bn_beta,
		const ITensor *	bn_gamma,
		float	epsilon,
		const Window &	window
	)

Definition at line 266 of file impl.h.

 {
     using ScalarType   = T;
     const int size     = 16 / dwc_weights->info()->element_size();
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
  
     const bool run_in_place_weights = (fused_weights == nullptr) || (fused_weights == dwc_weights);
     const bool run_in_place_bias    = (fused_bias == nullptr) || (dwc_bias != nullptr && fused_bias == dwc_bias);
  
     // Set build options
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x  = size;
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Iterator dwc_w_in(dwc_weights, win);
     Iterator dwc_w_out(run_in_place_weights ? dwc_weights : fused_weights, win);
  
     const auto dwc_bias_in =
         (dwc_bias != nullptr ? reinterpret_cast<ScalarType *>(dwc_bias->ptr_to_element(Coordinates(0, 0))) : nullptr);
     auto dwc_bias_out =
         (run_in_place_bias ? dwc_bias_in
                            : reinterpret_cast<ScalarType *>(fused_bias->ptr_to_element(Coordinates(0, 0))));
  
     const auto input_mean  = reinterpret_cast<const ScalarType *>(bn_mean->ptr_to_element(Coordinates(0, 0)));
     const auto input_var   = reinterpret_cast<const ScalarType *>(bn_var->ptr_to_element(Coordinates(0, 0)));
     const auto input_gamma = (bn_gamma != nullptr)
                                  ? reinterpret_cast<const ScalarType *>(bn_gamma->ptr_to_element(Coordinates(0, 0)))
                                  : nullptr;
     const auto input_beta  = (bn_beta != nullptr)
                                  ? reinterpret_cast<const ScalarType *>(bn_beta->ptr_to_element(Coordinates(0, 0)))
                                  : nullptr;
  
     auto       mean_vec    = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       var_vec     = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       gamma_vec   = wrapper::vdup_n(ScalarType(1), ExactTagType{});
     auto       beta_vec    = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       rvar_vec    = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     const auto epsilon_vec = wrapper::vdup_n(ScalarType(epsilon), ExactTagType{});
  
     auto mean               = ScalarType(0.0);
     auto var                = ScalarType(0.0);
     auto gamma              = ScalarType(1.0);
     auto beta               = ScalarType(0.0);
     auto dwc_bias_in_scalar = ScalarType(0.0);
     execute_window_loop(
         win,
         [&](const Coordinates &id)
         {
             var = input_var[id[2]];
             if (input_gamma != nullptr)
             {
                 gamma = input_gamma[id[2]];
             }
  
             if (id[1] == 0)
             {
                 mean = input_mean[id[2]];
  
                 // Construct vectors
                 mean_vec = wrapper::vdup_n(mean, ExactTagType{});
                 if (input_beta != nullptr)
                 {
                     beta     = input_beta[id[2]];
                     beta_vec = wrapper::vdup_n(beta, ExactTagType{});
                 }
  
                 if (dwc_bias_in != nullptr)
                 {
                     dwc_bias_in_scalar = dwc_bias_in[id[2]];
                 }
  
                 auto dwc_bias_tmp_scalar = (dwc_bias_in_scalar - mean) / std::sqrt(var + ScalarType(epsilon));
                 dwc_bias_out[id[2]]      = (dwc_bias_tmp_scalar * gamma) + beta;
             }
  
             int  x             = window_start_x;
             auto dwc_w_in_ptr  = reinterpret_cast<const ScalarType *>(dwc_w_in.ptr());
             auto dwc_w_out_ptr = reinterpret_cast<ScalarType *>(dwc_w_out.ptr());
             var_vec            = wrapper::vdup_n(var, ExactTagType{});
             gamma_vec          = wrapper::vdup_n(gamma, ExactTagType{});
             rvar_vec           = wrapper::vinvsqrt(wrapper::vadd(var_vec, epsilon_vec));
  
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 auto wn = wrapper::vloadq(dwc_w_in_ptr + x);
                 wn      = wrapper::vmul(wn, rvar_vec);
                 wn      = wrapper::vmul(wn, gamma_vec);
  
                 // Store results
                 wrapper::vstore(dwc_w_out_ptr + x, wn);
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 *(dwc_w_out_ptr + x) = *(dwc_w_in_ptr + x) / std::sqrt(var + ScalarType(epsilon)) * gamma;
             }
         },
         dwc_w_in, dwc_w_out);
 }

References Window::DimX, ITensorInfo::element_size(), Window::Dimension::end(), arm_compute::quantization::epsilon, arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), ITensor::ptr_to_element(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::vadd(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vinvsqrt(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmul(), arm_compute::wrapper::vstore(), and Window::x().

◆ fused_batch_normalization_dwc_nchw_f16()

void arm_compute::cpu::fused_batch_normalization_dwc_nchw_f16	(	const ITensor *	dwc_weights,
		const ITensor *	dwc_bias,
		ITensor *	fused_weights,
		ITensor *	fused_bias,
		const ITensor *	bn_mean,
		const ITensor *	bn_var,
		const ITensor *	bn_beta,
		const ITensor *	bn_gamma,
		float	epsilon,
		const Window &	window
	)

◆ fused_batch_normalization_dwc_nchw_f32()

void fused_batch_normalization_dwc_nchw_f32	(	const ITensor *	dwc_weights,
		const ITensor *	dwc_bias,
		ITensor *	fused_weights,
		ITensor *	fused_bias,
		const ITensor *	bn_mean,
		const ITensor *	bn_var,
		const ITensor *	bn_beta,
		const ITensor *	bn_gamma,
		float	epsilon,
		const Window &	window
	)

Definition at line 31 of file all.cpp.

 {
     return fused_batch_normalization_dwc_nchw<float32_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean,
                                                          bn_var, bn_beta, bn_gamma, epsilon, window);
 }

References arm_compute::quantization::epsilon.

◆ fused_batch_normalization_dwc_nhwc()

void arm_compute::cpu::fused_batch_normalization_dwc_nhwc	(	const ITensor *	dwc_weights,
		const ITensor *	dwc_bias,
		ITensor *	fused_weights,
		ITensor *	fused_bias,
		const ITensor *	bn_mean,
		const ITensor *	bn_var,
		const ITensor *	bn_beta,
		const ITensor *	bn_gamma,
		float	epsilon,
		const Window &	window
	)

Definition at line 36 of file impl.h.

 {
     using ScalarType   = T;
     const int size     = 16 / dwc_weights->info()->element_size();
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
  
     const bool run_in_place_weights = (fused_weights == nullptr) || (fused_weights == dwc_weights);
     const bool run_in_place_bias    = (fused_bias == nullptr) || (dwc_bias != nullptr && fused_bias == dwc_bias);
  
     // Set build options
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x  = size;
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Iterator dwc_w_in(dwc_weights, win);
     Iterator dwc_w_out(run_in_place_weights ? dwc_weights : fused_weights, win);
  
     const auto dwc_bias_in =
         (dwc_bias != nullptr ? reinterpret_cast<ScalarType *>(dwc_bias->ptr_to_element(Coordinates(0, 0))) : nullptr);
     auto dwc_bias_out =
         (run_in_place_bias ? dwc_bias_in
                            : reinterpret_cast<ScalarType *>(fused_bias->ptr_to_element(Coordinates(0, 0))));
  
     const auto input_mean  = reinterpret_cast<const ScalarType *>(bn_mean->ptr_to_element(Coordinates(0, 0)));
     const auto input_var   = reinterpret_cast<const ScalarType *>(bn_var->ptr_to_element(Coordinates(0, 0)));
     const auto input_gamma = (bn_gamma != nullptr)
                                  ? reinterpret_cast<const ScalarType *>(bn_gamma->ptr_to_element(Coordinates(0, 0)))
                                  : nullptr;
     const auto input_beta  = (bn_beta != nullptr)
                                  ? reinterpret_cast<const ScalarType *>(bn_beta->ptr_to_element(Coordinates(0, 0)))
                                  : nullptr;
  
     auto       mean_vec     = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       var_vec      = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       gamma_vec    = wrapper::vdup_n(ScalarType(1), ExactTagType{});
     auto       beta_vec     = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       rvar_vec     = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     auto       dwc_bias_vec = wrapper::vdup_n(ScalarType(0), ExactTagType{});
     const auto epsilon_vec  = wrapper::vdup_n(ScalarType(epsilon), ExactTagType{});
  
     auto gamma              = ScalarType(1.0);
     auto beta               = ScalarType(0.0);
     auto dwc_bias_in_scalar = ScalarType(0);
  
     execute_window_loop(
         win,
         [&](const Coordinates &id)
         {
             int x = window_start_x;
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 var_vec = wrapper::vloadq(input_var + x);
                 if (input_gamma != nullptr)
                 {
                     gamma_vec = wrapper::vloadq(input_gamma + x);
                 }
  
                 if ((id[2] == 0) && (id[1] == 0))
                 {
                     mean_vec = wrapper::vloadq(input_mean + x);
  
                     // Construct vectors
                     if (input_beta != nullptr)
                     {
                         beta_vec = wrapper::vloadq(input_beta + x);
                     }
  
                     if (dwc_bias_in != nullptr)
                     {
                         dwc_bias_vec = wrapper::vloadq(dwc_bias_in + x);
                     }
  
                     auto dwc_bias_tmp_vec = wrapper::vmul(wrapper::vsub(dwc_bias_vec, mean_vec),
                                                           wrapper::vinvsqrt(wrapper::vadd(var_vec, epsilon_vec)));
                     dwc_bias_tmp_vec      = wrapper::vadd(wrapper::vmul(dwc_bias_tmp_vec, gamma_vec), beta_vec);
                     wrapper::vstore(dwc_bias_out + x, dwc_bias_tmp_vec);
                 }
  
                 auto dwc_w_in_ptr  = reinterpret_cast<const ScalarType *>(dwc_w_in.ptr());
                 auto dwc_w_out_ptr = reinterpret_cast<ScalarType *>(dwc_w_out.ptr());
  
                 auto wn  = wrapper::vloadq(dwc_w_in_ptr + x);
                 rvar_vec = wrapper::vinvsqrt(wrapper::vadd(var_vec, epsilon_vec));
                 wn       = wrapper::vmul(wn, rvar_vec);
                 wn       = wrapper::vmul(wn, gamma_vec);
  
                 // Store results
                 wrapper::vstore(dwc_w_out_ptr + x, wn);
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 auto var = input_var[x];
                 if (input_gamma != nullptr)
                 {
                     gamma = input_gamma[x];
                 }
  
                 if (id[2] == 0 && id[1] == 0)
                 {
                     auto mean = input_mean[x];
                     if (input_beta != nullptr)
                     {
                         beta = input_beta[x];
                     }
                     if (dwc_bias_in != nullptr)
                     {
                         dwc_bias_in_scalar = dwc_bias_in[x];
                     }
  
                     auto dwc_bias_tmp_scalar = (dwc_bias_in_scalar - mean) / std::sqrt(var + ScalarType(epsilon));
                     dwc_bias_out[x]          = (dwc_bias_tmp_scalar * gamma) + beta;
                 }
  
                 const auto dwc_w_in_ptr  = reinterpret_cast<const ScalarType *>(dwc_w_in.ptr());
                 auto       dwc_w_out_ptr = reinterpret_cast<ScalarType *>(dwc_w_out.ptr());
  
                 *(dwc_w_out_ptr + x) = *(dwc_w_in_ptr + x) / std::sqrt(var + ScalarType(epsilon)) * gamma;
             }
         },
         dwc_w_in, dwc_w_out);
 }

References Window::DimX, ITensorInfo::element_size(), Window::Dimension::end(), arm_compute::quantization::epsilon, arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), ITensor::ptr_to_element(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::vadd(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vinvsqrt(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmul(), arm_compute::wrapper::vstore(), arm_compute::wrapper::vsub(), and Window::x().

◆ fused_batch_normalization_dwc_nhwc_f16()

void arm_compute::cpu::fused_batch_normalization_dwc_nhwc_f16	(	const ITensor *	dwc_weights,
		const ITensor *	dwc_bias,
		ITensor *	fused_weights,
		ITensor *	fused_bias,
		const ITensor *	bn_mean,
		const ITensor *	bn_var,
		const ITensor *	bn_beta,
		const ITensor *	bn_gamma,
		float	epsilon,
		const Window &	window
	)

◆ fused_batch_normalization_dwc_nhwc_f32()

void fused_batch_normalization_dwc_nhwc_f32	(	const ITensor *	dwc_weights,
		const ITensor *	dwc_bias,
		ITensor *	fused_weights,
		ITensor *	fused_bias,
		const ITensor *	bn_mean,
		const ITensor *	bn_var,
		const ITensor *	bn_beta,
		const ITensor *	bn_gamma,
		float	epsilon,
		const Window &	window
	)

Definition at line 32 of file fp32.cpp.

 {
     return fused_batch_normalization_dwc_nhwc<float32_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean,
                                                          bn_var, bn_beta, bn_gamma, epsilon, window);
 }

References arm_compute::quantization::epsilon.

◆ get_initial_min()

T arm_compute::cpu::get_initial_min ( bool use_inf_as_limit )

Definition at line 65 of file list.h.

 {
     return use_inf_as_limit ? -std::numeric_limits<T>::infinity() : std::numeric_limits<T>::lowest();
 }

References arm_compute::support::cpp11::lowest().

◆ in_bounds_crop_window()

void arm_compute::cpu::in_bounds_crop_window	(	const ITensor *	input,
		const ITensor *	output,
		float *	output_ptr,
		Coordinates	input_offset,
		int32_t	window_step_x,
		int32_t	output_width_start,
		int32_t	output_width_limit,
		bool	input_has_single_channel,
		bool	is_width_flipped
	)

Definition at line 39 of file impl.h.

 {
     // Reverse elements if width flipped.
     if (is_width_flipped)
     {
         // Collapse first dimension if possible.
         if (input_has_single_channel)
         {
             int32_t     x = output_width_start;
             Coordinates negative_offset(input_offset);
             negative_offset.set(1, negative_offset[1] - window_step_x + 1);
             for (; x <= output_width_limit - window_step_x; x += window_step_x, negative_offset[1] -= window_step_x)
             {
                 auto in = load_as_f32(reinterpret_cast<T *>(input->ptr_to_element(negative_offset)));
  
                 in = wrapper::vrev64(in);
                 in = wrapper::vcombine(wrapper::vgethigh(in), wrapper::vgetlow(in));
  
                 wrapper::vstore(output_ptr + x, in);
             }
             input_offset[1] = negative_offset[1] + window_step_x - 1;
             for (; x < output_width_limit; ++x, --input_offset[1])
             {
                 *(output_ptr + x) = static_cast<float>(*reinterpret_cast<T *>(input->ptr_to_element(input_offset)));
             }
         }
         else
         {
             for (int32_t x = output_width_start; x < output_width_limit; ++x, --input_offset[1])
             {
                 input_offset.set(0, 0);
                 int32_t c = 0;
                 for (; c <= static_cast<int32_t>(input->info()->dimension(0)) - window_step_x;
                      c += window_step_x, input_offset[0] += window_step_x)
                 {
                     auto in = load_as_f32(reinterpret_cast<T *>(input->ptr_to_element(input_offset)));
                     wrapper::vstore(output_ptr + x * output->info()->dimension(0) + c, in);
                 }
                 for (; c < static_cast<int32_t>(input->info()->dimension(0)); ++c, ++input_offset[0])
                 {
                     *(output_ptr + x * output->info()->dimension(0) + c) =
                         static_cast<float>(*reinterpret_cast<T *>(input->ptr_to_element(input_offset)));
                 }
             }
         }
     }
     else
     {
         // Use memcpy if the elements don't need converting to float.
         if (std::is_same<T, float>::value)
         {
             memcpy(static_cast<void *>(output_ptr + output_width_start * output->info()->dimension(0)),
                    reinterpret_cast<const void *>(input->ptr_to_element(input_offset)),
                    (output_width_limit - output_width_start) * output->info()->dimension(0) *
                        output->info()->element_size());
         }
         else
         {
             int32_t x = 0;
             int32_t limit =
                 (output_width_limit - output_width_start) * static_cast<int32_t>(output->info()->dimension(0));
             float *output_start_ptr = output_ptr + output_width_start * output->info()->dimension(0);
             for (; x <= limit - window_step_x; x += window_step_x, input_offset[0] += window_step_x)
             {
                 auto in = load_as_f32(reinterpret_cast<T *>(input->ptr_to_element(input_offset)));
                 wrapper::vstore(output_start_ptr + x, in);
             }
             for (; x < limit; ++x, ++input_offset[0])
             {
                 *(output_start_ptr + x) =
                     static_cast<float>(*reinterpret_cast<T *>(input->ptr_to_element(input_offset)));
             }
         }
     }
 }

References ITensorInfo::dimension(), ITensorInfo::element_size(), ITensor::info(), arm_compute::test::validation::input, load_as_f32(), Dimensions< T >::set(), arm_compute::wrapper::vcombine(), arm_compute::wrapper::vgethigh(), arm_compute::wrapper::vgetlow(), arm_compute::wrapper::vrev64(), and arm_compute::wrapper::vstore().

◆ instance_normalization_nchw()

void instance_normalization_nchw	(	ITensor *	input,
		ITensor *	output,
		float	gamma,
		float	beta,
		float	epsilon,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 49 of file impl.cpp.

 {
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
  
     // Clear X/Y dimensions on execution window as we handle the planes manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
     win.set(Window::DimY, Window::Dimension(0, 1, 1));
  
     constexpr int      window_step_x  = 16 / sizeof(T);
     const unsigned int elements_plane = input->info()->dimension(0) * output->info()->dimension(1);
  
     Iterator input_it(input, win);
     execute_window_loop(
         win,
         [&](const Coordinates &id)
         {
             Window win_plane = window;
             win_plane.set(Window::DimX, Window::Dimension(0, 1, 1));
             win_plane.set(Window::DimZ, Window::Dimension(id[2], id[2] + 1, 1));
             win_plane.set(3, Window::Dimension(id[3], id[3] + 1, 1));
  
             Iterator input_plane_it(input, win_plane);
             Iterator output_plane_it(output, win_plane);
  
             auto sum_h_w         = static_cast<AccType>(0.f);
             auto sum_squares_h_w = static_cast<AccType>(0.f);
  
             execute_window_loop(
                 win_plane,
                 [&](const Coordinates &)
                 {
                     const auto input_ptr = reinterpret_cast<const T *>(input_plane_it.ptr());
  
                     auto vec_sum_h_w         = wrapper::vdup_n(static_cast<AccType>(0.f), ExactTagType{});
                     auto vec_sum_squares_h_w = wrapper::vdup_n(static_cast<AccType>(0.f), ExactTagType{});
  
                     // Compute S elements per iteration
                     int x = window.x().start();
                     for (; x <= (window.x().end() - window_step_x); x += window_step_x)
                     {
                         auto vec_input_val = wrapper::vloadq(input_ptr + x);
                         vector_float_sum(vec_sum_h_w, vec_sum_squares_h_w, vec_input_val);
                     }
  
                     auto vec2_sum_h_w = wrapper::vpadd(wrapper::vgethigh(vec_sum_h_w), wrapper::vgetlow(vec_sum_h_w));
                     auto vec2_sum_squares_h_w =
                         wrapper::vpadd(wrapper::vgethigh(vec_sum_squares_h_w), wrapper::vgetlow(vec_sum_squares_h_w));
  
                     vec2_sum_h_w         = wrapper::vpadd(vec2_sum_h_w, vec2_sum_h_w);
                     vec2_sum_squares_h_w = wrapper::vpadd(vec2_sum_squares_h_w, vec2_sum_squares_h_w);
  
                     sum_h_w += wrapper::vgetlane(vec2_sum_h_w, 0);
                     sum_squares_h_w += wrapper::vgetlane(vec2_sum_squares_h_w, 0);
  
                     // Compute left-over elements
                     for (; x < window.x().end(); ++x)
                     {
                         const auto value = static_cast<AccType>(*(input_ptr + x));
                         sum_h_w += value;
                         sum_squares_h_w += value * value;
                     }
                 },
                 input_plane_it, output_plane_it);
  
             const auto mean_h_w = sum_h_w / elements_plane;
             const auto var_h_w  = sum_squares_h_w / elements_plane - mean_h_w * mean_h_w;
  
             const auto multip_h_w     = gamma / std::sqrt(var_h_w + epsilon);
             const auto vec_mean_h_w   = wrapper::vdup_n(static_cast<AccType>(mean_h_w), ExactTagType{});
             const auto vec_multip_h_w = wrapper::vdup_n(static_cast<AccType>(multip_h_w), ExactTagType{});
             const auto vec_beta       = wrapper::vdup_n(static_cast<AccType>(beta), ExactTagType{});
  
             execute_window_loop(
                 win_plane,
                 [&](const Coordinates &)
                 {
                     auto input_ptr  = reinterpret_cast<T *>(input_plane_it.ptr());
                     auto output_ptr = reinterpret_cast<T *>(output_plane_it.ptr());
  
                     // Compute S elements per iteration
                     int x = window.x().start();
                     //auto vec_val = wrapper::vdup_n(static_cast<T>(0.0f), ExactTagType{});
                     for (; x <= (window.x().end() - window_step_x); x += window_step_x)
                     {
                         const auto vec_val        = wrapper::vloadq(input_ptr + x);
                         const auto normalized_vec = vector_float_norm(vec_val, vec_mean_h_w, vec_multip_h_w, vec_beta);
                         wrapper::vstore(output_ptr + x, normalized_vec);
                     }
  
                     // Compute left-over elements
                     for (; x < window.x().end(); ++x)
                     {
                         const auto val    = static_cast<AccType>(*(input_ptr + x));
                         *(output_ptr + x) = static_cast<T>((val - mean_h_w) * multip_h_w + beta);
                     }
                 },
                 input_plane_it, output_plane_it);
         },
         input_it);
 }

References ITensorInfo::dimension(), Window::DimX, Window::DimY, Window::DimZ, Window::Dimension::end(), arm_compute::mlgo::parser::end(), arm_compute::quantization::epsilon, arm_compute::execute_window_loop(), ITensor::info(), arm_compute::test::validation::input, Iterator::ptr(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::vdup_n(), vector_float_norm(), vector_float_sum(), arm_compute::wrapper::vgethigh(), arm_compute::wrapper::vgetlane(), arm_compute::wrapper::vgetlow(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vpadd(), arm_compute::wrapper::vstore(), and Window::x().

◆ instance_normalization_nchw< float >()

template void arm_compute::cpu::instance_normalization_nchw< float >	(	ITensor *	input,
		ITensor *	output,
		float	gamma,
		float	beta,
		float	epsilon,
		const Window &	window
	)

Referenced by neon_fp32_instancenorm().

◆ is_valid_input_region()

bool arm_compute::cpu::is_valid_input_region	(	int32_t	base_w,
		uint32_t	base_h,
		uint32_t	w,
		uint32_t	h,
		const DepthwiseConvolutionRunInfo &	run_info,
		const Size2D &	dilation
	)

inline

Definition at line 97 of file impl.h.

 {
     const int32_t current_h  = base_h + h * dilation.y();
     const bool    is_valid_h = current_h >= 0 && current_h < static_cast<int32_t>(run_info.input_height);
  
     const int32_t current_w  = base_w + w * dilation.x();
     const bool    is_valid_w = current_w >= 0 && current_w < static_cast<int32_t>(run_info.input_width);
  
     return is_valid_h && is_valid_w;
 }

References DepthwiseConvolutionRunInfo::input_height, DepthwiseConvolutionRunInfo::input_width, arm_compute::test::validation::w, Size2D::x(), and Size2D::y().

Referenced by depthwise_loop_generic_fp(), and depthwise_loop_multiplier1_fp().

◆ l2_normalize_x()

void arm_compute::cpu::l2_normalize_x	(	const ITensor *	in,
		const ITensor *	sum,
		ITensor *	out,
		float	epsilon,
		const Window &	window
	)

Definition at line 40 of file impl.h.

 {
     using ExactTagType = typename wrapper::traits::neon_vector<T, S>::tag_type;
  
     const int  window_step_x  = 16 / data_size_from_type(in->info()->data_type());
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input_it(in, win_collapsed);
     Iterator sum_it(sum, win_collapsed);
     Iterator output_it(out, win_collapsed);
  
     execute_window_loop(
         win_collapsed,
         [&](const Coordinates &)
         {
             const auto in_ptr  = reinterpret_cast<const T *>(input_it.ptr());
             const auto out_ptr = reinterpret_cast<T *>(output_it.ptr());
  
             const T    sum_value      = *reinterpret_cast<const T *>(sum_it.ptr());
             const T    norm_value     = static_cast<T>(1.f) / std::sqrt(std::max(sum_value, static_cast<T>(epsilon)));
             const auto vec_norm_value = wrapper::vdup_n(norm_value, ExactTagType{});
  
             // Compute elements over vector steps
             int x = window_start_x;
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 wrapper::vstore(out_ptr + x, wrapper::vmul(wrapper::vloadq(in_ptr + x), vec_norm_value));
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 out_ptr[x] = in_ptr[x] * norm_value;
             }
         },
         input_it, sum_it, output_it);
 }

References Window::collapse_if_possible(), arm_compute::data_size_from_type(), ITensorInfo::data_type(), Window::DimX, Window::DimZ, Window::Dimension::end(), arm_compute::quantization::epsilon, arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmul(), arm_compute::wrapper::vstore(), and Window::x().

◆ l2_normalize_yz()

void arm_compute::cpu::l2_normalize_yz	(	const ITensor *	in,
		const ITensor *	sum,
		ITensor *	out,
		float	epsilon,
		const Window &	window,
		size_t	axis
	)

Definition at line 83 of file impl.h.

 {
     using ExactTagType = typename wrapper::traits::neon_vector<T, S>::tag_type;
  
     const int  window_step_x  = 16 / data_size_from_type(in->info()->data_type());
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Window window_sum(win);
     window_sum.set(axis, Window::Dimension(0, 0, 0));
  
     Iterator input_it(in, win);
     Iterator sum_it(sum, window_sum);
     Iterator output_it(out, win);
  
     const auto vec_eps = wrapper::vdup_n(static_cast<T>(epsilon), ExactTagType{});
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             const auto in_ptr  = reinterpret_cast<const T *>(input_it.ptr());
             const auto sum_ptr = reinterpret_cast<const T *>(sum_it.ptr());
             const auto out_ptr = reinterpret_cast<T *>(output_it.ptr());
  
             // Compute elements over vector steps
             int x = window_start_x;
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vec_norm_value = wrapper::vinvsqrt(wrapper::vmax(wrapper::vloadq(sum_ptr + x), vec_eps));
                 wrapper::vstore(out_ptr + x, wrapper::vmul(wrapper::vloadq(in_ptr + x), vec_norm_value));
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 const T norm_value = static_cast<T>(1.f) / std::sqrt(std::max(sum_ptr[x], static_cast<T>(epsilon)));
                 out_ptr[x]         = in_ptr[x] * norm_value;
             }
         },
         input_it, sum_it, output_it);
 }

References arm_compute::data_size_from_type(), ITensorInfo::data_type(), Window::DimX, Window::Dimension::end(), arm_compute::quantization::epsilon, arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vinvsqrt(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmax(), arm_compute::wrapper::vmul(), arm_compute::wrapper::vstore(), and Window::x().

◆ load_as_f32() [1/7]

float32x4_t arm_compute::cpu::load_as_f32 ( float * ptr )

inline

Definition at line 49 of file crop_helper.h.

 {
     return wrapper::vloadq(ptr);
 }

References arm_compute::wrapper::vloadq().

◆ load_as_f32() [2/7]

float32x4_t arm_compute::cpu::load_as_f32 ( int16_t * ptr )

inline

Definition at line 67 of file crop_helper.h.

 {
     return vcvtq_f32_s32(vmovl_s16(wrapper::vload(ptr)));
 }

References arm_compute::wrapper::vload().

◆ load_as_f32() [3/7]

float32x4_t arm_compute::cpu::load_as_f32 ( int32_t * ptr )

inline

Definition at line 55 of file crop_helper.h.

 {
     return vcvtq_f32_s32(wrapper::vloadq(ptr));
 }

References arm_compute::wrapper::vloadq().

◆ load_as_f32() [4/7]

float32x4_t arm_compute::cpu::load_as_f32 ( T * ptr )

inline

Definition at line 34 of file crop_helper.h.

 {
     ARM_COMPUTE_UNUSED(ptr);
     ARM_COMPUTE_ERROR("Type not supported.");
 }

References ARM_COMPUTE_ERROR, and ARM_COMPUTE_UNUSED.

Referenced by in_bounds_crop_window().

◆ load_as_f32() [5/7]

float32x4_t arm_compute::cpu::load_as_f32 ( uint16_t * ptr )

inline

Definition at line 73 of file crop_helper.h.

 {
     return vcvtq_f32_u32(vmovl_u16(wrapper::vload(ptr)));
 }

References arm_compute::wrapper::vload().

◆ load_as_f32() [6/7]

float32x4_t arm_compute::cpu::load_as_f32 ( uint32_t * ptr )

inline

Definition at line 61 of file crop_helper.h.

 {
     return vcvtq_f32_u32(wrapper::vloadq(ptr));
 }

References arm_compute::wrapper::vloadq().

◆ load_as_f32() [7/7]

float32x4_t arm_compute::cpu::load_as_f32 ( uint8_t * ptr )

inline

Definition at line 79 of file crop_helper.h.

 {
     return vcvtq_f32_u32(vmovl_u16(vget_low_u16(vmovl_u8(wrapper::vload(ptr)))));
 }

References arm_compute::wrapper::vload().

◆ load_quantized() [1/3]

svfloat32x4_t arm_compute::cpu::load_quantized	(	const int8_t *	ptr,
		svbool_t	pg,
		const svint32_t &	offset,
		const svfloat32_t &	scale
	)

inline

Definition at line 34 of file impl.h.

 {
     auto x = svld1(pg, ptr);
  
     const auto widened = svcreate4(svmovlb(svmovlb(x)), svmovlt(svmovlb(x)), svmovlb(svmovlt(x)), svmovlt(svmovlt(x)));
  
     pg = svptrue_b8();
  
     return svcreate4(svmul_z(pg, svcvt_f32_z(pg, svsub_z(pg, svget4(widened, 0), offset)), scale),
                      svmul_z(pg, svcvt_f32_z(pg, svsub_z(pg, svget4(widened, 1), offset)), scale),
                      svmul_z(pg, svcvt_f32_z(pg, svsub_z(pg, svget4(widened, 2), offset)), scale),
                      svmul_z(pg, svcvt_f32_z(pg, svsub_z(pg, svget4(widened, 3), offset)), scale));
 }

References offset(), and arm_compute::test::validation::scale.

◆ load_quantized() [2/3]

float32x4x4_t arm_compute::cpu::load_quantized	(	const uint8_t *	input1_ptr,
		const int32x4_t &	offset,
		const float32x4_t &	scale
	)

inline

Definition at line 550 of file impl.h.

 {
     qasymm8x16_t        x   = vld1q_u8(input1_ptr);
     const float32x4x4_t out = {{
         vmulq_f32(
             vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_low_u8(x))))), offset)),
             scale),
         vmulq_f32(
             vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_low_u8(x))))), offset)),
             scale),
         vmulq_f32(
             vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_high_u8(x))))), offset)),
             scale),
         vmulq_f32(vcvtq_f32_s32(
                       vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_high_u8(x))))), offset)),
                   scale),
     }};
     return out;
 }

References offset(), and arm_compute::test::validation::scale.

Referenced by elementwise_arithm_op_quantized_broadcast_loop(), elementwise_arithm_op_quantized_loop(), elementwise_arithmetic_quantized_op(), elementwise_comp_op_quantized_broadcast_loop(), elementwise_comp_op_quantized_loop(), and elementwise_comparison_quantized_op().

◆ load_quantized() [3/3]

svfloat32x4_t arm_compute::cpu::load_quantized	(	const uint8_t *	ptr,
		svbool_t	pg,
		const svint32_t &	offset,
		const svfloat32_t &	scale
	)

inline

Definition at line 48 of file impl.h.

 {
     auto x = svld1(pg, ptr);
  
     //vprint(x);
  
     const auto widened = svcreate4(svmovlb(svmovlb(x)), svmovlt(svmovlb(x)), svmovlb(svmovlt(x)), svmovlt(svmovlt(x)));
  
     pg = svptrue_b8();
  
     return svcreate4(svmul_z(pg, svcvt_f32_z(pg, svsub_z(pg, svreinterpret_s32(svget4(widened, 0)), offset)), scale),
                      svmul_z(pg, svcvt_f32_z(pg, svsub_z(pg, svreinterpret_s32(svget4(widened, 1)), offset)), scale),
                      svmul_z(pg, svcvt_f32_z(pg, svsub_z(pg, svreinterpret_s32(svget4(widened, 2)), offset)), scale),
                      svmul_z(pg, svcvt_f32_z(pg, svsub_z(pg, svreinterpret_s32(svget4(widened, 3)), offset)), scale));
 }

References offset(), and arm_compute::test::validation::scale.

◆ load_quantized_signed()

float32x4x4_t arm_compute::cpu::load_quantized_signed	(	const int8_t *	input1_ptr,
		const int32x4_t &	offset,
		const float32x4_t &	scale
	)

inline

Definition at line 570 of file impl.h.

 {
     qasymm8x16_signed_t x   = vld1q_s8(input1_ptr);
     const float32x4x4_t out = {{
         vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_low_s8(x)))), offset)), scale),
         vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_low_s8(x)))), offset)), scale),
         vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_high_s8(x)))), offset)), scale),
         vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_high_s8(x)))), offset)), scale),
     }};
     return out;
 }

References offset(), and arm_compute::test::validation::scale.

Referenced by elementwise_arithm_op_quantized_signed_broadcast_loop(), elementwise_arithm_op_quantized_singed_loop(), elementwise_comp_op_quantized_signed_broadcast_loop(), and elementwise_comp_op_quantized_signed_loop().

◆ mask_float_vector()

float32x4_t arm_compute::cpu::mask_float_vector	(	const float32x4_t &	in,
		const uint32x4_t &	mask
	)

inline

Definition at line 45 of file impl.h.

 {
     auto int_in = vreinterpretq_u32_f32(in);
     return vreinterpretq_f32_u32(wrapper::vand(int_in, mask));
 }

References arm_compute::wrapper::vand().

Referenced by fp_neon_activation_impl().

◆ matrix_addition_f32()

void matrix_addition_f32	(	const ITensor *	src,
		ITensor *	dst,
		const Window &	window,
		float	beta
	)

Definition at line 33 of file impl.cpp.

 {
     ARM_COMPUTE_ERROR_ON_NULLPTR(src, dst);
     const float32x4_t beta_f32 = vdupq_n_f32(beta);
  
     constexpr int window_step_x  = 16;
     const auto    window_start_x = static_cast<int>(window.x().start());
     const auto    window_end_x   = static_cast<int>(window.x().end());
  
     Window win = window.collapse_if_possible(window, Window::DimZ);
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator in(src, win);
     Iterator out(dst, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             const auto in_ptr  = reinterpret_cast<const float *>(in.ptr());
             const auto out_ptr = reinterpret_cast<float *>(out.ptr());
  
             int x = window_start_x;
             for (; x < (window_end_x - window_step_x); x += window_step_x)
             {
                 float32x4x4_t       alpha_ab = vld4q_f32(out_ptr + x);
                 const float32x4x4_t c        = vld4q_f32(in_ptr + x);
  
                 // Multiply matrix C by its weight and accumulate
                 alpha_ab.val[0] = vmlaq_f32(alpha_ab.val[0], c.val[0], beta_f32);
                 alpha_ab.val[1] = vmlaq_f32(alpha_ab.val[1], c.val[1], beta_f32);
                 alpha_ab.val[2] = vmlaq_f32(alpha_ab.val[2], c.val[2], beta_f32);
                 alpha_ab.val[3] = vmlaq_f32(alpha_ab.val[3], c.val[3], beta_f32);
  
                 vst4q_f32(out_ptr + x, alpha_ab);
             }
  
             // Left-over loop
             for (; x < window_end_x; ++x)
             {
                 *(out_ptr + x) += *(in_ptr + x) * beta;
             }
         },
         in, out);
 }

References ARM_COMPUTE_ERROR_ON_NULLPTR, Window::collapse_if_possible(), Window::DimX, Window::DimZ, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), Iterator::ptr(), Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), and Window::x().

Referenced by neon_fp32_gemm_matrix_add().

◆ matrix_matrix_multiply_f32()

void matrix_matrix_multiply_f32	(	const ITensor *	lhs,
		const ITensor *	rhs,
		ITensor *	dst,
		const Window &	window,
		const ThreadInfo &	info,
		float	alpha
	)

Definition at line 279 of file impl.cpp.

 {
     ARM_COMPUTE_UNUSED(info);
     const int    out_width   = static_cast<int>(dst->info()->dimension(0));
     const int    out_height  = static_cast<int>(dst->info()->dimension(1));
     const size_t in_b_stride = rhs->info()->strides_in_bytes()[1] / data_size_from_type(rhs->info()->data_type());
     const size_t out_stride1 = dst->info()->strides_in_bytes()[1] / data_size_from_type(dst->info()->data_type());
     const size_t out_stride2 = out_stride1 * 2;
     const size_t out_stride3 = out_stride1 * 3;
     const int    num_elems_matrix_b_x = rhs->info()->dimension(0);
  
     // Set step_x and step_y for matrix A. Scale by a factor of 4 the Y range as the input interleaved matrix A has 4 times less the rows of the dst matrix
     Window win_a(window);
     win_a.set(Window::DimX, Window::Dimension(0, 0, 0));
     win_a.set(Window::DimY, Window::Dimension(window.y().start() / 4, std::max(window.y().end() / 4, 1), 1));
  
     Window win_b;
     // Don't slice matrix B along the z dimension if matrix B has just 2 dimensions and matrix A more than 2
     // This scenario can happen when the the matrix multiplication is used to perform a convolution operation
     if (rhs->info()->num_dimensions() >= 3)
     {
         win_b = window;
     }
     // Set step_x and step_y for matrix B. Scale by a factor of 4 the X range as the input transposed matrix A has 4 times less the cols of the dst matrix
     // The step along the x direction is 2 times the in_b_stride because for each iteration we compute 2 blocks of size 4x4
     win_b.set(Window::DimX, Window::Dimension(window.x().start() / 4, window.x().end() / 4, 2 * in_b_stride));
     win_b.set(Window::DimY, Window::Dimension(0, 0, 0));
  
     Iterator ina(lhs, win_a);
     Iterator inb(rhs, win_b);
     Iterator out(dst, window);
  
     const bool multiply_alpha = !(helpers::float_ops::is_one(alpha));
  
     const float32x4_t alpha_f32 = vdupq_n_f32(alpha);
  
     // The implementation assumes that the matrix A and Matrix B have been reshaped respectively with CpuGemmInterleave4x4 and CpuGemmTranspose1xW
     // The reshaping of the matrices helps to have a cache friendly implementation and helps to avoid the data re-arrangements needed for computing 16x4 elements per iteration
     // All the values needed for computing a single 4x4 block will be read from consecutive memory positions
     execute_window_loop(
         window,
         [&](const Coordinates &id)
         {
             auto mtx_a0 = reinterpret_cast<const float *>(ina.ptr());
             auto mtx_b0 = reinterpret_cast<const float *>(inb.ptr());
             auto mtx_b1 = mtx_b0 + in_b_stride;
  
             float32x4_t acc00 = vdupq_n_f32(0.f);
             float32x4_t acc10 = vdupq_n_f32(0.f);
             float32x4_t acc20 = vdupq_n_f32(0.f);
             float32x4_t acc30 = vdupq_n_f32(0.f);
  
             float32x4_t acc01 = vdupq_n_f32(0.f);
             float32x4_t acc11 = vdupq_n_f32(0.f);
             float32x4_t acc21 = vdupq_n_f32(0.f);
             float32x4_t acc31 = vdupq_n_f32(0.f);
  
 #if __arm__
             asm volatile("PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_a0)));
             asm volatile("PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_b0)));
             asm volatile("PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_b1)));
 #endif /* __arm__ */
  
             auto mtx_b0_end_addr = mtx_b0 + num_elems_matrix_b_x;
             for (; mtx_b0 <= (mtx_b0_end_addr - 32);)
             {
                 float32x4_t a0 = vld1q_dup_f32(mtx_a0 + 0);
                 float32x4_t a1 = vld1q_dup_f32(mtx_a0 + 1);
                 float32x4_t a2 = vld1q_dup_f32(mtx_a0 + 2);
                 float32x4_t a3 = vld1q_dup_f32(mtx_a0 + 3);
  
                 float32x4_t b00 = vld1q_f32(mtx_b0);
                 float32x4_t b10 = vld1q_f32(mtx_b1);
                 float32x4_t b01 = vld1q_f32(mtx_b0 + 4);
                 float32x4_t b11 = vld1q_f32(mtx_b1 + 4);
  
 #if __arm__
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_a0)));
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_b0)));
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_b1)));
 #endif /* __arm__ */
  
                 // 4x4 block 0
                 acc00 = vmlaq_f32(acc00, b00, a0);
                 acc10 = vmlaq_f32(acc10, b00, a1);
                 acc20 = vmlaq_f32(acc20, b00, a2);
                 acc30 = vmlaq_f32(acc30, b00, a3);
  
                 float32x4_t a4 = vld1q_dup_f32(mtx_a0 + 4);
                 float32x4_t a5 = vld1q_dup_f32(mtx_a0 + 5);
                 float32x4_t a6 = vld1q_dup_f32(mtx_a0 + 6);
                 float32x4_t a7 = vld1q_dup_f32(mtx_a0 + 7);
  
                 // 4x4 block 1
                 acc01 = vmlaq_f32(acc01, b10, a0);
                 acc11 = vmlaq_f32(acc11, b10, a1);
                 acc21 = vmlaq_f32(acc21, b10, a2);
                 acc31 = vmlaq_f32(acc31, b10, a3);
  
                 // 4x4 block 0
                 acc00 = vmlaq_f32(acc00, b01, a4);
                 acc10 = vmlaq_f32(acc10, b01, a5);
                 acc20 = vmlaq_f32(acc20, b01, a6);
                 acc30 = vmlaq_f32(acc30, b01, a7);
  
                 // 4x4 block 1
                 acc01 = vmlaq_f32(acc01, b11, a4);
                 acc11 = vmlaq_f32(acc11, b11, a5);
                 acc21 = vmlaq_f32(acc21, b11, a6);
                 acc31 = vmlaq_f32(acc31, b11, a7);
  
                 mtx_a0 += 8;
                 mtx_b0 += 8;
                 mtx_b1 += 8;
  
                 a0 = vld1q_dup_f32(mtx_a0 + 0);
                 a1 = vld1q_dup_f32(mtx_a0 + 1);
                 a2 = vld1q_dup_f32(mtx_a0 + 2);
                 a3 = vld1q_dup_f32(mtx_a0 + 3);
  
                 b00 = vld1q_f32(mtx_b0);
                 b10 = vld1q_f32(mtx_b1);
                 b01 = vld1q_f32(mtx_b0 + 4);
                 b11 = vld1q_f32(mtx_b1 + 4);
  
                 // 4x4 block 0
                 acc00 = vmlaq_f32(acc00, b00, a0);
                 acc10 = vmlaq_f32(acc10, b00, a1);
                 acc20 = vmlaq_f32(acc20, b00, a2);
                 acc30 = vmlaq_f32(acc30, b00, a3);
  
                 a4 = vld1q_dup_f32(mtx_a0 + 4);
                 a5 = vld1q_dup_f32(mtx_a0 + 5);
                 a6 = vld1q_dup_f32(mtx_a0 + 6);
                 a7 = vld1q_dup_f32(mtx_a0 + 7);
  
                 // 4x4 block 1
                 acc01 = vmlaq_f32(acc01, b10, a0);
                 acc11 = vmlaq_f32(acc11, b10, a1);
                 acc21 = vmlaq_f32(acc21, b10, a2);
                 acc31 = vmlaq_f32(acc31, b10, a3);
  
                 // 4x4 block 0
                 acc00 = vmlaq_f32(acc00, b01, a4);
                 acc10 = vmlaq_f32(acc10, b01, a5);
                 acc20 = vmlaq_f32(acc20, b01, a6);
                 acc30 = vmlaq_f32(acc30, b01, a7);
  
                 // 4x4 block 1
                 acc01 = vmlaq_f32(acc01, b11, a4);
                 acc11 = vmlaq_f32(acc11, b11, a5);
                 acc21 = vmlaq_f32(acc21, b11, a6);
                 acc31 = vmlaq_f32(acc31, b11, a7);
  
                 mtx_a0 += 8;
                 mtx_b0 += 8;
                 mtx_b1 += 8;
  
                 a0  = vld1q_dup_f32(mtx_a0 + 0);
                 a1  = vld1q_dup_f32(mtx_a0 + 1);
                 a2  = vld1q_dup_f32(mtx_a0 + 2);
                 a3  = vld1q_dup_f32(mtx_a0 + 3);
                 b00 = vld1q_f32(mtx_b0);
                 b10 = vld1q_f32(mtx_b1);
                 b01 = vld1q_f32(mtx_b0 + 4);
                 b11 = vld1q_f32(mtx_b1 + 4);
  
 #if __arm__
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_a0)));
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_b0)));
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_b1)));
 #endif /* __arm__ */
  
                 // 4x4 block 0
                 acc00 = vmlaq_f32(acc00, b00, a0);
                 acc10 = vmlaq_f32(acc10, b00, a1);
                 acc20 = vmlaq_f32(acc20, b00, a2);
                 acc30 = vmlaq_f32(acc30, b00, a3);
  
                 a4 = vld1q_dup_f32(mtx_a0 + 4);
                 a5 = vld1q_dup_f32(mtx_a0 + 5);
                 a6 = vld1q_dup_f32(mtx_a0 + 6);
                 a7 = vld1q_dup_f32(mtx_a0 + 7);
  
                 // 4x4 block 1
                 acc01 = vmlaq_f32(acc01, b10, a0);
                 acc11 = vmlaq_f32(acc11, b10, a1);
                 acc21 = vmlaq_f32(acc21, b10, a2);
                 acc31 = vmlaq_f32(acc31, b10, a3);
  
                 // 4x4 block 0
                 acc00 = vmlaq_f32(acc00, b01, a4);
                 acc10 = vmlaq_f32(acc10, b01, a5);
                 acc20 = vmlaq_f32(acc20, b01, a6);
                 acc30 = vmlaq_f32(acc30, b01, a7);
  
                 // 4x4 block 1
                 acc01 = vmlaq_f32(acc01, b11, a4);
                 acc11 = vmlaq_f32(acc11, b11, a5);
                 acc21 = vmlaq_f32(acc21, b11, a6);
                 acc31 = vmlaq_f32(acc31, b11, a7);
  
                 mtx_a0 += 8;
                 mtx_b0 += 8;
                 mtx_b1 += 8;
  
                 a0  = vld1q_dup_f32(mtx_a0 + 0);
                 a1  = vld1q_dup_f32(mtx_a0 + 1);
                 a2  = vld1q_dup_f32(mtx_a0 + 2);
                 a3  = vld1q_dup_f32(mtx_a0 + 3);
                 b00 = vld1q_f32(mtx_b0);
                 b10 = vld1q_f32(mtx_b1);
                 b01 = vld1q_f32(mtx_b0 + 4);
                 b11 = vld1q_f32(mtx_b1 + 4);
  
                 // 4x4 block 0
                 acc00 = vmlaq_f32(acc00, b00, a0);
                 acc10 = vmlaq_f32(acc10, b00, a1);
                 acc20 = vmlaq_f32(acc20, b00, a2);
                 acc30 = vmlaq_f32(acc30, b00, a3);
  
                 a4 = vld1q_dup_f32(mtx_a0 + 4);
                 a5 = vld1q_dup_f32(mtx_a0 + 5);
                 a6 = vld1q_dup_f32(mtx_a0 + 6);
                 a7 = vld1q_dup_f32(mtx_a0 + 7);
  
                 // 4x4 block 1
                 acc01 = vmlaq_f32(acc01, b10, a0);
                 acc11 = vmlaq_f32(acc11, b10, a1);
                 acc21 = vmlaq_f32(acc21, b10, a2);
                 acc31 = vmlaq_f32(acc31, b10, a3);
  
                 // 4x4 block 0
                 acc00 = vmlaq_f32(acc00, b01, a4);
                 acc10 = vmlaq_f32(acc10, b01, a5);
                 acc20 = vmlaq_f32(acc20, b01, a6);
                 acc30 = vmlaq_f32(acc30, b01, a7);
  
                 // 4x4 block 1
                 acc01 = vmlaq_f32(acc01, b11, a4);
                 acc11 = vmlaq_f32(acc11, b11, a5);
                 acc21 = vmlaq_f32(acc21, b11, a6);
                 acc31 = vmlaq_f32(acc31, b11, a7);
  
                 mtx_a0 += 8;
                 mtx_b0 += 8;
                 mtx_b1 += 8;
             }
  
             for (; mtx_b0 < mtx_b0_end_addr;)
             {
                 float32x4_t a0  = vld1q_dup_f32(mtx_a0 + 0);
                 float32x4_t a1  = vld1q_dup_f32(mtx_a0 + 1);
                 float32x4_t a2  = vld1q_dup_f32(mtx_a0 + 2);
                 float32x4_t a3  = vld1q_dup_f32(mtx_a0 + 3);
                 float32x4_t b00 = vld1q_f32(mtx_b0);
                 float32x4_t b10 = vld1q_f32(mtx_b1);
  
 #if __arm__
                 asm volatile("PLD [%0, #128*2]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_a0)));
                 asm volatile("PLD [%0, #128*2]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_b0)));
                 asm volatile("PLD [%0, #128*2]" ::"r"(reinterpret_cast<const uint8_t *>(mtx_b1)));
 #endif /* __arm__ */
                 // 4x4 block 0
                 acc00 = vmlaq_f32(acc00, b00, a0);
                 acc10 = vmlaq_f32(acc10, b00, a1);
                 acc20 = vmlaq_f32(acc20, b00, a2);
                 acc30 = vmlaq_f32(acc30, b00, a3);
  
                 // 4x4 block 1
                 acc01 = vmlaq_f32(acc01, b10, a0);
                 acc11 = vmlaq_f32(acc11, b10, a1);
                 acc21 = vmlaq_f32(acc21, b10, a2);
                 acc31 = vmlaq_f32(acc31, b10, a3);
  
                 mtx_a0 += 4;
                 mtx_b0 += 4;
                 mtx_b1 += 4;
             }
  
             // Multiply by the weight of matrix product (alpha)
             if (multiply_alpha)
             {
                 acc00 = vmulq_f32(acc00, alpha_f32);
                 acc10 = vmulq_f32(acc10, alpha_f32);
                 acc20 = vmulq_f32(acc20, alpha_f32);
                 acc30 = vmulq_f32(acc30, alpha_f32);
                 acc01 = vmulq_f32(acc01, alpha_f32);
                 acc11 = vmulq_f32(acc11, alpha_f32);
                 acc21 = vmulq_f32(acc21, alpha_f32);
                 acc31 = vmulq_f32(acc31, alpha_f32);
             }
  
             const auto mtx_out0 = reinterpret_cast<float *>(out.ptr());
             const auto mtx_out1 = mtx_out0 + 4;
  
             if (id.x() < (out_width - 8))
             {
                 vst1q_f32(mtx_out0, acc00);
                 vst1q_f32(mtx_out1, acc01);
                 if (id.y() + 1 < out_height)
                 {
                     vst1q_f32(mtx_out0 + out_stride1, acc10);
                     vst1q_f32(mtx_out1 + out_stride1, acc11);
                     if (id.y() + 2 < out_height)
                     {
                         vst1q_f32(mtx_out0 + out_stride2, acc20);
                         vst1q_f32(mtx_out1 + out_stride2, acc21);
                         if (id.y() + 3 < out_height)
                         {
                             vst1q_f32(mtx_out0 + out_stride3, acc30);
                             vst1q_f32(mtx_out1 + out_stride3, acc31);
                         }
                     }
                 }
             }
             else if (id.x() < (out_width - 4))
             {
                 vst1q_f32(mtx_out0, acc00);
                 if (id.y() + 1 < out_height)
                 {
                     vst1q_f32(mtx_out0 + out_stride1, acc10);
                     if (id.y() + 2 < out_height)
                     {
                         vst1q_f32(mtx_out0 + out_stride2, acc20);
                         if (id.y() + 3 < out_height)
                         {
                             vst1q_f32(mtx_out0 + out_stride3, acc30);
                         }
                     }
                 }
                 // Left-over columns
                 const int columns_left = out_width - id.x() - 4;
                 for (auto x = 0; x < columns_left; ++x)
                 {
                     *(mtx_out1 + x) = acc01[x];
                     if (id.y() + 1 < out_height)
                     {
                         *(mtx_out1 + x + out_stride1) = acc11[x];
                         if (id.y() + 2 < out_height)
                         {
                             *(mtx_out1 + x + out_stride2) = acc21[x];
                             if (id.y() + 3 < out_height)
                             {
                                 *(mtx_out1 + x + out_stride3) = acc31[x];
                             }
                         }
                     }
                 }
             }
             else
             {
                 // Left-over columns
                 const int columns_left = out_width - id.x();
                 for (int x = 0; x < columns_left; ++x)
                 {
                     *(mtx_out0 + x) = acc00[x];
                     if (id.y() + 1 < out_height)
                     {
                         *(mtx_out0 + x + out_stride1) = acc10[x];
                         if (id.y() + 2 < out_height)
                         {
                             *(mtx_out0 + x + out_stride2) = acc20[x];
                             if (id.y() + 3 < out_height)
                             {
                                 *(mtx_out0 + x + out_stride3) = acc30[x];
                             }
                         }
                     }
                 }
             }
         },
         ina, inb, out);
 }

References ARM_COMPUTE_UNUSED, arm_compute::data_size_from_type(), ITensorInfo::data_type(), ITensorInfo::dimension(), Window::DimX, Window::DimY, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), arm_compute::test::validation::info, arm_compute::helpers::float_ops::is_one(), ITensorInfo::num_dimensions(), Iterator::ptr(), Window::set(), Window::Dimension::start(), ITensorInfo::strides_in_bytes(), Window::x(), and Window::y().

Referenced by neon_fp32_gemm_matrix_mul().

◆ max_poolingMxNxD_q8_neon_ndhwc()

void arm_compute::cpu::max_poolingMxNxD_q8_neon_ndhwc	(	const ITensor *	src,
		ITensor *	dst0,
		Pooling3dLayerInfo &	pool_info,
		const Window &	window_out,
		const int	window_step_x
	)

Definition at line 232 of file quantized.h.

 {
     using q8x8_t  = typename wrapper::traits::neon_vector<T, 8>::type;
     using q8x16_t = typename wrapper::traits::neon_vector<T, 16>::type;
  
     const int window_half_step_x = window_step_x / 2;
  
     int pool_stride_x = static_cast<int>(pool_info.stride.width);
     int pool_stride_y = static_cast<int>(pool_info.stride.height);
     int pool_stride_z = static_cast<int>(pool_info.stride.depth);
  
     const int pool_size_x = pool_info.is_global_pooling ? src->info()->tensor_shape().y() : pool_info.pool_size.width;
     const int pool_size_y = pool_info.is_global_pooling ? src->info()->tensor_shape().z() : pool_info.pool_size.height;
     const int pool_size_z = pool_info.is_global_pooling ? src->info()->tensor_shape()[3] : pool_info.pool_size.depth;
  
     const int pool_pad_top   = static_cast<int>(pool_info.padding.top);
     const int pool_pad_left  = static_cast<int>(pool_info.padding.left);
     const int pool_pad_front = static_cast<int>(pool_info.padding.front);
  
     const int input_dim_c = src->info()->dimension(0);
     const int input_dim_w = src->info()->dimension(1);
     const int input_dim_h = src->info()->dimension(2);
     const int input_dim_d = src->info()->dimension(3);
  
     const int y_stride = static_cast<int>(src->info()->strides_in_bytes().y());
     const int z_stride = static_cast<int>(src->info()->strides_in_bytes().z());
     const int w_stride = static_cast<int>(src->info()->strides_in_bytes()[3]);
     const int n_stride = static_cast<int>(src->info()->strides_in_bytes()[4]);
  
     const uint8_t *in_ptr_start = src->buffer() + src->info()->offset_first_element_in_bytes();
  
     const int window_end_x   = input_dim_c;
     const int window_start_x = 0;
  
     Iterator out(dst0, window_out);
  
     const UniformQuantizationInfo src_qinfo = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo dst_qinfo = dst0->info()->quantization_info().uniform();
  
     const float   requant_scale = dst_qinfo.scale / src_qinfo.scale;
     const int32_t requant_offset =
         dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / requant_scale);
     const UniformQuantizationInfo requant_qinfo = UniformQuantizationInfo(requant_scale, requant_offset);
  
     execute_window_loop(
         window_out,
         [&](const Coordinates &id)
         {
             // Computing the theoretical input starting/ending points
             const int in_idx_width  = static_cast<int>(id.y()) * pool_stride_x - pool_pad_left;
             const int in_idx_height = static_cast<int>(id.z()) * pool_stride_y - pool_pad_top;
             const int in_idx_depth  = static_cast<int>(id[3]) * pool_stride_z - pool_pad_front;
  
             const int pool_start_x = std::max(0, -in_idx_width);
             const int pool_end_x_t = std::min(input_dim_w + pool_pad_left - in_idx_width, pool_size_x);
             const int pool_start_y = std::max(0, -in_idx_height);
             const int pool_end_y_t = std::min(input_dim_h + pool_pad_top - in_idx_height, pool_size_y);
  
             const int pool_start_z = std::max(0, -in_idx_depth);
             const int pool_end_z_t = std::min(input_dim_d + pool_pad_front - in_idx_depth, pool_size_z);
  
             // The end of width to consider in calculation should exclude PAD_X, PAD_Y and PAD_Z
             const int pool_end_x = std::min(pool_end_x_t, input_dim_w - in_idx_width);
             const int pool_end_y = std::min(pool_end_y_t, input_dim_h - in_idx_height);
             const int pool_end_z = std::min(pool_end_z_t, input_dim_d - in_idx_depth);
  
             const uint8_t *in_ptr_n = in_ptr_start + id[4] * n_stride;
  
             int x_off = window_start_x;
  
             for (; x_off <= (window_end_x - window_step_x); x_off += window_step_x) // C
             {
                 q8x16_t vres = wrapper::vdup_n(std::numeric_limits<T>::min(), wrapper::traits::vector_128_tag{});
  
                 // Perform pooling
                 for (int z = pool_start_z; z < pool_end_z; ++z)
                 {
                     const uint8_t *in_ptr_z = in_ptr_n + (z + in_idx_depth) * w_stride;
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         const uint8_t *in_ptr_y = in_ptr_z + (y + in_idx_height) * z_stride;
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const uint8_t *in_ptr_x = in_ptr_y + (x + in_idx_width) * y_stride;
                             const q8x16_t  data     = wrapper::vloadq(reinterpret_cast<const T *>(in_ptr_x) + x_off);
  
                             vres = wrapper::vmax(vres, data);
                         }
                     }
                 }
  
                 // Store result
                 wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off,
                                 (src_qinfo != dst_qinfo)
                                     ? vrequantize_pooling<q8x8_t, q8x16_t>(wrapper::vgetlow(vres),
                                                                            wrapper::vgethigh(vres), requant_qinfo)
                                     : vres);
             }
  
             // Leftovers using half the window step
             for (; x_off <= (window_end_x - window_half_step_x); x_off += window_half_step_x)
             {
                 q8x8_t vres = wrapper::vdup_n(std::numeric_limits<T>::min(), wrapper::traits::vector_64_tag{});
  
                 // Perform pooling
                 for (int z = pool_start_z; z < pool_end_z; ++z)
                 {
                     const uint8_t *in_ptr_z = in_ptr_n + (z + in_idx_depth) * w_stride;
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         const uint8_t *in_ptr_y = in_ptr_z + (y + in_idx_height) * z_stride;
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const uint8_t *in_ptr_x = in_ptr_y + (x + in_idx_width) * y_stride;
                             const q8x8_t   data     = wrapper::vload(reinterpret_cast<const T *>(in_ptr_x) + x_off);
  
                             vres = wrapper::vmax(vres, data);
                         }
                     }
                 }
  
                 // Store result
                 wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off,
                                 (src_qinfo != dst_qinfo) ? vrequantize_pooling<q8x8_t>(vres, requant_qinfo) : vres);
             }
  
             // Left-overs loop
             for (; x_off < window_end_x; ++x_off)
             {
                 T res = std::numeric_limits<T>::min();
  
                 for (int z = pool_start_z; z < pool_end_z; ++z)
                 {
                     const uint8_t *in_ptr_z = in_ptr_n + (z + in_idx_depth) * w_stride;
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         const uint8_t *in_ptr_y = in_ptr_z + (y + in_idx_height) * z_stride;
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const uint8_t *in_ptr_x = in_ptr_y + (x + in_idx_width) * y_stride;
                             const T        data     = *(reinterpret_cast<const T *>(in_ptr_x) + x_off);
  
                             res = std::max(res, data);
                         }
                     }
                 }
  
                 // Store result
                 if (src_qinfo != dst_qinfo)
                 {
                     const float res_f                           = static_cast<float>(res);
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = quantize<T>(res_f, requant_qinfo);
                 }
                 else
                 {
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = res;
                 }
             }
         },
         out);
 }

References Size3D::depth, arm_compute::execute_window_loop(), Padding3D::front, Size3D::height, ITensor::info(), Pooling3dLayerInfo::is_global_pooling, Padding3D::left, UniformQuantizationInfo::offset, Pooling3dLayerInfo::padding, Pooling3dLayerInfo::pool_size, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, arm_compute::test::validation::src, Pooling3dLayerInfo::stride, Padding3D::top, QuantizationInfo::uniform(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vgethigh(), arm_compute::wrapper::vgetlow(), arm_compute::wrapper::vload(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmax(), arm_compute::wrapper::vstore(), and Size3D::width.

◆ max_unpooling()

void arm_compute::cpu::max_unpooling	(	const ITensor *	input,
		const ITensor *	indices,
		ITensor *	output,
		const Window &	window
	)

Definition at line 35 of file impl.h.

 {
     Iterator  input_itr(input, window);
     Iterator  indices_itr(indices, window);
     auto      out_ptr      = reinterpret_cast<T *>(output->buffer());
     const int out_stride_w = static_cast<int>(output->info()->strides_in_bytes()[3]);
     execute_window_loop(
         window,
         [&](const Coordinates &id)
         {
             auto vindices                                         = reinterpret_cast<uint32_t *>(indices_itr.ptr());
             auto vinput                                           = reinterpret_cast<T *>(input_itr.ptr());
             out_ptr[id[3] * out_stride_w / sizeof(T) + *vindices] = *vinput;
         },
         input_itr, indices_itr);
 }

References ITensor::buffer(), arm_compute::execute_window_loop(), ITensor::info(), arm_compute::test::validation::input, Iterator::ptr(), and ITensorInfo::strides_in_bytes().

◆ mean_stddev_normalization()

void mean_stddev_normalization	(	ITensor *	input,
		ITensor *	output,
		float	epsilon,
		const Window &	window
	)

Definition at line 34 of file impl.cpp.

 {
     using ExactTagType = typename wrapper::traits::neon_vector<ScalarType, size>::tag_type;
  
     // Set build options
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x  = size;
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Iterator input_itr(input, win);
     Iterator output_itr(output, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             int  x       = window_start_x;
             auto in_ptr  = reinterpret_cast<const ScalarType *>(input_itr.ptr());
             auto out_ptr = reinterpret_cast<ScalarType *>(output_itr.ptr());
  
             auto sum_vec    = wrapper::vdup_n(static_cast<ScalarType>(0.f), ExactTagType{});
             auto sum_sq_vec = wrapper::vdup_n(static_cast<ScalarType>(0.f), ExactTagType{});
  
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 auto data  = wrapper::vloadq(in_ptr + x);
                 sum_vec    = wrapper::vadd(sum_vec, data);
                 sum_sq_vec = wrapper::vadd(sum_sq_vec, wrapper::vmul(data, data));
             }
  
             auto sum_carry_res    = wrapper::vpadd(wrapper::vgethigh(sum_vec), wrapper::vgetlow(sum_vec));
             auto sum_sq_carry_res = wrapper::vpadd(wrapper::vgethigh(sum_sq_vec), wrapper::vgetlow(sum_sq_vec));
             for (int i = 0; i < size / 4; ++i)
             {
                 sum_carry_res    = wrapper::vpadd(sum_carry_res, sum_carry_res);
                 sum_sq_carry_res = wrapper::vpadd(sum_sq_carry_res, sum_sq_carry_res);
             }
  
             auto sum    = wrapper::vgetlane(sum_carry_res, 0);
             auto sum_sq = wrapper::vgetlane(sum_sq_carry_res, 0);
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 ScalarType data = *(in_ptr + x);
                 sum += data;
                 sum_sq += data * data;
             }
  
             ScalarType mean       = sum / input->info()->dimension(0);
             ScalarType var        = (sum_sq / input->info()->dimension(0)) - (mean * mean);
             ScalarType stddev_inv = 1.f / sqrt(var + epsilon);
  
             auto mean_vec       = wrapper::vdup_n(mean, ExactTagType{});
             auto stddev_inv_vec = wrapper::vdup_n(stddev_inv, ExactTagType{});
             for (x = window_start_x; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 auto data = wrapper::vloadq(in_ptr + x);
                 auto res  = wrapper::vmul(wrapper::vsub(data, mean_vec), stddev_inv_vec);
                 // Store results
                 wrapper::vstore(out_ptr + x, res);
             }
             for (; x < window_end_x; ++x)
             {
                 *(out_ptr + x) = (*(in_ptr + x) - mean) * stddev_inv;
             }
         },
         input_itr, output_itr);
 }

◆ mean_stddev_normalization< float, 4 >()

template void arm_compute::cpu::mean_stddev_normalization< float, 4 >	(	ITensor *	input,
		ITensor *	output,
		float	epsilon,
		const Window &	window
	)

Referenced by neon_fp32_meanstddevnorm().

◆ mul_F16_F16_F16()

void arm_compute::cpu::mul_F16_F16_F16	(	const ITensor *	src1,
		const ITensor *	src2,
		ITensor *	out,
		const Window &	window,
		float	scale
	)

Referenced by CpuMulKernel::configure().

◆ mul_F32_F32_F32()

void mul_F32_F32_F32	(	const ITensor *	src1,
		const ITensor *	src2,
		ITensor *	out,
		const Window &	window,
		float	scale
	)

Definition at line 36 of file fp32.cpp.

 {
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src2->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     constexpr int window_step_x         = 16 / sizeof(float);
     const auto    window_start_x        = static_cast<int>(window.x().start());
     const auto    window_end_x          = static_cast<int>(window.x().end());
     const bool    is_broadcast_across_x = src1->info()->tensor_shape().x() != src2->info()->tensor_shape().x();
  
     using ExactTagType = typename wrapper::traits::neon_vector<float, window_step_x>::tag_type;
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src2 : src1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src2 : src1;
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator dst(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const float *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<float *>(dst.ptr());
  
                 const float broadcast_value     = *reinterpret_cast<const float *>(broadcast_input.ptr());
                 const auto  broadcast_value_vec = wrapper::vdup_n(broadcast_value, ExactTagType{});
                 const auto  scale_vec           = wrapper::vdup_n(scale, ExactTagType{});
  
                 // Compute window_step_x elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const auto non_broadcast_v = wrapper::vloadq(non_broadcast_input_ptr + x);
                     auto       res = wrapper::vmul(wrapper::vmul(broadcast_value_vec, non_broadcast_v), scale_vec);
                     wrapper::vstore(output_ptr + x, res);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto non_broadcast_v = *(non_broadcast_input_ptr + x);
                     *(output_ptr + x)          = broadcast_value * non_broadcast_v * scale;
                 }
             },
             broadcast_input, non_broadcast_input, dst);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src1, input1_win);
         Iterator input2(src2, input2_win);
         Iterator dst(out, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const float *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const float *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<float *>(dst.ptr());
  
                 // Compute window_step_x elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const auto ta1       = wrapper::vloadq(input1_ptr + x);
                     const auto ta2       = wrapper::vloadq(input2_ptr + x);
                     const auto scale_vec = wrapper::vdup_n(scale, ExactTagType{});
                     const auto res       = wrapper::vmul(wrapper::vmul(ta1, ta2), scale_vec);
                     wrapper::vstore(output_ptr + x, res);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto ta1    = *(input1_ptr + x);
                     const auto ta2    = *(input2_ptr + x);
                     *(output_ptr + x) = ta1 * ta2 * scale;
                 }
             },
             input1, input2, dst);
     }
 }

References Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), arm_compute::test::validation::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmul(), arm_compute::wrapper::vstore(), Dimensions< T >::x(), and Window::x().

Referenced by CpuMulKernel::configure(), and CpuMulKernel::get_mws().

◆ narrow_to_byte_predicate()

svbool_t arm_compute::cpu::narrow_to_byte_predicate ( svbool_t pg )

Definition at line 51 of file impl.h.

 {
     const auto all_false = svpfalse();
  
     switch (bytewidth)
     {
         case 8:
             pg = svuzp1_b32(pg, all_false);
         /* fall through */
         case 4:
             pg = svuzp1_b16(pg, all_false);
         /* fall through */
         case 2:
             pg = svuzp1_b8(pg, all_false);
         /* fall through */
         default:
             break;
     }
     return pg;
 }

◆ nearest_neon_scale()

void arm_compute::cpu::nearest_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 219 of file list.h.

 {
     ARM_COMPUTE_UNUSED(offsets);
  
     // Compute the ratio between source and destination dimensions
     const float scale_x =
         scale_utils::calculate_resize_ratio(src->info()->dimension(1), dst->info()->dimension(1), align_corners);
     const float scale_y =
         scale_utils::calculate_resize_ratio(src->info()->dimension(2), dst->info()->dimension(2), align_corners);
  
     const int in_stride_y  = src->info()->strides_in_bytes()[1];
     const int in_stride_z  = src->info()->strides_in_bytes()[2];
     const int in_stride_w  = src->info()->strides_in_bytes()[3];
     const int out_stride_y = dst->info()->strides_in_bytes()[1];
     const int out_stride_z = dst->info()->strides_in_bytes()[2];
     const int out_stride_w = dst->info()->strides_in_bytes()[3];
     const int out_dim_ch   = dst->info()->dimension(0);
     const int step_cout    = 16 / sizeof(T);
  
     Window window_execution = window;
     window_execution.set(Window::DimX, Window::Dimension(0, 1, 1));
     Window win_in_out(window);
     win_in_out.set(Window::DimY, Window::Dimension(0, 0, 0));
     win_in_out.set(Window::DimZ, Window::Dimension(0, 0, 0));
     Iterator in(src, win_in_out);
     Iterator out(dst, win_in_out);
  
     const int xo_start = window_execution.y().start();
     const int xo_end   = window_execution.y().end();
     const int xo_step  = window_execution.y().step();
     const int yo_start = window_execution.z().start();
     const int yo_end   = window_execution.z().end();
     const int yo_step  = window_execution.z().step();
     const int bo_start = window_execution[3].start();
     const int bo_end   = window_execution[3].end();
     const int bo_step  = window_execution[3].step();
  
     for (int bo = bo_start; bo < bo_end; bo += bo_step)
     {
         const uint8_t *in_ptr_base  = in.ptr() + bo * in_stride_w;
         uint8_t       *out_ptr_base = out.ptr() + bo * out_stride_w;
  
         for (int yo = yo_start; yo < yo_end; yo += yo_step)
         {
             // Floating-point coordinate
             float yi_f = ((yo + sampling_offset) * scale_y);
             int   yi   = 0;
             if (align_corners)
             {
                 yi = utils::rounding::round_half_away_from_zero(yi_f);
             }
             else
             {
                 yi = static_cast<int>(std::floor(yi_f));
             }
  
             for (int xo = xo_start; xo < xo_end; xo += xo_step)
             {
                 // Floating-point coordinate
                 float xi_f = ((xo + sampling_offset) * scale_x);
                 int   xi   = 0;
                 if (align_corners)
                 {
                     xi = utils::rounding::round_half_away_from_zero(xi_f);
                 }
                 else
                 {
                     xi = static_cast<int>(std::floor(xi_f));
                 }
  
                 const uint8_t *in_ptr  = in_ptr_base + xi * in_stride_y + yi * in_stride_z;
                 uint8_t       *out_ptr = out_ptr_base + xo * out_stride_y + yo * out_stride_z;
  
                 int cout = 0;
                 for (; cout <= (out_dim_ch - step_cout); cout += step_cout)
                 {
                     auto out0 = wrapper::vloadq(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T)));
                     wrapper::vstore(reinterpret_cast<T *>(out_ptr + cout * sizeof(T)), out0);
                 }
  
                 for (; cout < out_dim_ch; ++cout)
                 {
                     auto out0 = *(reinterpret_cast<const T *>(in_ptr + cout * sizeof(T)));
                     *(reinterpret_cast<T *>(out_ptr + cout * sizeof(T))) = out0;
                 }
             }
         }
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::scale_utils::calculate_resize_ratio(), Window::DimX, Window::DimY, Window::DimZ, arm_compute::test::validation::dst, Window::Dimension::end(), Iterator::ptr(), arm_compute::utils::rounding::round_half_away_from_zero(), arm_compute::test::validation::scale_x, arm_compute::test::validation::scale_y, Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), Window::Dimension::step(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vstore(), Window::y(), and Window::z().

◆ neon_bfloat16_to_fp32_cast()

void arm_compute::cpu::neon_bfloat16_to_fp32_cast	(	const ITensor *	_src,
		ITensor *	_dst,
		const ThreadInfo &	tensor,
		ConvertPolicy	_policy,
		const Window &	window
	)

◆ neon_f16_select_not_same_rank()

void arm_compute::cpu::neon_f16_select_not_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

◆ neon_f16_select_same_rank()

void arm_compute::cpu::neon_f16_select_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

◆ neon_f32_select_not_same_rank()

void neon_f32_select_not_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 39 of file fp32.cpp.

 {
     return select_op_not_same_rank<float>(c, x, y, output, window);
 }

◆ neon_f32_select_same_rank()

void neon_f32_select_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 34 of file fp32.cpp.

 {
     return select_op_32<float, uint32x4_t>(c, x, y, output, window);
 }

◆ neon_fp16_activation()

void arm_compute::cpu::neon_fp16_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ neon_fp16_boundingboxtransform()

void arm_compute::cpu::neon_fp16_boundingboxtransform	(	const ITensor *	boxes,
		ITensor *	pred_boxes,
		const ITensor *	deltas,
		BoundingBoxTransformInfo	bbinfo,
		const Window &	window
	)

◆ neon_fp16_comparison_elementwise_binary()

void arm_compute::cpu::neon_fp16_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp16_computeallanchors()

void arm_compute::cpu::neon_fp16_computeallanchors	(	const ITensor *	anchors,
		ITensor *	all_anchors,
		ComputeAnchorsInfo	anchors_info,
		const Window &	window
	)

◆ neon_fp16_deptwiseconv2dnative()

void arm_compute::cpu::neon_fp16_deptwiseconv2dnative	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	bias,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

◆ neon_fp16_elementwise_binary()

void arm_compute::cpu::neon_fp16_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp16_elementwise_unary()

void arm_compute::cpu::neon_fp16_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

◆ neon_fp16_gemm_matrix_add()

void arm_compute::cpu::neon_fp16_gemm_matrix_add	(	const ITensor *	src,
		ITensor *	dst,
		const Window &	window,
		float	beta
	)

◆ neon_fp16_gemm_matrix_mul()

void arm_compute::cpu::neon_fp16_gemm_matrix_mul	(	const ITensor *	lhs,
		const ITensor *	rhs,
		ITensor *	dst,
		const Window &	window,
		const ThreadInfo &	info,
		float	alpha,
		const bool	is_dst_vector
	)

◆ neon_fp16_instancenorm()

void arm_compute::cpu::neon_fp16_instancenorm	(	ITensor *	input,
		ITensor *	output,
		float	gamma,
		float	beta,
		float	epsilon,
		bool	use_mixed_precision,
		const Window &	window
	)

◆ neon_fp16_l2_normalize_x()

void arm_compute::cpu::neon_fp16_l2_normalize_x	(	const ITensor *	in,
		const ITensor *	sum,
		ITensor *	out,
		float	epsilon,
		const Window &	window,
		size_t	axis
	)

◆ neon_fp16_l2_normalize_yz()

void arm_compute::cpu::neon_fp16_l2_normalize_yz	(	const ITensor *	in,
		const ITensor *	sum,
		ITensor *	out,
		float	epsilon,
		const Window &	window,
		size_t	axis
	)

◆ neon_fp16_maxunpooling()

void arm_compute::cpu::neon_fp16_maxunpooling	(	const ITensor *	input,
		const ITensor *	indices,
		ITensor *	output,
		const Window &	window
	)

◆ neon_fp16_meanstddevnorm()

void arm_compute::cpu::neon_fp16_meanstddevnorm	(	ITensor *	input,
		ITensor *	output,
		float	epsilon,
		const Window &	window
	)

◆ neon_fp16_pool3d()

void arm_compute::cpu::neon_fp16_pool3d	(	const ITensor *	src0,
		ITensor *	dst0,
		Pooling3dLayerInfo &	,
		const Window &	window
	)

◆ neon_fp16_roialign()

void arm_compute::cpu::neon_fp16_roialign	(	const ITensor *	input,
		ITensor *	output,
		const ITensor *	rois,
		ROIPoolingLayerInfo	pool_info,
		const Window &	window,
		const ThreadInfo &	info
	)

◆ neon_fp16_softmax()

void arm_compute::cpu::neon_fp16_softmax	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

◆ neon_fp16_to_other_dt_cast()

void arm_compute::cpu::neon_fp16_to_other_dt_cast	(	const ITensor *	_src,
		ITensor *	_dst,
		const ThreadInfo &	tensor,
		ConvertPolicy	_policy,
		const Window &	window
	)

◆ neon_fp32_activation()

void neon_fp32_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 34 of file fp32.cpp.

 {
     fp_neon_activation_impl<float, Fp32Params>(src, dst, act_info, window);
 }

References arm_compute::test::validation::act_info, arm_compute::test::validation::dst, and arm_compute::test::validation::src.

◆ neon_fp32_boundingboxtransform()

void neon_fp32_boundingboxtransform	(	const ITensor *	boxes,
		ITensor *	pred_boxes,
		const ITensor *	deltas,
		BoundingBoxTransformInfo	bbinfo,
		const Window &	window
	)

Definition at line 29 of file fp32.cpp.

 {
     return bounding_box_transform<float>(boxes, pred_boxes, deltas, bbinfo, window);
 }

◆ neon_fp32_comparison_elementwise_binary()

void neon_fp32_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 72 of file fp32.cpp.

 {
     return elementwise_comp_op_32<op, float, float32x4_t>(in1, in2, out, window);
 }

◆ neon_fp32_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::neon_fp32_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::neon_fp32_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::neon_fp32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::neon_fp32_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::neon_fp32_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::neon_fp32_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_computeallanchors()

void neon_fp32_computeallanchors	(	const ITensor *	anchors,
		ITensor *	all_anchors,
		ComputeAnchorsInfo	anchors_info,
		const Window &	window
	)

Definition at line 29 of file fp32.cpp.

 {
     return compute_all_anchors<float>(anchors, all_anchors, anchors_info, window);
 }

◆ neon_fp32_deptwiseconv2dnative()

void neon_fp32_deptwiseconv2dnative	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	bias,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Definition at line 29 of file fp32.cpp.

 {
     return run_depthwise_float<float, float>(src, weights, bias, dst, window, has_biases, info);
 }

References bias, arm_compute::test::validation::dst, arm_compute::test::validation::info, and arm_compute::test::validation::src.

◆ neon_fp32_elementwise_binary()

void neon_fp32_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 33 of file fp32.cpp.

 {
     return elementwise_arithm_op<op, typename wrapper::traits::neon_vector<float, 4>>(in1, in2, out, window);
 }

◆ neon_fp32_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::neon_fp32_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::neon_fp32_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::neon_fp32_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::neon_fp32_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::neon_fp32_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::neon_fp32_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::neon_fp32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::neon_fp32_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_fp32_elementwise_unary()

void neon_fp32_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

Definition at line 32 of file fp32.cpp.

 {
     ARM_COMPUTE_UNUSED(lut);
     return elementwise_op<float>(in, out, window, op);
 }

References ARM_COMPUTE_UNUSED.

◆ neon_fp32_gemm_matrix_add()

void neon_fp32_gemm_matrix_add	(	const ITensor *	src,
		ITensor *	dst,
		const Window &	window,
		float	beta
	)

Definition at line 31 of file fp32.cpp.

 {
     return matrix_addition_f32(src, dst, window, beta);
 }

References arm_compute::test::validation::dst, matrix_addition_f32(), and arm_compute::test::validation::src.

◆ neon_fp32_gemm_matrix_mul()

void neon_fp32_gemm_matrix_mul	(	const ITensor *	lhs,
		const ITensor *	rhs,
		ITensor *	dst,
		const Window &	window,
		const ThreadInfo &	info,
		float	alpha,
		const bool	is_dst_vector
	)

Definition at line 31 of file fp32.cpp.

 {
     return (is_dst_vector) ? vector_matrix_multiply_f32(lhs, rhs, dst, window, info, alpha)
                            : matrix_matrix_multiply_f32(lhs, rhs, dst, window, info, alpha);
 }

References arm_compute::test::validation::dst, arm_compute::test::validation::info, matrix_matrix_multiply_f32(), and vector_matrix_multiply_f32().

◆ neon_fp32_instancenorm()

void neon_fp32_instancenorm	(	ITensor *	input,
		ITensor *	output,
		float	gamma,
		float	beta,
		float	epsilon,
		bool	use_mixed_precision,
		const Window &	window
	)

Definition at line 29 of file fp32.cpp.

 {
     ARM_COMPUTE_UNUSED(use_mixed_precision);
     return instance_normalization_nchw<float>(input, output, gamma, beta, epsilon, window);
 }

References ARM_COMPUTE_UNUSED, arm_compute::quantization::epsilon, arm_compute::test::validation::input, and instance_normalization_nchw< float >().

◆ neon_fp32_l2_normalize_x()

void neon_fp32_l2_normalize_x	(	const ITensor *	in,
		const ITensor *	sum,
		ITensor *	out,
		float	epsilon,
		const Window &	window,
		size_t	unused_axis
	)

Definition at line 33 of file fp32.cpp.

 {
     ARM_COMPUTE_UNUSED(unused_axis);
     return l2_normalize_x<float, 4>(in, sum, out, epsilon, window);
 }

References ARM_COMPUTE_UNUSED, and arm_compute::quantization::epsilon.

◆ neon_fp32_l2_normalize_yz()

void neon_fp32_l2_normalize_yz	(	const ITensor *	in,
		const ITensor *	sum,
		ITensor *	out,
		float	epsilon,
		const Window &	window,
		size_t	axis
	)

Definition at line 40 of file fp32.cpp.

 {
     return l2_normalize_yz<float, 4>(in, sum, out, epsilon, window, axis);
 }

References arm_compute::quantization::epsilon.

◆ neon_fp32_maxunpooling()

void neon_fp32_maxunpooling	(	const ITensor *	input,
		const ITensor *	indices,
		ITensor *	output,
		const Window &	window
	)

Definition at line 29 of file fp32.cpp.

 {
     return max_unpooling<float>(input, indices, output, window);
 }

References arm_compute::test::validation::input.

◆ neon_fp32_meanstddevnorm()

void neon_fp32_meanstddevnorm	(	ITensor *	input,
		ITensor *	output,
		float	epsilon,
		const Window &	window
	)

Definition at line 30 of file fp32.cpp.

 {
     return mean_stddev_normalization<float, 4>(input, output, epsilon, window);
 }

References arm_compute::quantization::epsilon, arm_compute::test::validation::input, and mean_stddev_normalization< float, 4 >().

◆ neon_fp32_pool3d()

void neon_fp32_pool3d	(	const ITensor *	src0,
		ITensor *	dst0,
		Pooling3dLayerInfo &	pool_info,
		const Window &	window
	)

Definition at line 29 of file fp32.cpp.

 {
     return poolingMxNxD_fp_neon_ndhwc<float>(src, dst0, pool_info, window);
 }

References arm_compute::test::validation::src.

◆ neon_fp32_roialign()

void neon_fp32_roialign	(	const ITensor *	input,
		ITensor *	output,
		const ITensor *	rois,
		ROIPoolingLayerInfo	pool_info,
		const Window &	window,
		const ThreadInfo &	info
	)

Definition at line 29 of file fp32.cpp.

 {
     return roi_align<float, float>(input, output, rois, pool_info, window, info);
 }

References arm_compute::test::validation::info, and arm_compute::test::validation::input.

◆ neon_fp32_softmax()

void neon_fp32_softmax	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

Definition at line 34 of file fp32.cpp.

 {
     return neon_softmax_float<float, IS_LOG>(in, tmp, out, beta, window);
 }

◆ neon_fp32_softmax< false >()

template void arm_compute::cpu::neon_fp32_softmax< false >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

◆ neon_fp32_softmax< true >()

template void arm_compute::cpu::neon_fp32_softmax< true >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

◆ neon_fp32_to_bfloat16_cast()

void arm_compute::cpu::neon_fp32_to_bfloat16_cast	(	const ITensor *	_src,
		ITensor *	_dst,
		const ThreadInfo &	tensor,
		ConvertPolicy	_policy,
		const Window &	window
	)

◆ neon_fp32_to_fp16_cast()

void arm_compute::cpu::neon_fp32_to_fp16_cast	(	const ITensor *	_src,
		ITensor *	_dst,
		const ThreadInfo &	tensor,
		ConvertPolicy	_policy,
		const Window &	window
	)

◆ neon_normalize_float16_8_0()

void arm_compute::cpu::neon_normalize_float16_8_0	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Referenced by NENormalizationLayerKernel::configure().

◆ neon_normalize_float16_8_0_2D()

void arm_compute::cpu::neon_normalize_float16_8_0_2D	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Referenced by NENormalizationLayerKernel::configure().

◆ neon_normalize_float16_8_1()

void arm_compute::cpu::neon_normalize_float16_8_1	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Referenced by NENormalizationLayerKernel::configure().

◆ neon_normalize_float16_8_1_2D()

void arm_compute::cpu::neon_normalize_float16_8_1_2D	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Referenced by NENormalizationLayerKernel::configure().

◆ neon_normalize_float16_8_2()

void arm_compute::cpu::neon_normalize_float16_8_2	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Referenced by NENormalizationLayerKernel::configure().

◆ neon_normalize_float32_4_0()

void neon_normalize_float32_4_0	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Definition at line 39 of file fp32.cpp.

 {
     arm_compute::normalize_float<float, 4, 0, false>(window, in, in_squared, out, ninfo);
 }

Referenced by NENormalizationLayerKernel::configure().

◆ neon_normalize_float32_4_0_2D()

void neon_normalize_float32_4_0_2D	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Definition at line 33 of file fp32.cpp.

 {
     arm_compute::normalize_float<float, 4, 0, true>(window, in, in_squared, out, ninfo);
 }

Referenced by NENormalizationLayerKernel::configure().

◆ neon_normalize_float32_4_1()

void neon_normalize_float32_4_1	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Definition at line 51 of file fp32.cpp.

 {
     arm_compute::normalize_float<float, 4, 1, false>(window, in, in_squared, out, ninfo);
 }

Referenced by NENormalizationLayerKernel::configure().

◆ neon_normalize_float32_4_1_2D()

void neon_normalize_float32_4_1_2D	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Definition at line 45 of file fp32.cpp.

 {
     arm_compute::normalize_float<float, 4, 1, true>(window, in, in_squared, out, ninfo);
 }

Referenced by NENormalizationLayerKernel::configure().

◆ neon_normalize_float32_4_2()

void neon_normalize_float32_4_2	(	const Window &	window,
		const ITensor *	in,
		const ITensor *	in_squared,
		ITensor *	out,
		NormalizationLayerInfo	ninfo
	)

Definition at line 57 of file fp32.cpp.

 {
     arm_compute::normalize_float<float, 4, 2, false>(window, in, in_squared, out, ninfo);
 }

Referenced by NENormalizationLayerKernel::configure().

◆ neon_q8_elementwise_unary()

void arm_compute::cpu::neon_q8_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

◆ neon_q8_pool3d()

void neon_q8_pool3d	(	const ITensor *	src0,
		ITensor *	dst0,
		Pooling3dLayerInfo &	pool_info,
		const Window &	window
	)

Definition at line 29 of file qasymm8.cpp.

 {
     return poolingMxNxD_q8_neon_ndhwc<uint8_t>(src, dst0, pool_info, window);
 }

References arm_compute::test::validation::src.

◆ neon_q8_signed_pool3d()

void neon_q8_signed_pool3d	(	const ITensor *	src0,
		ITensor *	dst0,
		Pooling3dLayerInfo &	pool_info,
		const Window &	window
	)

Definition at line 29 of file qasymm8_signed.cpp.

 {
     return poolingMxNxD_q8_neon_ndhwc<int8_t>(src, dst0, pool_info, window);
 }

References arm_compute::test::validation::src.

◆ neon_qasymm8_activation()

void neon_qasymm8_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 42 of file qasymm8.cpp.

 {
     constexpr int                                 window_step_x  = 16;
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
  
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
  
     const UniformQuantizationInfo qi_in    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out   = dst->info()->quantization_info().uniform();
     const qasymm8x16_t            va       = vdupq_n_u8(quantize_qasymm8(act_info.a(), qi_in));
     const qasymm8x16_t            vb       = vdupq_n_u8(quantize_qasymm8(act_info.b(), qi_in));
     const qasymm8_t               a        = quantize_qasymm8(act_info.a(), qi_in);
     const qasymm8_t               b        = quantize_qasymm8(act_info.b(), qi_in);
     const qasymm8_t               const_0  = quantize_qasymm8(0.f, qi_in);
     const qasymm8x16_t            vconst_0 = vdupq_n_u8(const_0);
     const auto                    vconst_1 = vdupq_n_f32(1.f);
  
 #ifndef __aarch64__
     const auto vconst_0_f32 = vdupq_n_f32(0);
 #else  // #ifndef __aarch64__
     const auto const_inv_2      = vdupq_n_f32(0.5f);
     const auto const_inv_sqrt_2 = vdupq_n_f32(0.70710678118f);
 #endif // __aarch64__
     const float32x4_t va_f32 = vdupq_n_f32(act_info.a());
     const float32x4_t vb_f32 = vdupq_n_f32(act_info.b());
     const float       a_f32  = act_info.a();
     const float       b_f32  = act_info.b();
  
 #ifndef __aarch64__
     const auto const_6_f32     = vdupq_n_f32(6.f);
     const auto const_0_f32     = vdupq_n_f32(0.f);
     const auto const_3_f32     = vdupq_n_f32(3.f);
     const auto const_inv_6_f32 = vdupq_n_f32(0.166666667f);
 #endif // __aarch64__
  
     // Initialise scale/offset for re-quantization
     float       s  = qi_in.scale / qi_out.scale;
     float       o  = -qi_in.offset * s + qi_out.offset;
     float32x4_t vs = vdupq_n_f32(s);
     float32x4_t vo = vdupq_n_f32(o);
  
     execute_window_loop(
         win_collapsed,
         [&](const Coordinates &)
         {
             const auto input_ptr  = reinterpret_cast<const qasymm8_t *>(input.ptr());
             const auto output_ptr = reinterpret_cast<qasymm8_t *>(output.ptr());
  
             wrapper::traits::neon_bitvector_t<qasymm8_t, wrapper::traits::BitWidth::W128> tmp;
  
             // Compute S elements per iteration
             int x = window_start_x;
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin = wrapper::vloadq(input_ptr + x);
                 if (act == ActivationLayerInfo::ActivationFunction::RELU)
                 {
                     // Perform activation
                     tmp = vmaxq_u8(vconst_0, vin);
                     // Re-quantize to new output space
                     tmp = vmlaq_qasymm8<RoundingPolicy::TO_NEAREST_UP>(tmp, vs, vo);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
                 {
                     // Perform activation
                     tmp = vminq_u8(va, vmaxq_u8(vconst_0, vin));
                     // Re-quantize to new output space
                     tmp = vmlaq_qasymm8<RoundingPolicy::TO_NEAREST_UP>(tmp, vs, vo);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
                 {
                     // Perform activation
                     tmp = vminq_u8(va, vmaxq_u8(vb, vin));
                     // Re-quantize to new output space
                     tmp = vmlaq_qasymm8<RoundingPolicy::TO_NEAREST_UP>(tmp, vs, vo);
                 }
 #ifndef __aarch64__ // LUT-based implementation is used for aarch64 instead.
                 else if (act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
                 {
                     // De-quantize
                     const auto vin_deq = vdequantize(vin, qi_in);
                     // Perform activation
                     const float32x4x4_t tmp_dep = {{
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[0])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[1])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[2])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[3])))),
                     }};
                     // Re-quantize to new output space
                     tmp = vquantize(tmp_dep, qi_out);
                 }
 #endif // __aarch64__
                 else if (act == ActivationLayerInfo::ActivationFunction::TANH)
                 {
                     // De-quantize
                     const auto vin_deq = vdequantize(vin, qi_in);
                     // Perform activation
                     const float32x4x4_t tmp_dep = {{
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[0], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[1], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[2], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[3], vb_f32))),
                     }};
                     // Re-quantize to new output space
                     tmp = vquantize(tmp_dep, qi_out);
                 }
 #ifndef __aarch64__ // LUT-based implementation is used for aarch64 instead.
                 else if (act == ActivationLayerInfo::ActivationFunction::HARD_SWISH)
                 {
                     // De-quantize
                     const auto vin_deq = vdequantize(vin, qi_in);
                     // Perform activation
                     const float32x4x4_t tmp_dep = {{
                         wrapper::vmul(
                             vin_deq.val[0],
                             wrapper::vmul(
                                 const_inv_6_f32,
                                 wrapper::vmin(const_6_f32,
                                               wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[0], const_3_f32))))),
                         wrapper::vmul(
                             vin_deq.val[1],
                             wrapper::vmul(
                                 const_inv_6_f32,
                                 wrapper::vmin(const_6_f32,
                                               wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[1], const_3_f32))))),
                         wrapper::vmul(
                             vin_deq.val[2],
                             wrapper::vmul(
                                 const_inv_6_f32,
                                 wrapper::vmin(const_6_f32,
                                               wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[2], const_3_f32))))),
                         wrapper::vmul(
                             vin_deq.val[3],
                             wrapper::vmul(
                                 const_inv_6_f32,
                                 wrapper::vmin(const_6_f32,
                                               wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[3], const_3_f32))))),
                     }};
                     // Re-quantize to new output space
                     tmp = vquantize(tmp_dep, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
                 {
                     const auto vin_deq = vdequantize(vin, qi_in);
  
                     const uint32x4x4_t pos_mask = {{
                         wrapper::vcgt(vin_deq.val[0], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[1], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[2], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[3], vconst_0_f32),
                     }};
  
                     const float32x4x4_t tmp_dep = {{
                         wrapper::vbsl(pos_mask.val[0], vin_deq.val[0], wrapper::vmul(va_f32, vin_deq.val[0])),
                         wrapper::vbsl(pos_mask.val[1], vin_deq.val[1], wrapper::vmul(va_f32, vin_deq.val[1])),
                         wrapper::vbsl(pos_mask.val[2], vin_deq.val[2], wrapper::vmul(va_f32, vin_deq.val[2])),
                         wrapper::vbsl(pos_mask.val[3], vin_deq.val[3], wrapper::vmul(va_f32, vin_deq.val[3])),
                     }};
  
                     tmp = vquantize(tmp_dep, qi_out);
                 }
 #else  // #ifndef __aarch64__
                 else if (act == ActivationLayerInfo::ActivationFunction::GELU)
                 {
                     const auto vin_deq = vdequantize(vin, qi_in);
                     // Perform activation
                     const float32x4x4_t tmp_dep = {{
                         wrapper::vmul(vin_deq.val[0],
                                       wrapper::vmul(const_inv_2,
                                                     wrapper::vadd(vconst_1, wrapper::verf(wrapper::vmul(
                                                                                 vin_deq.val[0], const_inv_sqrt_2))))),
                         wrapper::vmul(vin_deq.val[1],
                                       wrapper::vmul(const_inv_2,
                                                     wrapper::vadd(vconst_1, wrapper::verf(wrapper::vmul(
                                                                                 vin_deq.val[1], const_inv_sqrt_2))))),
                         wrapper::vmul(vin_deq.val[2],
                                       wrapper::vmul(const_inv_2,
                                                     wrapper::vadd(vconst_1, wrapper::verf(wrapper::vmul(
                                                                                 vin_deq.val[2], const_inv_sqrt_2))))),
                         wrapper::vmul(vin_deq.val[3],
                                       wrapper::vmul(const_inv_2,
                                                     wrapper::vadd(vconst_1, wrapper::verf(wrapper::vmul(
                                                                                 vin_deq.val[3], const_inv_sqrt_2))))),
                     }};
                     // Re-quantize to new output space
                     tmp = vquantize(tmp_dep, qi_out);
                 }
 #endif // __aarch64__
                 else
                 {
                     ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
                 wrapper::vstore(output_ptr + x, tmp);
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 qasymm8_t in  = *(reinterpret_cast<const qasymm8_t *>(input_ptr + x));
                 qasymm8_t tmp = 0;
                 if (act == ActivationLayerInfo::ActivationFunction::RELU)
                 {
                     tmp = std::max(const_0, in);
                     tmp = utility::clamp<int32_t, qasymm8_t>(support::cpp11::lround(tmp * s + o));
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
                 {
                     tmp = std::min(a, std::max(const_0, in));
                     tmp = utility::clamp<int32_t, qasymm8_t>(support::cpp11::lround(tmp * s + o));
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
                 {
                     tmp = std::min(a, std::max(b, in));
                     tmp = utility::clamp<int32_t, qasymm8_t>(support::cpp11::lround(tmp * s + o));
                 }
 #ifndef __aarch64__ // LUT-based implementation is used for aarch64 instead.
                 else if (act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
                 {
                     float tmp_f = dequantize_qasymm8(in, qi_in);
                     tmp_f       = 1.f / (1.f + std::exp(-tmp_f));
                     tmp         = quantize_qasymm8(tmp_f, qi_out);
                 }
 #endif // __aarch64__
                 else if (act == ActivationLayerInfo::ActivationFunction::TANH)
                 {
                     float tmp_f = dequantize_qasymm8(in, qi_in);
                     tmp_f       = a_f32 * std::tanh(b_f32 * tmp_f);
                     tmp         = quantize_qasymm8(tmp_f, qi_out);
                 }
 #ifndef __aarch64__ // LUT-based implementation is used for aarch64 instead.
                 else if (act == ActivationLayerInfo::ActivationFunction::HARD_SWISH)
                 {
                     float tmp_f = dequantize_qasymm8(in, qi_in);
                     tmp_f       = tmp_f * ((std::min(std::max((tmp_f + 3), 0.0f), 6.0f)) * 0.166666667f);
                     tmp         = quantize_qasymm8(tmp_f, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
                 {
                     float tmp_f = dequantize_qasymm8(in, qi_in);
                     tmp_f       = tmp_f > 0 ? tmp_f : tmp_f * a_f32;
                     tmp         = quantize_qasymm8(tmp_f, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::GELU)
                 {
                     float tmp_f = dequantize_qasymm8(in, qi_in);
                     tmp         = tmp_f * 0.5f * (1.0f + std::erff(in / 1.41421356237f));
                     tmp         = quantize_qasymm8(tmp_f, qi_out);
                 }
 #endif // __aarch64__
                 else
                 {
                     ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
                 *(output_ptr + x) = tmp;
             }
         },
         input, output);
 }

◆ neon_qasymm8_comparison_elementwise_binary()

void neon_qasymm8_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 71 of file qasymm8.cpp.

 {
     return elementwise_comp_op_quantized<op>(in1, in2, out, window);
 }

◆ neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::neon_qasymm8_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_elementwise_binary()

void neon_qasymm8_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 32 of file qasymm8.cpp.

 {
     return elementwise_arithm_op_quantized<op>(in1, in2, out, window);
 }

◆ neon_qasymm8_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::neon_qasymm8_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::neon_qasymm8_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::neon_qasymm8_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::neon_qasymm8_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::neon_qasymm8_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::neon_qasymm8_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::neon_qasymm8_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::neon_qasymm8_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_elementwise_unary()

void neon_qasymm8_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

Definition at line 35 of file qasymm8.cpp.

 {
     ARM_COMPUTE_UNUSED(lut);
     return elementwise_op<uint8_t>(in, out, window, op);
 }

References ARM_COMPUTE_UNUSED, and elementwise_op< uint8_t >().

◆ neon_qasymm8_meanstddevnorm()

void neon_qasymm8_meanstddevnorm	(	ITensor *	input,
		ITensor *	output,
		float	epsilon,
		const Window &	window
	)

Definition at line 52 of file qasymm8.cpp.

 {
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int window_step_x  = 16;
     const int window_start_x = static_cast<int>(window.x().start());
     const int window_end_x   = static_cast<int>(window.x().end());
  
     const UniformQuantizationInfo qi_out        = output->info()->quantization_info().uniform();
     const float                   output_scale  = qi_out.scale;
     const int                     output_offset = qi_out.offset;
  
     Iterator input_itr(input, win);
     Iterator output_itr(output, win);
  
     const float       output_inv_scale = 1.0f / output_scale;
     const float32x4_t quant_max_vec    = vdupq_n_f32(255.0f);
     const float32x4_t quant_min_vec    = vdupq_n_f32(0.0f);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             int  x       = window_start_x;
             auto in_ptr  = reinterpret_cast<const uint8_t *>(input_itr.ptr());
             auto out_ptr = reinterpret_cast<uint8_t *>(output_itr.ptr());
  
             uint32x4_t sum_vec    = vdupq_n_u32(0);
             uint32x4_t sum_sq_vec = vdupq_n_u32(0);
  
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const uint8x16_t data         = vld1q_u8(in_ptr + x);
                 sum_vec                       = vaddq_u32(sum_vec, vpaddlq_u16(vpaddlq_u8(data)));
                 const uint16x8_t squares_low  = vmull_u8(vget_low_u8(data), vget_low_u8(data));
                 const uint16x8_t squares_high = vmull_u8(vget_high_u8(data), vget_high_u8(data));
                 sum_sq_vec = vaddq_u32(sum_sq_vec, vaddq_u32(vpaddlq_u16(squares_low), vpaddlq_u16(squares_high)));
             }
  
 #ifdef __aarch64__
             sum_vec         = vpaddq_u32(sum_vec, sum_vec);
             sum_vec         = vpaddq_u32(sum_vec, sum_vec);
             uint32_t sum    = vgetq_lane_u32(sum_vec, 0);
             sum_sq_vec      = vpaddq_u32(sum_sq_vec, sum_sq_vec);
             sum_sq_vec      = vpaddq_u32(sum_sq_vec, sum_sq_vec);
             uint32_t sum_sq = vgetq_lane_u32(sum_sq_vec, 0);
 #elif __arm__ // #ifdef __aarch64__
             uint32_t sum = vgetq_lane_u32(sum_vec, 0) + vgetq_lane_u32(sum_vec, 1) + vgetq_lane_u32(sum_vec, 2) +
                            vgetq_lane_u32(sum_vec, 3);
  
             uint32_t sum_sq = vgetq_lane_u32(sum_sq_vec, 0) + vgetq_lane_u32(sum_sq_vec, 1) +
                               vgetq_lane_u32(sum_sq_vec, 2) + vgetq_lane_u32(sum_sq_vec, 3);
 #endif        // #ifdef __aarch64__
             for (; x < window_end_x; ++x)
             {
                 auto data = static_cast<uint32_t>(*(in_ptr + x));
                 sum += data;
                 sum_sq += (data * data);
             }
  
             const float mean = (static_cast<float>(sum) / static_cast<float>(input->info()->dimension(0)));
             const float var =
                 (static_cast<float>(sum_sq) / static_cast<float>(input->info()->dimension(0))) - (mean * mean);
             const float       stdev_inv = 1.0f / sqrtf(var + epsilon);
             const float32x4_t v_scale   = vdupq_n_f32(stdev_inv * output_inv_scale);
             const float32x4_t v_offset  = vdupq_n_f32(-mean * stdev_inv * output_inv_scale + output_offset);
             for (x = window_start_x; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const uint8x16_t data = vld1q_u8(in_ptr + x);
                 float32x4_t      db1  = vcvtq_f32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_low_u8(data)))));
                 float32x4_t      db2  = vcvtq_f32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_low_u8(data)))));
                 float32x4_t      db3  = vcvtq_f32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_high_u8(data)))));
                 float32x4_t      db4  = vcvtq_f32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_high_u8(data)))));
                 db1 = clamp_v4f32(vaddq_f32(vmulq_f32(db1, v_scale), v_offset), quant_min_vec, quant_max_vec);
                 db2 = clamp_v4f32(vaddq_f32(vmulq_f32(db2, v_scale), v_offset), quant_min_vec, quant_max_vec);
                 db3 = clamp_v4f32(vaddq_f32(vmulq_f32(db3, v_scale), v_offset), quant_min_vec, quant_max_vec);
                 db4 = clamp_v4f32(vaddq_f32(vmulq_f32(db4, v_scale), v_offset), quant_min_vec, quant_max_vec);
                 const uint8x16_t out = fuse_shorts_u16(fuse_words_f32(db1, db2), fuse_words_f32(db3, db4));
                 vst1q_u8(out_ptr + x, out);
             }
  
             for (; x < window_end_x; ++x)
             {
                 auto          data = static_cast<float32_t>(*(in_ptr + x));
                 const uint8_t res =
                     data * (stdev_inv * output_inv_scale) + (-mean * stdev_inv * output_inv_scale + output_offset);
                 *(out_ptr + x) = res;
             }
         },
         input_itr, output_itr);
 }

References Window::DimX, Window::Dimension::end(), arm_compute::quantization::epsilon, arm_compute::execute_window_loop(), ITensor::info(), arm_compute::test::validation::input, UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), QuantizationInfo::uniform(), and Window::x().

◆ neon_qasymm8_signed_activation()

void neon_qasymm8_signed_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 40 of file qasymm8_signed.cpp.

 {
     constexpr int                                 window_step_x  = 16;
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
  
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
  
     const UniformQuantizationInfo qi_in    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out   = dst->info()->quantization_info().uniform();
     const qasymm8x16_signed_t     va       = vdupq_n_s8(quantize_qasymm8_signed(act_info.a(), qi_in));
     const qasymm8x16_signed_t     vb       = vdupq_n_s8(quantize_qasymm8_signed(act_info.b(), qi_in));
     const qasymm8_signed_t        a        = quantize_qasymm8_signed(act_info.a(), qi_in);
     const qasymm8_signed_t        b        = quantize_qasymm8_signed(act_info.b(), qi_in);
     const qasymm8_signed_t        const_0  = quantize_qasymm8_signed(0.f, qi_in);
     const qasymm8x16_signed_t     vconst_0 = vdupq_n_s8(const_0);
 #ifndef __aarch64__
     const auto vconst_1     = vdupq_n_f32(1.f);
     const auto vconst_0_f32 = vdupq_n_f32(0.f);
 #endif // __aarch64__
     const float32x4_t va_f32          = vdupq_n_f32(act_info.a());
     const float32x4_t vb_f32          = vdupq_n_f32(act_info.b());
     const float       a_f32           = act_info.a();
     const float       b_f32           = act_info.b();
     const auto        const_6_f32     = vdupq_n_f32(6.f);
     const auto        const_0_f32     = vdupq_n_f32(0.f);
     const auto        const_3_f32     = vdupq_n_f32(3.f);
     const auto        const_inv_6_f32 = vdupq_n_f32(0.166666667f);
  
     // Initialise scale/offset for re-quantization
     float       s  = qi_in.scale / qi_out.scale;
     float       o  = -qi_in.offset * s + qi_out.offset;
     float32x4_t vs = vdupq_n_f32(s);
     float32x4_t vo = vdupq_n_f32(o);
  
     execute_window_loop(
         win_collapsed,
         [&](const Coordinates &)
         {
             const auto input_ptr  = reinterpret_cast<const qasymm8_signed_t *>(input.ptr());
             const auto output_ptr = reinterpret_cast<qasymm8_signed_t *>(output.ptr());
  
             wrapper::traits::neon_bitvector_t<qasymm8_signed_t, wrapper::traits::BitWidth::W128> tmp;
  
             // Compute S elements per iteration
             int x = window_start_x;
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin = wrapper::vloadq(input_ptr + x);
                 if (act == ActivationLayerInfo::ActivationFunction::RELU)
                 {
                     // Perform activation
                     tmp = vmaxq_s8(vconst_0, vin);
                     // Re-quantize to new output space
                     tmp = vmlaq_qasymm8_signed<RoundingPolicy::TO_NEAREST_UP>(tmp, vs, vo);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
                 {
                     // Perform activation
                     tmp = vminq_s8(va, vmaxq_s8(vconst_0, vin));
                     // Re-quantize to new output space
                     tmp = vmlaq_qasymm8_signed<RoundingPolicy::TO_NEAREST_UP>(tmp, vs, vo);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
                 {
                     // Perform activation
                     tmp = vminq_s8(va, vmaxq_s8(vb, vin));
                     // Re-quantize to new output space
                     tmp = vmlaq_qasymm8_signed<RoundingPolicy::TO_NEAREST_UP>(tmp, vs, vo);
                 }
 #ifndef __aarch64__ // LUT-based implementation is used for aarch64 instead.
                 else if (act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
                 {
                     // De-quantize
                     const auto vin_deq = vdequantize(vin, qi_in);
                     // Perform activation
                     const float32x4x4_t tmp_dep = {{
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[0])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[1])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[2])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[3])))),
                     }};
                     // Re-quantize to new output space
                     tmp = vquantize_signed(tmp_dep, qi_out);
                 }
 #endif // __aarch64__
                 else if (act == ActivationLayerInfo::ActivationFunction::TANH)
                 {
                     // De-quantize
                     const auto vin_deq = vdequantize(vin, qi_in);
                     // Perform activation
                     const float32x4x4_t tmp_dep = {{
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[0], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[1], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[2], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[3], vb_f32))),
                     }};
                     // Re-quantize to new output space
                     tmp = vquantize_signed(tmp_dep, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::HARD_SWISH)
                 {
                     // De-quantize
                     const auto vin_deq = vdequantize(vin, qi_in);
                     // Perform activation
                     const float32x4x4_t tmp_dep = {{
                         wrapper::vmul(
                             vin_deq.val[0],
                             wrapper::vmul(
                                 const_inv_6_f32,
                                 wrapper::vmin(const_6_f32,
                                               wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[0], const_3_f32))))),
                         wrapper::vmul(
                             vin_deq.val[1],
                             wrapper::vmul(
                                 const_inv_6_f32,
                                 wrapper::vmin(const_6_f32,
                                               wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[1], const_3_f32))))),
                         wrapper::vmul(
                             vin_deq.val[2],
                             wrapper::vmul(
                                 const_inv_6_f32,
                                 wrapper::vmin(const_6_f32,
                                               wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[2], const_3_f32))))),
                         wrapper::vmul(
                             vin_deq.val[3],
                             wrapper::vmul(
                                 const_inv_6_f32,
                                 wrapper::vmin(const_6_f32,
                                               wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[3], const_3_f32))))),
                     }};
                     // Re-quantize to new output space
                     tmp = vquantize_signed(tmp_dep, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
                 {
                     const auto vin_deq = vdequantize(vin, qi_in);
  
 #ifdef __aarch64__
                     const uint32x4x4_t pos_mask = {{
                         wrapper::vcgtz(vin_deq.val[0]),
                         wrapper::vcgtz(vin_deq.val[1]),
                         wrapper::vcgtz(vin_deq.val[2]),
                         wrapper::vcgtz(vin_deq.val[3]),
                     }};
 #else  // __aarch64__
                     const uint32x4x4_t pos_mask = {{
                         wrapper::vcgt(vin_deq.val[0], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[1], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[2], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[3], vconst_0_f32),
                     }};
 #endif // __aarch64__
  
                     const float32x4x4_t tmp_dep = {{
                         wrapper::vbsl(pos_mask.val[0], vin_deq.val[0], wrapper::vmul(va_f32, vin_deq.val[0])),
                         wrapper::vbsl(pos_mask.val[1], vin_deq.val[1], wrapper::vmul(va_f32, vin_deq.val[1])),
                         wrapper::vbsl(pos_mask.val[2], vin_deq.val[2], wrapper::vmul(va_f32, vin_deq.val[2])),
                         wrapper::vbsl(pos_mask.val[3], vin_deq.val[3], wrapper::vmul(va_f32, vin_deq.val[3])),
                     }};
  
                     tmp = vquantize_signed(tmp_dep, qi_out);
                 }
                 else
                 {
                     ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
                 wrapper::vstore(output_ptr + x, tmp);
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 qasymm8_signed_t in  = *(reinterpret_cast<const qasymm8_signed_t *>(input_ptr + x));
                 qasymm8_signed_t tmp = 0;
                 if (act == ActivationLayerInfo::ActivationFunction::RELU)
                 {
                     tmp = std::max(const_0, in);
                     tmp = utility::clamp<int32_t, qasymm8_signed_t>(support::cpp11::lround(tmp * s + o));
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
                 {
                     tmp = std::min(a, std::max(const_0, in));
                     tmp = utility::clamp<int32_t, qasymm8_signed_t>(support::cpp11::lround(tmp * s + o));
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
                 {
                     tmp = std::min(a, std::max(b, in));
                     tmp = utility::clamp<int32_t, qasymm8_signed_t>(support::cpp11::lround(tmp * s + o));
                 }
 #ifndef __aarch64__ // LUT-based implementation is used for aarch64 instead.
                 else if (act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
                 {
                     float tmp_f = dequantize_qasymm8_signed(in, qi_in);
                     tmp_f       = 1.f / (1.f + std::exp(-tmp_f));
                     tmp         = quantize_qasymm8_signed(tmp_f, qi_out);
                 }
 #endif // __aarch64__
                 else if (act == ActivationLayerInfo::ActivationFunction::TANH)
                 {
                     float tmp_f = dequantize_qasymm8_signed(in, qi_in);
                     tmp_f       = a_f32 * std::tanh(b_f32 * tmp_f);
                     tmp         = quantize_qasymm8_signed(tmp_f, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::HARD_SWISH)
                 {
                     float tmp_f = dequantize_qasymm8_signed(in, qi_in);
                     tmp_f       = tmp_f * ((std::min(std::max((tmp_f + 3), 0.0f), 6.0f)) * 0.166666667f);
                     tmp         = quantize_qasymm8_signed(tmp_f, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
                 {
                     float tmp_f = dequantize_qasymm8_signed(in, qi_in);
                     tmp_f       = tmp_f > 0 ? tmp_f : tmp_f * a_f32;
                     tmp         = quantize_qasymm8_signed(tmp_f, qi_out);
                 }
                 else
                 {
                     ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
                 *(output_ptr + x) = tmp;
             }
         },
         input, output);
 }

◆ neon_qasymm8_signed_comparison_elementwise_binary()

void neon_qasymm8_signed_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 72 of file qasymm8_signed.cpp.

 {
     return elementwise_comp_op_quantized_signed<op>(in1, in2, out, window);
 }

◆ neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::neon_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_elementwise_binary()

void neon_qasymm8_signed_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 33 of file qasymm8_signed.cpp.

 {
     return elementwise_arithm_op_quantized_signed<op>(in1, in2, out, window);
 }

◆ neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::neon_qasymm8_signed_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_qasymm8_signed_elementwise_unary()

void neon_qasymm8_signed_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

Definition at line 35 of file qasymm8_signed.cpp.

 {
     ARM_COMPUTE_UNUSED(lut);
     return elementwise_op<int8_t>(in, out, window, op);
 }

References ARM_COMPUTE_UNUSED, and elementwise_op< int8_t >().

◆ neon_qasymm8_signed_softmax()

void neon_qasymm8_signed_softmax	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

Definition at line 33 of file qasymm8_signed.cpp.

 {
     return neon_softmax_quantized<qasymm8_signed_t, IS_LOG>(in, tmp, out, beta, window);
 }

◆ neon_qasymm8_signed_softmax< false >()

template void arm_compute::cpu::neon_qasymm8_signed_softmax< false >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

◆ neon_qasymm8_signed_softmax< true >()

template void arm_compute::cpu::neon_qasymm8_signed_softmax< true >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

◆ neon_qasymm8_signed_to_fp16_cast()

void arm_compute::cpu::neon_qasymm8_signed_to_fp16_cast	(	const ITensor *	_src,
		ITensor *	_dst,
		const ThreadInfo &	tensor,
		ConvertPolicy	_policy,
		const Window &	window
	)

◆ neon_qasymm8_softmax()

void neon_qasymm8_softmax	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

Definition at line 33 of file qasymm8.cpp.

 {
     return neon_softmax_quantized<qasymm8_t, IS_LOG>(in, tmp, out, beta, window);
 }

◆ neon_qasymm8_softmax< false >()

template void arm_compute::cpu::neon_qasymm8_softmax< false >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

◆ neon_qasymm8_softmax< true >()

template void arm_compute::cpu::neon_qasymm8_softmax< true >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		const Window &	window
	)

◆ neon_qp8_qs8_deptwiseconv2dnative()

void neon_qp8_qs8_deptwiseconv2dnative	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	bias,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Definition at line 40 of file qasymm8_signed.cpp.

 {
     return run_depthwise_quanitized8bit<int8_t, int8_t>(src, weights, bias, dst, window, has_biases, info);
 }

References bias, arm_compute::test::validation::dst, arm_compute::test::validation::info, run_depthwise_quanitized8bit< int8_t, int8_t >(), and arm_compute::test::validation::src.

◆ neon_qp8_qu8_deptwiseconv2dnative()

void neon_qp8_qu8_deptwiseconv2dnative	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	bias,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Definition at line 40 of file qasymm8.cpp.

 {
     return run_depthwise_quanitized8bit<uint8_t, int8_t>(src, weights, bias, dst, window, has_biases, info);
 }

References bias, arm_compute::test::validation::dst, arm_compute::test::validation::info, run_depthwise_quanitized8bit< uint8_t, int8_t >(), and arm_compute::test::validation::src.

◆ neon_qs8_deptwiseconv2dnative()

void neon_qs8_deptwiseconv2dnative	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	bias,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Definition at line 29 of file qasymm8_signed.cpp.

 {
     return run_depthwise_quanitized8bit<int8_t, int8_t>(src, weights, bias, dst, window, has_biases, info);
 }

References bias, arm_compute::test::validation::dst, arm_compute::test::validation::info, run_depthwise_quanitized8bit< int8_t, int8_t >(), and arm_compute::test::validation::src.

◆ neon_qs8_maxunpooling()

void neon_qs8_maxunpooling	(	const ITensor *	input,
		const ITensor *	indices,
		ITensor *	output,
		const Window &	window
	)

Definition at line 29 of file qasymm8.cpp.

 {
     return max_unpooling<int8_t>(input, indices, output, window);
 }

References arm_compute::test::validation::input.

◆ neon_qs8_roialign()

void neon_qs8_roialign	(	const ITensor *	input,
		ITensor *	output,
		const ITensor *	rois,
		ROIPoolingLayerInfo	pool_info,
		const Window &	window,
		const ThreadInfo &	info
	)

Definition at line 29 of file qasymm8_signed.cpp.

 {
     return roi_align<int8_t, uint16_t>(input, output, rois, pool_info, window, info);
 }

References arm_compute::test::validation::info, and arm_compute::test::validation::input.

◆ neon_qsymm16_activation()

void neon_qsymm16_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 42 of file qsymm16.cpp.

 {
     constexpr int                                 window_step_x  = 8;
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
  
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
  
     const UniformQuantizationInfo qi_in    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out   = dst->info()->quantization_info().uniform();
     const auto                    vconst_1 = vdupq_n_f32(1.f);
     const float32x4_t             va_f32   = vdupq_n_f32(act_info.a());
     const float32x4_t             vb_f32   = vdupq_n_f32(act_info.b());
     const float                   a_f32    = act_info.a();
     const float                   b_f32    = act_info.b();
  
     execute_window_loop(
         win_collapsed,
         [&](const Coordinates &)
         {
             const auto input_ptr  = reinterpret_cast<const qsymm16_t *>(input.ptr());
             const auto output_ptr = reinterpret_cast<qsymm16_t *>(output.ptr());
  
             wrapper::traits::neon_bitvector_t<qsymm16_t, wrapper::traits::BitWidth::W128> tmp;
             ARM_COMPUTE_UNUSED(tmp);
  
             // Compute S elements per iteration
             int x = window_start_x;
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin = wrapper::vloadq(input_ptr + x);
                 if (act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
                 {
                     // De-quantize
                     const auto vin_deq = vdequantize_int16(vin, qi_in.scale);
                     // Perform activation
                     const float32x4x2_t tmp_dep = {{
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[0])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[1])))),
                     }};
                     // Re-quantize to new output space
                     tmp = vquantize_int16(tmp_dep, qi_out.scale);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::TANH)
                 {
                     // De-quantize
                     const auto vin_deq = vdequantize_int16(vin, qi_in.scale);
                     // Perform activation
                     const float32x4x2_t tmp_dep = {{
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[0], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[1], vb_f32))),
                     }};
                     // Re-quantize to new output space
                     tmp = vquantize_int16(tmp_dep, qi_out.scale);
                 }
  
                 else if (act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
                 {
                     // De-quantize
                     const auto vin_deq = vdequantize_int16(vin, qi_in.scale);
                     // Perform activation
                     const float32x4x2_t tmp_dep = {{wrapper::vmin(va_f32, wrapper::vmax(vb_f32, vin_deq.val[0])),
                                                     wrapper::vmin(va_f32, wrapper::vmax(vb_f32, vin_deq.val[1]))}};
                     // Re-quantize to new output space
                     tmp = vquantize_int16(tmp_dep, qi_out.scale);
                 }
                 else
                 {
                     ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
                 wrapper::vstore(output_ptr + x, tmp);
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 qsymm16_t in  = *(reinterpret_cast<const qsymm16_t *>(input_ptr + x));
                 qsymm16_t tmp = 0;
                 if (act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
                 {
                     float tmp_f = dequantize_qsymm16(in, qi_in.scale);
                     tmp_f       = 1.f / (1.f + std::exp(-tmp_f));
                     tmp         = quantize_qsymm16(tmp_f, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::TANH)
                 {
                     float tmp_f = dequantize_qsymm16(in, qi_in.scale);
                     tmp_f       = a_f32 * std::tanh(b_f32 * tmp_f);
                     tmp         = quantize_qsymm16(tmp_f, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
                 {
                     float tmp_f = dequantize_qsymm16(in, qi_in.scale);
                     tmp_f       = std::min<float>(a_f32, std::max<float>(b_f32, tmp_f));
                     tmp         = quantize_qsymm16(tmp_f, qi_out);
                 }
                 else
                 {
                     ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
                 *(output_ptr + x) = tmp;
             }
         },
         input, output);
 }

◆ neon_qu16_boundingboxtransform()

void neon_qu16_boundingboxtransform	(	const ITensor *	boxes,
		ITensor *	pred_boxes,
		const ITensor *	deltas,
		BoundingBoxTransformInfo	bbinfo,
		const Window &	window
	)

Definition at line 29 of file qsymm16.cpp.

 {
     return bounding_box_transform_qsymm16(boxes, pred_boxes, deltas, bbinfo, window);
 }

References bounding_box_transform_qsymm16().

◆ neon_qu16_computeallanchors()

void neon_qu16_computeallanchors	(	const ITensor *	anchors,
		ITensor *	all_anchors,
		ComputeAnchorsInfo	anchors_info,
		const Window &	window
	)

Definition at line 29 of file qsymm16.cpp.

 {
     return compute_all_anchors_qasymm16(anchors, all_anchors, anchors_info, window);
 }

References compute_all_anchors_qasymm16().

◆ neon_qu8_deptwiseconv2dnative()

void neon_qu8_deptwiseconv2dnative	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	bias,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Definition at line 29 of file qasymm8.cpp.

 {
     return run_depthwise_quanitized8bit<uint8_t, uint8_t>(src, weights, bias, dst, window, has_biases, info);
 }

References bias, arm_compute::test::validation::dst, arm_compute::test::validation::info, run_depthwise_quanitized8bit< uint8_t, uint8_t >(), and arm_compute::test::validation::src.

◆ neon_qu8_maxunpooling()

void neon_qu8_maxunpooling	(	const ITensor *	input,
		const ITensor *	indices,
		ITensor *	output,
		const Window &	window
	)

Definition at line 29 of file qasymm8_signed.cpp.

 {
     return max_unpooling<uint8_t>(input, indices, output, window);
 }

References arm_compute::test::validation::input.

◆ neon_qu8_roialign()

void neon_qu8_roialign	(	const ITensor *	input,
		ITensor *	output,
		const ITensor *	rois,
		ROIPoolingLayerInfo	pool_info,
		const Window &	window,
		const ThreadInfo &	info
	)

Definition at line 29 of file qasymm8.cpp.

 {
     return roi_align<uint8_t, uint16_t>(input, output, rois, pool_info, window, info);
 }

References arm_compute::test::validation::info, and arm_compute::test::validation::input.

◆ neon_range_function()

void arm_compute::cpu::neon_range_function	(	ITensor *	output,
		float	start,
		float	step,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 38 of file impl.h.

 {
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector<T, wrapper::traits::BitWidth::W128>::tag_type;
  
     const auto step_vec  = wrapper::vdup_n(static_cast<T>(step), ExactTagType{});
     const auto start_vec = wrapper::vdup_n(static_cast<T>(start), ExactTagType{});
     auto       id_vec    = wrapper::vdup_n(static_cast<T>(0.f), ExactTagType{});
  
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
     const int  window_step_x  = 16 / sizeof(T);
  
     Window win{window};
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
     Iterator output_it(output, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             int        x       = window_start_x;
             const auto out_ptr = reinterpret_cast<T *>(output_it.ptr());
             for (; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 for (int count = 0; count < window_step_x; ++count)
                 {
                     id_vec = wrapper::vsetlane(static_cast<T>(x + count), id_vec, count);
                 }
  
                 // start + step * id
                 const auto res_vec = wrapper::vmla(start_vec, id_vec, step_vec);
                 wrapper::vstore(out_ptr + x, res_vec);
             }
  
             // Compute left-over elements
             for (; x < window_end_x; ++x)
             {
                 const auto res = start + x * step;
                 *(out_ptr + x) = res;
             }
         },
         output_it);
 }

References Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), Iterator::ptr(), Window::set(), Window::Dimension::start(), step, arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vmla(), arm_compute::wrapper::vsetlane(), arm_compute::wrapper::vstore(), and Window::x().

◆ neon_s16_comparison_elementwise_binary()

void neon_s16_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 139 of file integer.cpp.

 {
     return elementwise_comp_op_16<op, int16_t, int16x8_t>(in1, in2, out, window);
 }

◆ neon_s16_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::neon_s16_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::neon_s16_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::neon_s16_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::neon_s16_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::neon_s16_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::neon_s16_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_elementwise_binary()

void neon_s16_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 71 of file integer.cpp.

 {
     return elementwise_arithm_op<op, typename wrapper::traits::neon_vector<int16_t, 8>>(in1, in2, out, window);
 }

◆ neon_s16_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::neon_s16_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::neon_s16_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::neon_s16_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::neon_s16_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::neon_s16_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::neon_s16_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::neon_s16_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::neon_s16_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s16_select_not_same_rank()

void neon_s16_select_not_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 56 of file integer.cpp.

 {
     return select_op_not_same_rank<int16_t>(c, x, y, output, window);
 }

◆ neon_s16_select_same_rank()

void neon_s16_select_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 41 of file integer.cpp.

 {
     return select_op_16<int16_t, uint16x8_t>(c, x, y, output, window);
 }

◆ neon_s32_comparison_elementwise_binary()

void neon_s32_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 169 of file integer.cpp.

 {
     return elementwise_comp_op_32<op, int32_t, int32x4_t>(in1, in2, out, window);
 }

◆ neon_s32_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::neon_s32_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::neon_s32_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::neon_s32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::neon_s32_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::neon_s32_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::neon_s32_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_elementwise_binary()

void neon_s32_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 32 of file integer.cpp.

 {
     return elementwise_arithm_op<op, typename wrapper::traits::neon_vector<int32_t, 4>>(in1, in2, out, window);
 }

◆ neon_s32_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::neon_s32_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::neon_s32_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::neon_s32_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::neon_s32_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::neon_s32_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::neon_s32_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::neon_s32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::neon_s32_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_s32_elementwise_unary()

void neon_s32_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

Definition at line 32 of file integer.cpp.

 {
     ARM_COMPUTE_UNUSED(lut);
     return elementwise_op<int32_t>(in, out, window, op);
 }

References ARM_COMPUTE_UNUSED.

◆ neon_s32_select_not_same_rank()

void neon_s32_select_not_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 61 of file integer.cpp.

 {
     return select_op_not_same_rank<int32_t>(c, x, y, output, window);
 }

◆ neon_s32_select_same_rank()

void neon_s32_select_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 46 of file integer.cpp.

 {
     return select_op_32<int32_t, uint32x4_t>(c, x, y, output, window);
 }

◆ neon_s32_to_fp16_cast()

void arm_compute::cpu::neon_s32_to_fp16_cast	(	const ITensor *	_src,
		ITensor *	_dst,
		const ThreadInfo &	tensor,
		ConvertPolicy	_policy,
		const Window &	window
	)

◆ neon_s8_select_not_same_rank()

void neon_s8_select_not_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 51 of file integer.cpp.

 {
     return select_op_not_same_rank<int8_t>(c, x, y, output, window);
 }

◆ neon_s8_select_same_rank()

void neon_s8_select_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 36 of file integer.cpp.

 {
     return select_op_8<int8_t, uint8x16_t>(c, x, y, output, window);
 }

◆ neon_softmax_float()

void arm_compute::cpu::neon_softmax_float	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		float	beta,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 65 of file impl.h.

 {
     ARM_COMPUTE_UNUSED(tmp);
  
     const int input_width = in->info()->valid_region().shape.x();
  
     Iterator in_it(in, window);
     Iterator out_it(out, window);
  
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
  
     constexpr int vec_size = 16 / sizeof(T);
  
     const int sum_stages = log2(vec_size >> 1);
  
     const auto beta_vec = wrapper::vdup_n(static_cast<T>(beta), ExactTagType{});
  
     execute_window_loop(
         window,
         [&](const Coordinates &)
         {
             /* Get pointers */
             const T *in_ptr  = reinterpret_cast<const T *>(in_it.ptr());
             T       *out_ptr = reinterpret_cast<T *>(out_it.ptr());
  
             T max_val;
  
             /* Compute Max */
             {
                 // Init max value
                 auto vec_max = wrapper::vdup_n(support::cpp11::lowest<T>(), ExactTagType{});
                 int  x       = 0;
  
                 for (; x <= (input_width - vec_size); x += vec_size)
                 {
                     const auto current_value = wrapper::vloadq(in_ptr + x);
                     vec_max                  = wrapper::vmax(vec_max, current_value);
                 }
  
 #ifdef __aarch64__
                 max_val = wrapper::vmaxv(vec_max);
 #else  // __aarch64__
                 auto carry_max = wrapper::vpmax(wrapper::vgethigh(vec_max), wrapper::vgetlow(vec_max));
  
                 for (int i = 0; i < sum_stages; ++i)
                 {
                     carry_max = wrapper::vpmax(carry_max, carry_max);
                 }
  
                 max_val      = wrapper::vgetlane(carry_max, 0);
 #endif // __aarch64__
  
                 // Compute left-over elements
                 for (; x < input_width; ++x)
                 {
                     max_val = std::max(*(in_ptr + x), max_val);
                 }
             } // compute max
  
             T sum_transformed{};
  
             /* Compute exponentials and sum */
             {
                 /* Get max value */
                 const auto vec_max = wrapper::vdup_n(max_val, ExactTagType{});
  
                 /* Init sum to zero */
                 auto vec_sum = wrapper::vdup_n(static_cast<T>(0), ExactTagType{});
  
                 /* Loop over row and compute exponentials and sum */
                 int x = 0;
                 for (; x <= (input_width - vec_size); x += vec_size)
                 {
                     auto vec_elements = wrapper::vloadq(in_ptr + x);
                     vec_elements      = wrapper::vsub(vec_elements, vec_max);
                     if (IS_LOG)
                     {
                         vec_elements = wrapper::vmul(vec_elements, beta_vec);
                         vec_sum      = wrapper::vadd(vec_sum, wrapper::vexpq(vec_elements));
                     }
                     else
                     {
                         vec_elements = wrapper::vexpq(wrapper::vmul(vec_elements, beta_vec));
                         vec_sum      = wrapper::vadd(vec_sum, vec_elements);
                     }
                     wrapper::vstore(out_ptr + x, vec_elements);
                 }
  
                 /* Reduce sum */
                 T sum{};
 #ifdef __aarch64__
                 sum = wrapper_vaddv(vec_sum, sum_stages);
 #else  // __aarch64__
                 auto sum_res = wrapper::vpadd(wrapper::vgethigh(vec_sum), wrapper::vgetlow(vec_sum));
                 for (int i = 0; i < sum_stages; ++i)
                 {
                     sum_res = wrapper::vpadd(sum_res, sum_res);
                 }
                 sum = wrapper::vgetlane(sum_res, 0);
 #endif // __aarch64__
  
                 /* Run remaining elements */
                 for (; x < input_width; ++x)
                 {
                     T element{};
  
                     if (IS_LOG)
                     {
                         element = (in_ptr[x] - max_val) * beta;
                         sum += std::exp(element);
                     }
                     else
                     {
                         element = std::exp((in_ptr[x] - max_val) * beta);
                         sum += element;
                     }
  
                     out_ptr[x] = element;
                 }
  
                 if (!IS_LOG)
                 {
                     sum_transformed = T(1) / sum;
                 }
                 else
                 {
                     sum_transformed = static_cast<T>(std::log(sum));
                 }
             } // Compute exponentials and sum
  
             /* Normalize exponentials */
             {
                 const auto sum_vec = wrapper::vdup_n(static_cast<T>(sum_transformed), ExactTagType{});
  
                 /* Loop over row and compute softmax */
                 int x = 0;
                 for (; x <= (input_width - vec_size); x += vec_size)
                 {
                     const auto vec_in = wrapper::vloadq(out_ptr + x);
                     if (IS_LOG)
                     {
                         wrapper::vstore(out_ptr + x, wrapper::vsub(vec_in, sum_vec));
                     }
                     else
                     {
                         wrapper::vstore(out_ptr + x, wrapper::vmul(vec_in, sum_vec));
                     }
                 }
  
                 /* Run remaining elements */
                 for (; x < input_width; ++x)
                 {
                     if (IS_LOG)
                     {
                         out_ptr[x] = out_ptr[x] - sum_transformed;
                     }
                     else
                     {
                         out_ptr[x] = out_ptr[x] * sum_transformed;
                     }
                 }
             } // Normalize exponentials
         },
         in_it, out_it);
 }

◆ neon_softmax_quantized()

void neon_softmax_quantized	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		float	beta,
		const Window &	window
	)

Definition at line 33 of file impl.cpp.

 {
     static_assert(std::is_same<T, qasymm8_t>::value || std::is_same<T, qasymm8_signed_t>::value,
                   "quantized type should be either qasymm8_t or qasymm8_signed_t.");
  
     const int input_width = in->info()->valid_region().shape.x();
  
     const float       scale_beta     = -beta * in->info()->quantization_info().uniform().scale;
     const float32x4_t scale_beta_vec = vdupq_n_f32(scale_beta);
  
     Iterator in_it(in, window);
     Iterator out_it(out, window);
  
     constexpr int vec_size = 16;
  
 #ifndef __aarch64__
     const int sum_stages = log2(vec_size >> 1);
 #endif // __aarch64__
  
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
  
     execute_window_loop(
         window,
         [&](const Coordinates &)
         {
             /* Get pointers */
             const T *in_ptr  = reinterpret_cast<const T *>(in_it.ptr());
             T       *out_ptr = reinterpret_cast<T *>(out_it.ptr());
             float   *tmp_ptr = reinterpret_cast<float *>(tmp);
  
             T max_val;
  
             /* Compute Max */
             {
                 // Init max value
                 auto vec_max = wrapper::vdup_n(support::cpp11::lowest<T>(), ExactTagType{});
                 int  x       = 0;
  
                 for (; x <= (input_width - vec_size); x += vec_size)
                 {
                     const auto current_value = wrapper::vloadq(in_ptr + x);
                     vec_max                  = wrapper::vmax(vec_max, current_value);
                 }
  
 #ifdef __aarch64__
                 max_val = wrapper::vmaxv(vec_max);
 #else  // __aarch64__
                 auto carry_max = wrapper::vpmax(wrapper::vgethigh(vec_max), wrapper::vgetlow(vec_max));
  
                 for (int i = 0; i < sum_stages; ++i)
                 {
                     carry_max = wrapper::vpmax(carry_max, carry_max);
                 }
  
                 max_val      = wrapper::vgetlane(carry_max, 0);
 #endif // __aarch64__
  
                 // Compute left-over elements
                 for (; x < input_width; ++x)
                 {
                     max_val = std::max(*(in_ptr + x), max_val);
                 }
             } // Compute Max
  
             float sum_transformed{};
  
             /* Compute exponentials and sum */
             {
                 /* Get max value */
                 const auto vec_max = wrapper::vdup_n(max_val, wrapper::traits::vector_128_tag{});
  
                 /* Init sum to zero */
                 float32x4x4_t vec_sum = {
                     vdupq_n_f32(0.f),
                     vdupq_n_f32(0.f),
                     vdupq_n_f32(0.f),
                     vdupq_n_f32(0.f),
                 };
  
                 /* Loop over row and compute exponentials and sum */
                 int x = 0;
                 for (; x <= (input_width - vec_size); x += vec_size)
                 {
                     auto vec_elements              = wrapper::vloadq(in_ptr + x);
                     vec_elements                   = wrapper::vqsub(vec_max, vec_elements);
                     float32x4x4_t vec_elements_flt = convert_int_to_float<float32x4x4_t>(vec_elements);
  
                     if (IS_LOG)
                     {
                         vec_elements_flt.val[0] = vmulq_f32(vec_elements_flt.val[0], scale_beta_vec);
                         vec_elements_flt.val[1] = vmulq_f32(vec_elements_flt.val[1], scale_beta_vec);
                         vec_elements_flt.val[2] = vmulq_f32(vec_elements_flt.val[2], scale_beta_vec);
                         vec_elements_flt.val[3] = vmulq_f32(vec_elements_flt.val[3], scale_beta_vec);
                         vec_sum.val[0]          = vaddq_f32(vec_sum.val[0], vexpq_f32(vec_elements_flt.val[0]));
                         vec_sum.val[1]          = vaddq_f32(vec_sum.val[1], vexpq_f32(vec_elements_flt.val[1]));
                         vec_sum.val[2]          = vaddq_f32(vec_sum.val[2], vexpq_f32(vec_elements_flt.val[2]));
                         vec_sum.val[3]          = vaddq_f32(vec_sum.val[3], vexpq_f32(vec_elements_flt.val[3]));
                     }
                     else
                     {
                         vec_elements_flt.val[0] = vexpq_f32(vmulq_f32(vec_elements_flt.val[0], scale_beta_vec));
                         vec_elements_flt.val[1] = vexpq_f32(vmulq_f32(vec_elements_flt.val[1], scale_beta_vec));
                         vec_elements_flt.val[2] = vexpq_f32(vmulq_f32(vec_elements_flt.val[2], scale_beta_vec));
                         vec_elements_flt.val[3] = vexpq_f32(vmulq_f32(vec_elements_flt.val[3], scale_beta_vec));
                         vec_sum.val[0]          = vaddq_f32(vec_sum.val[0], vec_elements_flt.val[0]);
                         vec_sum.val[1]          = vaddq_f32(vec_sum.val[1], vec_elements_flt.val[1]);
                         vec_sum.val[2]          = vaddq_f32(vec_sum.val[2], vec_elements_flt.val[2]);
                         vec_sum.val[3]          = vaddq_f32(vec_sum.val[3], vec_elements_flt.val[3]);
                     }
  
                     vst4q_f32(tmp_ptr + x, vec_elements_flt);
                 }
  
                 /* Reduce sum */
                 const float32x4_t sum_16_byte =
                     vaddq_f32(vaddq_f32(vec_sum.val[0], vec_sum.val[1]), vaddq_f32(vec_sum.val[2], vec_sum.val[3]));
  
                 float sum;
  
 #ifdef __aarch64__
                 sum = wrapper::vaddv(sum_16_byte);
 #else  // __aarch64__
                 auto sum_res = vpadd_f32(vget_high_f32(sum_16_byte), vget_low_f32(sum_16_byte));
                 sum_res      = vpadd_f32(sum_res, sum_res);
                 sum          = wrapper::vgetlane(sum_res, 0);
 #endif // __aarch64__
  
                 /* Run remaining elements */
                 for (; x < input_width; ++x)
                 {
                     float element{};
                     if (IS_LOG)
                     {
                         element = (max_val - in_ptr[x]) * scale_beta;
                         sum += std::exp(element);
                     }
                     else
                     {
                         element = std::exp((max_val - in_ptr[x]) * scale_beta);
                         sum += element;
                     }
  
                     tmp_ptr[x] = element;
                 }
  
                 if (!IS_LOG)
                 {
                     sum_transformed = 256.f / sum;
                 }
                 else
                 {
                     sum_transformed = std::log(sum);
                 }
             } // Compute exponentials and sum
  
             /* Normalize exponentials */
             {
                 constexpr bool is_qasymm8_signed = std::is_same<T, qasymm8_signed_t>::value;
  
                 const float32x4_t sum_vec = vdupq_n_f32(sum_transformed);
  
                 /* Loop over row and compute softmax */
                 int x = 0;
                 for (; x <= (input_width - vec_size); x += vec_size)
                 {
                     using int_vec_type   = wrapper::traits::neon_vector_t<T, 16>;
                     float32x4x4_t vec_in = vld4q_f32(tmp_ptr + x);
                     int_vec_type  normalized_value{};
                     if (IS_LOG)
                     {
                         const float32x4x4_t sub = {
                             vsubq_f32(vec_in.val[0], sum_vec),
                             vsubq_f32(vec_in.val[1], sum_vec),
                             vsubq_f32(vec_in.val[2], sum_vec),
                             vsubq_f32(vec_in.val[3], sum_vec),
                         };
                         normalized_value = convert_float_to_int<float32x4x4_t, int_vec_type>(sub);
                     }
                     else
                     {
                         float32x4x4_t mul = {
                             vmulq_f32(vec_in.val[0], sum_vec),
                             vmulq_f32(vec_in.val[1], sum_vec),
                             vmulq_f32(vec_in.val[2], sum_vec),
                             vmulq_f32(vec_in.val[3], sum_vec),
                         };
  
                         if (is_qasymm8_signed)
                         {
                             const auto offset_vec = wrapper::vdup_n(128.f, wrapper::traits::vector_128_tag{});
                             mul.val[0]            = wrapper::vsub(mul.val[0], offset_vec);
                             mul.val[1]            = wrapper::vsub(mul.val[1], offset_vec);
                             mul.val[2]            = wrapper::vsub(mul.val[2], offset_vec);
                             mul.val[3]            = wrapper::vsub(mul.val[3], offset_vec);
                         }
  
                         normalized_value = convert_float_to_int<float32x4x4_t, int_vec_type>(mul);
                     }
                     wrapper::vstore(out_ptr + x, normalized_value);
                 }
                 /* Run remaining elements */
                 for (; x < input_width; ++x)
                 {
                     if (IS_LOG)
                     {
                         out_ptr[x] = utils::cast::saturate_cast<T>(tmp_ptr[x] - sum_transformed);
                     }
                     else
                     {
                         out_ptr[x] = utils::cast::saturate_cast<T>((tmp_ptr[x] * sum_transformed) -
                                                                    (is_qasymm8_signed ? 128.f : 0));
                     }
                 }
             } // Normalize exponentials
         },
         in_it, out_it);
 }

◆ neon_softmax_quantized< qasymm8_signed_t, false >()

template void arm_compute::cpu::neon_softmax_quantized< qasymm8_signed_t, false >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		float	beta,
		const Window &	window
	)

◆ neon_softmax_quantized< qasymm8_signed_t, true >()

template void arm_compute::cpu::neon_softmax_quantized< qasymm8_signed_t, true >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		float	beta,
		const Window &	window
	)

◆ neon_softmax_quantized< qasymm8_t, false >()

template void arm_compute::cpu::neon_softmax_quantized< qasymm8_t, false >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		float	beta,
		const Window &	window
	)

◆ neon_softmax_quantized< qasymm8_t, true >()

template void arm_compute::cpu::neon_softmax_quantized< qasymm8_t, true >	(	const ITensor *	in,
		void *const	tmp,
		ITensor *	out,
		float	beta,
		const Window &	window
	)

◆ neon_u16_select_not_same_rank()

void neon_u16_select_not_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 86 of file integer.cpp.

 {
     return select_op_not_same_rank<uint16_t>(c, x, y, output, window);
 }

◆ neon_u16_select_same_rank()

void neon_u16_select_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 71 of file integer.cpp.

 {
     return select_op_16<uint16_t, uint16x8_t>(c, x, y, output, window);
 }

◆ neon_u32_select_not_same_rank()

void neon_u32_select_not_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 91 of file integer.cpp.

 {
     return select_op_not_same_rank<uint32_t>(c, x, y, output, window);
 }

◆ neon_u32_select_same_rank()

void neon_u32_select_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 76 of file integer.cpp.

 {
     return select_op_32<uint32_t, uint32x4_t>(c, x, y, output, window);
 }

◆ neon_u8_comparison_elementwise_binary()

void neon_u8_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 109 of file integer.cpp.

 {
     return elementwise_comp_op_8<op, uint8_t, uint8x16_t>(in1, in2, out, window);
 }

◆ neon_u8_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::neon_u8_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_u8_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::neon_u8_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_u8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::neon_u8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_u8_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::neon_u8_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_u8_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::neon_u8_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_u8_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::neon_u8_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ neon_u8_select_not_same_rank()

void neon_u8_select_not_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 81 of file integer.cpp.

 {
     return select_op_not_same_rank<uint8_t>(c, x, y, output, window);
 }

◆ neon_u8_select_same_rank()

void neon_u8_select_same_rank	(	const ITensor *	c,
		const ITensor *	x,
		const ITensor *	y,
		ITensor *	output,
		const Window &	window
	)

Definition at line 66 of file integer.cpp.

 {
     return select_op_8<uint8_t, uint8x16_t>(c, x, y, output, window);
 }

◆ neon_u8_to_fp16_cast()

void arm_compute::cpu::neon_u8_to_fp16_cast	(	const ITensor *	_src,
		ITensor *	_dst,
		const ThreadInfo &	tensor,
		ConvertPolicy	_policy,
		const Window &	window
	)

◆ offset_no_padding()

uint32_t arm_compute::cpu::offset_no_padding	(	uint32_t	padded_offset,
		const Coordinates &	id,
		const ITensorInfo &	info,
		int	pool_stride_x,
		int	pool_stride_y,
		DataLayout	data_layout
	)

inline

Definition at line 71 of file list.h.

 {
     const int pad_left    = info.padding().left;
     const int pad_right   = info.padding().right;
     const int pad_top     = info.padding().top;
     const int pad_bottom  = info.padding().bottom;
     const int in_stride_y = static_cast<int>(info.strides_in_bytes().y());
     const int in_stride_w = static_cast<int>(info.strides_in_bytes()[3]);
     const int pad_horiz   = pad_left + pad_right;
     const int pad_vert    = pad_top + pad_bottom;
  
     if (data_layout == DataLayout::NCHW)
     {
         const uint32_t offset_base =
             padded_offset - sizeof(T) * pad_horiz * id.y() * pool_stride_y /* subtract padding elems per row */
             - pad_top * sizeof(T)                                          /* top padding */
             - sizeof(T) * pad_horiz * info.tensor_shape()[1] * id.z() -
             pad_vert * in_stride_y * id.z() /* for each Z plane there are height*pad_right padding elems */
             - in_stride_w * id[3];
  
         return offset_base;
     }
     else
     {
         const uint32_t offset_base = padded_offset -
                                      sizeof(T) * pad_horiz * id.y() * pool_stride_x // subtract padding elems per row
                                      - pad_top * sizeof(T)                          // top padding
                                      - sizeof(T) * pad_horiz * info.tensor_shape()[1] * id.z() *
                                            pool_stride_y // for each Z plane there are width*pad_right padding elems
                                      - in_stride_w * id[3];
  
         return offset_base;
     }
 }

References data_layout, arm_compute::test::validation::info, and arm_compute::NCHW.

◆ poolingMxN_fp16_neon_nhwc()

void arm_compute::cpu::poolingMxN_fp16_neon_nhwc	(	const ITensor *	src0,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	,
		const Window &	window_src,
		const Window &	window
	)

◆ poolingMxN_fp32_neon_nhwc()

void poolingMxN_fp32_neon_nhwc	(	const ITensor *	src,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	pool_info,
		const Window &	window_src,
		const Window &	window
	)

Definition at line 282 of file fp32.cpp.

 {
     if ((pool_info.pool_type == PoolingType::MAX) && pool_info.use_kernel_indices && (dst1 != nullptr))
     {
         poolingMxN_fp32_neon_nhwc_kernel_indices(src, dst0, dst1, pool_info, window);
     }
     else if (pool_info.pool_size == Size2D(2, 2) && pool_info.pool_type == PoolingType::MAX &&
              !pool_info.pad_stride_info.has_padding() && (dst1 != nullptr))
     {
         pooling2_f32_maxpool_indices(src, dst0, dst1, pool_info, window_src, window);
     }
     else
     {
         const int window_start_x = window.x().start();
         const int window_end_x   = window.x().end();
         const int window_step_x  = 4;
  
         Window window_out = window;
         window_out.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator in(src, window_src);
         Iterator out(dst0, window_out);
  
         const int pool_size_x =
             pool_info.is_global_pooling ? src->info()->tensor_shape().y() : pool_info.pool_size.width;
         const int pool_size_y =
             pool_info.is_global_pooling ? src->info()->tensor_shape().z() : pool_info.pool_size.height;
         const int pool_pad_right               = pool_info.pad_stride_info.pad_right();
         const int pool_pad_top                 = pool_info.pad_stride_info.pad_top();
         const int pool_pad_left                = pool_info.pad_stride_info.pad_left();
         const int pool_pad_bottom              = pool_info.pad_stride_info.pad_bottom();
         int       pool_stride_x                = 0;
         int       pool_stride_y                = 0;
         std::tie(pool_stride_x, pool_stride_y) = pool_info.pad_stride_info.stride();
         const int   upper_bound_w = src->info()->dimension(1) + (pool_info.exclude_padding ? 0 : pool_pad_right);
         const int   upper_bound_h = src->info()->dimension(2) + (pool_info.exclude_padding ? 0 : pool_pad_bottom);
         const float min_value     = get_initial_min<float>(pool_info.use_inf_as_limit);
         float32x4_t vres;
  
         execute_window_loop(
             window_out,
             [&](const Coordinates &id)
             {
                 const int idx_width    = id.y() * pool_stride_x;
                 const int idx_height   = id.z() * pool_stride_y;
                 const int pool_limit_y = pool_pad_top - idx_height;
                 const int pool_limit_x = pool_pad_left - idx_width;
  
                 const int pool_start_y = std::max(0, window_src.z().start() + pool_limit_y);
                 const int pool_end_y   = std::min(pool_size_y, window_src.z().end() + pool_limit_y);
                 const int pool_start_x = std::max(0, window_src.y().start() + pool_limit_x);
                 const int pool_end_x   = std::min(pool_size_x, window_src.y().end() + pool_limit_x);
  
                 int x_off = window_start_x;
                 for (; x_off <= (window_end_x - window_step_x); x_off += window_step_x)
                 {
                     if (pool_info.pool_type != PoolingType::MAX)
                     {
                         // Calculate scale
                         const float scale = calculate_avg_scale_pool2d(
                             pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w,
                             upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x, pool_stride_y);
                         const float32x4_t scale_v = vdupq_n_f32(scale);
  
                         // Perform pooling
                         vres = vdupq_n_f32(0.0f);
  
                         for (int y = pool_start_y; y < pool_end_y; ++y)
                         {
                             for (int x = pool_start_x; x < pool_end_x; ++x)
                             {
                                 const float32x4_t data = vld1q_f32(
                                     reinterpret_cast<const float *>(
                                         in.ptr() +
                                         (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) +
                                         (y - pool_pad_top) * static_cast<int>(src->info()->strides_in_bytes().z())) +
                                     x_off);
  
                                 // Get power of 2 in case of l2 pooling and accumulate
                                 if (pool_info.pool_type == PoolingType::L2)
                                 {
                                     vres = vmlaq_f32(vres, data, data);
                                 }
                                 else
                                 {
                                     vres = vaddq_f32(vres, data);
                                 }
                             }
                         }
                         // Divide by scale
                         vres = vmulq_f32(vres, scale_v);
                     }
                     else
                     {
                         vres = vdupq_n_f32(min_value);
                         for (int y = pool_start_y; y < pool_end_y; ++y)
                         {
                             for (int x = pool_start_x; x < pool_end_x; ++x)
                             {
                                 const float32x4_t data = vld1q_f32(
                                     reinterpret_cast<const float *>(
                                         in.ptr() +
                                         (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) +
                                         (y - pool_pad_top) * static_cast<int>(src->info()->strides_in_bytes().z())) +
                                     x_off);
                                 vres = vmaxq_f32(vres, data);
                             }
                         }
                     }
  
                     // Calculate square-root in case of l2 pooling
                     if (pool_info.pool_type == PoolingType::L2)
                     {
                         float32x4_t l2_res = {static_cast<float>(sqrt(vgetq_lane_f32(vres, 0))),
                                               static_cast<float>(sqrt(vgetq_lane_f32(vres, 1))),
                                               static_cast<float>(sqrt(vgetq_lane_f32(vres, 2))),
                                               static_cast<float>(sqrt(vgetq_lane_f32(vres, 3)))};
                         vres               = l2_res;
                     }
  
                     // Store result
                     vst1q_f32(reinterpret_cast<float *>(out.ptr()) + x_off, vres);
                 }
  
                 // Left-overs loop
                 for (; x_off < window_end_x; ++x_off)
                 {
                     float res = 0.0f;
  
                     if (pool_info.pool_type != PoolingType::MAX)
                     {
                         // Calculate scale
                         const float scale = calculate_avg_scale_pool2d(
                             pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w,
                             upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x, pool_stride_y);
  
                         for (int y = pool_start_y; y < pool_end_y; ++y)
                         {
                             for (int x = pool_start_x; x < pool_end_x; ++x)
                             {
                                 const float data =
                                     *(reinterpret_cast<const float *>(
                                           in.ptr() +
                                           (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) +
                                           (y - pool_pad_top) * static_cast<int>(src->info()->strides_in_bytes().z())) +
                                       x_off);
  
                                 // Get power of 2 in case of l2 pooling and accumulate
                                 if (pool_info.pool_type == PoolingType::L2)
                                 {
                                     res += data * data;
                                 }
                                 else
                                 {
                                     res += data;
                                 }
                             }
                         }
  
                         // Divide by scale
                         res *= scale;
                     }
                     else
                     {
                         res = min_value;
                         for (int y = pool_start_y; y < pool_end_y; ++y)
                         {
                             for (int x = pool_start_x; x < pool_end_x; ++x)
                             {
                                 const float data =
                                     *(reinterpret_cast<const float *>(
                                           in.ptr() +
                                           (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) +
                                           (y - pool_pad_top) * static_cast<int>(src->info()->strides_in_bytes().z())) +
                                       x_off);
                                 res = std::max(res, data);
                             }
                         }
                     }
  
                     // Calculate square-root in case of l2 pooling
                     if (pool_info.pool_type == PoolingType::L2)
                     {
                         res = std::sqrt(res);
                     }
  
                     // Store result
                     *(reinterpret_cast<float *>(out.ptr()) + x_off) = res;
                 }
             },
             in, out);
     }
 }

References Window::DimX, Window::Dimension::end(), PoolingLayerInfo::exclude_padding, arm_compute::execute_window_loop(), PadStrideInfo::has_padding(), Size2D::height, arm_compute::test::validation::idx_height, arm_compute::test::validation::idx_width, PoolingLayerInfo::is_global_pooling, arm_compute::L2, arm_compute::MAX, arm_compute::NHWC, PadStrideInfo::pad_bottom(), PadStrideInfo::pad_left(), PadStrideInfo::pad_right(), PoolingLayerInfo::pad_stride_info, PadStrideInfo::pad_top(), PoolingLayerInfo::pool_size, PoolingLayerInfo::pool_type, poolingMxN_fp32_neon_nhwc_kernel_indices(), Iterator::ptr(), arm_compute::test::validation::scale, Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), PadStrideInfo::stride(), PoolingLayerInfo::use_inf_as_limit, PoolingLayerInfo::use_kernel_indices, Size2D::width, Window::x(), Window::y(), and Window::z().

◆ poolingMxN_fp32_neon_nhwc_kernel_indices()

void arm_compute::cpu::poolingMxN_fp32_neon_nhwc_kernel_indices	(	const ITensor *	src,
		ITensor *	dst0,
		ITensor *	dst1,
		const PoolingLayerInfo &	pool_info,
		const Window &	window
	)

Definition at line 163 of file fp32.cpp.

 {
     const int     window_start_x = window.x().start();
     const int     window_end_x   = window.x().end();
     constexpr int window_step_x  = 4;
  
     Window window_out = window;
     window_out.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator out(dst0, window_out);
     Iterator indices(dst1, window_out);
  
     const int pool_size_x = pool_info.is_global_pooling ? src->info()->tensor_shape().y() : pool_info.pool_size.width;
     const int pool_size_y = pool_info.is_global_pooling ? src->info()->tensor_shape().z() : pool_info.pool_size.height;
  
     const int pool_pad_top  = pool_info.pad_stride_info.pad_top();
     const int pool_pad_left = pool_info.pad_stride_info.pad_left();
  
     int pool_stride_x                      = 0;
     int pool_stride_y                      = 0;
     std::tie(pool_stride_x, pool_stride_y) = pool_info.pad_stride_info.stride();
  
     const float min_value = get_initial_min<float>(pool_info.use_inf_as_limit);
  
     float32x4_t vres;
     uint32x4_t  vidx;
  
     constexpr int idx_width  = 1;
     constexpr int idx_height = 2;
     constexpr int idx_batch  = 3;
  
     const int y_stride = static_cast<int>(src->info()->strides_in_bytes().y());
     const int z_stride = static_cast<int>(src->info()->strides_in_bytes().z());
     const int n_stride = static_cast<int>(src->info()->strides_in_bytes()[idx_batch]);
  
     const int input_dim_w = src->info()->dimension(idx_width);
     const int input_dim_h = src->info()->dimension(idx_height);
  
     const uint8_t *in_ptr_start = src->buffer() + src->info()->offset_first_element_in_bytes();
  
     execute_window_loop(
         window_out,
         [&](const Coordinates &id)
         {
             const int idx_width  = static_cast<int>(id.y()) * pool_stride_x - pool_pad_left;
             const int idx_height = static_cast<int>(id.z()) * pool_stride_y - pool_pad_top;
  
             const int pool_start_x = std::max(0, -idx_width);
             const int pool_start_y = std::max(0, -idx_height);
  
             const int pool_end_x = std::min(pool_size_x, input_dim_w - idx_width);
             const int pool_end_y = std::min(pool_size_y, input_dim_h - idx_height);
  
             const uint8_t *in_ptr_n = in_ptr_start + id[idx_batch] * n_stride;
  
             const int in_ptr_y_offset = (z_stride * idx_height) + (pool_start_y * z_stride);
             const int in_ptr_x_offset = (y_stride * idx_width) + (pool_start_x * y_stride);
  
             int x_off = window_start_x;
  
             for (; x_off <= (window_end_x - window_step_x); x_off += window_step_x)
             {
                 vres                             = vdupq_n_f32(min_value);
                 vidx                             = vdupq_n_u32(0U);
                 const uint8_t *in_ptr_y          = in_ptr_n + in_ptr_y_offset + in_ptr_x_offset;
                 uint32_t       curr_kernel_index = pool_size_x * pool_start_y;
                 for (int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     const uint8_t *in_ptr_x = in_ptr_y + (x_off * sizeof(float));
                     curr_kernel_index += pool_start_x;
                     for (int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const float32x4_t data      = vld1q_f32(reinterpret_cast<const float *>(in_ptr_x));
                         const uint32x4_t  vidx_curr = vdupq_n_u32(curr_kernel_index);
                         const uint32x4_t  idxMask   = vcgtq_f32(data, vres);
                         vidx                        = vbslq_u32(idxMask, vidx_curr, vidx);
                         vres                        = vmaxq_f32(vres, data);
                         in_ptr_x += y_stride;
                         curr_kernel_index++;
                     }
                     curr_kernel_index += (pool_size_x - pool_end_x);
                     in_ptr_y += z_stride;
                 }
                 // Store result
                 vst1q_f32(reinterpret_cast<float *>(out.ptr()) + x_off, vres);
                 vst1q_u32(reinterpret_cast<uint32_t *>(indices.ptr()) + x_off, vidx);
             }
  
             // Left-overs loop
             for (; x_off < window_end_x; ++x_off)
             {
                 float          res      = min_value;
                 uint32_t       idx      = 0U;
                 const uint8_t *in_ptr_y = in_ptr_n + in_ptr_y_offset + in_ptr_x_offset;
                 for (int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     const uint8_t *in_ptr_x = in_ptr_y + (x_off * sizeof(float));
                     for (int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const float data = *(reinterpret_cast<const float *>(in_ptr_x));
                         if (data > res)
                         {
                             idx = pool_size_x * y + x;
                             res = data;
                         }
                         in_ptr_x += y_stride;
                     }
                     in_ptr_y += z_stride;
                 }
  
                 // Store result
                 *(reinterpret_cast<float *>(out.ptr()) + x_off)        = res;
                 *(reinterpret_cast<uint32_t *>(indices.ptr()) + x_off) = idx;
             }
         },
         out, indices);
 }

References Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), Size2D::height, arm_compute::test::validation::idx_height, arm_compute::test::validation::idx_width, PoolingLayerInfo::is_global_pooling, PadStrideInfo::pad_left(), PoolingLayerInfo::pad_stride_info, PadStrideInfo::pad_top(), PoolingLayerInfo::pool_size, Iterator::ptr(), Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), PadStrideInfo::stride(), arm_compute::utils::cast::U, PoolingLayerInfo::use_inf_as_limit, Size2D::width, and Window::x().

Referenced by poolingMxN_fp32_neon_nhwc().

◆ poolingMxN_q8_neon_nhwc()

void arm_compute::cpu::poolingMxN_q8_neon_nhwc	(	const ITensor *	src,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	pool_info,
		const Window &	window_src,
		const Window &	window
	)

Definition at line 43 of file quantized.h.

 {
     ARM_COMPUTE_UNUSED(dst1);
  
     const int window_start_x     = window.x().start();
     const int window_end_x       = window.x().end();
     const int window_step_x      = 16;
     const int window_half_step_x = window_step_x / 2;
  
     Window window_out = window;
     window_out.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator in(src, window_src);
     Iterator out(dst0, window_out);
  
     using q8x8_t  = typename wrapper::traits::neon_vector<T, 8>::type;
     using q8x16_t = typename wrapper::traits::neon_vector<T, 16>::type;
     using q16_t   = typename wrapper::traits::promote_t<T>;
     using q16x8_t = typename wrapper::traits::neon_vector<q16_t, 8>::type;
     using q32_t   = typename wrapper::traits::promote_t<q16_t>;
     using q32x4_t = typename wrapper::traits::neon_vector<q32_t, 4>::type;
  
     const int pool_size_x = pool_info.is_global_pooling ? src->info()->tensor_shape().y() : pool_info.pool_size.width;
     const int pool_size_y = pool_info.is_global_pooling ? src->info()->tensor_shape().z() : pool_info.pool_size.height;
     const int pool_pad_right  = pool_info.pad_stride_info.pad_right();
     const int pool_pad_top    = pool_info.pad_stride_info.pad_top();
     const int pool_pad_left   = pool_info.pad_stride_info.pad_left();
     const int pool_pad_bottom = pool_info.pad_stride_info.pad_bottom();
  
     int pool_stride_x                      = 0;
     int pool_stride_y                      = 0;
     std::tie(pool_stride_x, pool_stride_y) = pool_info.pad_stride_info.stride();
     const int upper_bound_w = src->info()->dimension(1) + (pool_info.exclude_padding ? 0 : pool_pad_right);
     const int upper_bound_h = src->info()->dimension(2) + (pool_info.exclude_padding ? 0 : pool_pad_bottom);
  
     const float32x4_t             half_scale_v = vdupq_n_f32(0.5f);
     const UniformQuantizationInfo src_qinfo    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo dst_qinfo    = dst0->info()->quantization_info().uniform();
  
     const float quant_rescale = dst_qinfo.scale / src_qinfo.scale;
     // "new_offset" doesn't have to consider the "half_scale_v" in its computation
     // With a requantization performed in a single step there won't be uncertainties introduced
     const int32_t new_offset =
         dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / quant_rescale);
  
     const float   requant_scale = dst_qinfo.scale / src_qinfo.scale;
     const int32_t requant_offset =
         dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / requant_scale);
     const UniformQuantizationInfo requant_qinfo = UniformQuantizationInfo(requant_scale, requant_offset);
  
     execute_window_loop(
         window_out,
         [&](const Coordinates &id)
         {
             const int idx_width    = id.y() * pool_stride_x;
             const int idx_height   = id.z() * pool_stride_y;
             const int pool_limit_y = pool_pad_top - idx_height;
             const int pool_limit_x = pool_pad_left - idx_width;
  
             const int pool_start_y = std::max(0, window_src.z().start() + pool_limit_y);
             const int pool_end_y   = std::min(pool_size_y, window_src.z().end() + pool_limit_y);
             const int pool_start_x = std::max(0, window_src.y().start() + pool_limit_x);
             const int pool_end_x   = std::min(pool_size_x, window_src.y().end() + pool_limit_x);
  
             int x_off = window_start_x;
             for (; x_off <= (window_end_x - window_step_x); x_off += window_step_x)
             {
                 if (pool_info.pool_type != PoolingType::MAX)
                 {
                     q32x4_t vres1 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                     q32x4_t vres2 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                     q32x4_t vres3 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                     q32x4_t vres4 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
  
                     // Calculate scale
                     const float scale = calculate_avg_scale_pool2d(
                         pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w,
                         upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x, pool_stride_y);
  
                     // Perform pooling
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const q8x16_t data = wrapper::vloadq(
                                 reinterpret_cast<const T *>(
                                     in.ptr() +
                                     (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) +
                                     (y - pool_pad_top) * static_cast<int>(src->info()->strides_in_bytes().z())) +
                                 x_off);
  
                             const q16x8_t data_q16  = wrapper::vmovl(wrapper::vgetlow(data));
                             const q16x8_t data2_q16 = wrapper::vmovl(wrapper::vgethigh(data));
                             vres1                   = wrapper::vadd(vres1, wrapper::vmovl(wrapper::vgetlow(data_q16)));
                             vres2                   = wrapper::vadd(vres2, wrapper::vmovl(wrapper::vgethigh(data_q16)));
                             vres3                   = wrapper::vadd(vres3, wrapper::vmovl(wrapper::vgetlow(data2_q16)));
                             vres4 = wrapper::vadd(vres4, wrapper::vmovl(wrapper::vgethigh(data2_q16)));
                         }
                     }
  
                     if (src_qinfo != dst_qinfo)
                     {
                         const float32x4x4_t vres = {{
                             vcvtq_f32_q32(vres1),
                             vcvtq_f32_q32(vres2),
                             vcvtq_f32_q32(vres3),
                             vcvtq_f32_q32(vres4),
                         }};
                         const auto          requantized_dst =
                             vrequantize_pooling_with_scale<q8x16_t>(vres, quant_rescale, scale, new_offset);
                         // Store result
                         wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, wrapper::vgetlow(requantized_dst));
                         wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off + 8,
                                         wrapper::vgethigh(requantized_dst));
                     }
                     else
                     {
                         const float32x4_t scale_v = vdupq_n_f32(scale);
                         // Divide by scale and add 0.5f to round to nearest instead of rounding towards zero
                         vres1 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres1), scale_v));
                         vres2 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres2), scale_v));
                         vres3 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres3), scale_v));
                         vres4 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres4), scale_v));
  
                         const q8x8_t res1 =
                             wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(vres1), wrapper::vmovn(vres2)));
                         const q8x8_t res2 =
                             wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(vres3), wrapper::vmovn(vres4)));
                         // Store result
                         wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, res1);
                         wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off + 8, res2);
                     }
                 }
                 else
                 {
                     q8x16_t vres = wrapper::vdup_n(std::numeric_limits<T>::min(), wrapper::traits::vector_128_tag{});
  
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const q8x16_t data = wrapper::vloadq(
                                 reinterpret_cast<const T *>(
                                     in.ptr() +
                                     (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) +
                                     (y - pool_pad_top) * static_cast<int>(src->info()->strides_in_bytes().z())) +
                                 x_off);
                             vres = wrapper::vmax(vres, data);
                         }
                     }
  
                     // Store result
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off,
                                     (src_qinfo != dst_qinfo)
                                         ? vrequantize_pooling<q8x8_t, q8x16_t>(wrapper::vgetlow(vres),
                                                                                wrapper::vgethigh(vres), requant_qinfo)
                                         : vres);
                 }
             }
  
             if (pool_info.pool_type == PoolingType::MAX)
             {
                 for (; x_off <= (window_end_x - window_half_step_x); x_off += window_half_step_x)
                 {
                     q8x8_t vres = wrapper::vdup_n(std::numeric_limits<T>::min(), wrapper::traits::vector_64_tag{});
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const q8x8_t data = wrapper::vload(
                                 reinterpret_cast<const T *>(
                                     in.ptr() +
                                     (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) +
                                     (y - pool_pad_top) * static_cast<int>(src->info()->strides_in_bytes().z())) +
                                 x_off);
                             vres = wrapper::vmax(vres, data);
                         }
                     }
  
                     // Store result
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off,
                                     (src_qinfo != dst_qinfo) ? vrequantize_pooling<q8x8_t>(vres, requant_qinfo) : vres);
                 }
             }
  
             // Left-overs loop
             for (; x_off < window_end_x; ++x_off)
             {
                 if (pool_info.pool_type != PoolingType::MAX)
                 {
                     q32_t res = static_cast<q32_t>(0.f);
  
                     // Calculate scale
                     const float scale = calculate_avg_scale_pool2d(
                         pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w,
                         upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x, pool_stride_y);
  
                     // Perform pooling
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const T data =
                                 *(reinterpret_cast<const T *>(
                                       in.ptr() +
                                       (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) +
                                       (y - pool_pad_top) * static_cast<int>(src->info()->strides_in_bytes().z())) +
                                   x_off);
                             res += data;
                         }
                     }
  
                     if (src_qinfo != dst_qinfo)
                     {
                         const float res_f          = static_cast<float>(res);
                         const float new_scale      = quant_rescale / scale;
                         const auto requantized_dst = quantize<T>(res_f, UniformQuantizationInfo(new_scale, new_offset));
  
                         // Store result
                         *(reinterpret_cast<T *>(out.ptr()) + x_off) = requantized_dst;
                     }
                     else
                     {
                         // Divide by scale and add 0.5f to round to nearest instead of rounding towards zero
                         res = static_cast<T>(0.5f + static_cast<float>(res) * scale);
  
                         // Store result
                         *(reinterpret_cast<T *>(out.ptr()) + x_off) = res;
                     }
                 }
                 else
                 {
                     T res = std::numeric_limits<T>::min();
  
                     for (int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         for (int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const T data =
                                 *(reinterpret_cast<const T *>(
                                       in.ptr() +
                                       (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) +
                                       (y - pool_pad_top) * static_cast<int>(src->info()->strides_in_bytes().z())) +
                                   x_off);
                             res = std::max(res, data);
                         }
                     }
  
                     // Store result
                     if (src_qinfo != dst_qinfo)
                     {
                         const float res_f                           = static_cast<float>(res);
                         *(reinterpret_cast<T *>(out.ptr()) + x_off) = quantize<T>(res_f, requant_qinfo);
                     }
                     else
                     {
                         *(reinterpret_cast<T *>(out.ptr()) + x_off) = res;
                     }
                 }
             }
         },
         in, out);
 }

◆ poolingMxN_qasymm8_neon_nhwc()

void poolingMxN_qasymm8_neon_nhwc	(	const ITensor *	src0,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	pool_info,
		const Window &	window_src,
		const Window &	window
	)

Definition at line 37 of file qasymm8.cpp.

 {
     poolingMxN_q8_neon_nhwc<uint8_t>(src, dst0, dst1, pool_info, window_src, window);
 }

References arm_compute::test::validation::src.

◆ poolingMxN_qasymm8_signed_neon_nhwc()

void poolingMxN_qasymm8_signed_neon_nhwc	(	const ITensor *	src0,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	pool_info,
		const Window &	window_src,
		const Window &	window
	)

Definition at line 37 of file qasymm8_signed.cpp.

 {
     poolingMxN_q8_neon_nhwc<int8_t>(src, dst0, dst1, pool_info, window_src, window);
 }

References arm_compute::test::validation::src.

◆ poolingMxNxD_fp_neon_ndhwc()

void arm_compute::cpu::poolingMxNxD_fp_neon_ndhwc	(	const ITensor *	src,
		ITensor *	dst0,
		Pooling3dLayerInfo &	pool_info,
		const Window &	window
	)

Definition at line 432 of file impl.h.

 {
     const int     window_start_x = window.x().start();
     const int     window_end_x   = window.x().end();
     constexpr int window_step_x  = 16 / sizeof(T);
     Window        window_out     = window;
  
     // Needed to handle loop left-over
     window_out.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     switch (pool_info.pool_type)
     {
         case PoolingType::MAX:
             max_poolingMxNxD_fp_neon_ndhwc<T>(src, dst0, pool_info, window_out, window_start_x, window_end_x,
                                               window_step_x);
             break;
         case PoolingType::AVG:
             avg_poolingMxNxD_fp_neon_ndhwc<T>(src, dst0, pool_info, window_out, window_start_x, window_end_x,
                                               window_step_x);
             break;
         case PoolingType::L2:
             l2_poolingMxNxD_fp_neon_ndhwc<T>(src, dst0, pool_info, window_out, window_start_x, window_end_x,
                                              window_step_x);
             break;
         default:
             ARM_COMPUTE_ERROR("Pool operation not supported");
     }
 }

References ARM_COMPUTE_ERROR, arm_compute::AVG, Window::DimX, Window::Dimension::end(), arm_compute::L2, arm_compute::MAX, Pooling3dLayerInfo::pool_type, Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), and Window::x().

◆ poolingMxNxD_q8_neon_ndhwc()

void arm_compute::cpu::poolingMxNxD_q8_neon_ndhwc	(	const ITensor *	src,
		ITensor *	dst0,
		Pooling3dLayerInfo &	pool_info,
		const Window &	window
	)

Definition at line 462 of file impl.h.

 {
     constexpr int window_step_x = 16;
     Window        window_out    = window;
  
     // Needed to handle loop left-over
     window_out.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     switch (pool_info.pool_type)
     {
         case PoolingType::MAX:
             max_poolingMxNxD_q8_neon_ndhwc<T>(src, dst0, pool_info, window_out, window_step_x);
             break;
         case PoolingType::AVG:
             avg_poolingMxNxD_q8_neon_ndhwc<T>(src, dst0, pool_info, window_out, window_step_x);
             break;
         default:
             ARM_COMPUTE_ERROR("Pool operation not supported");
     }
 }

References ARM_COMPUTE_ERROR, arm_compute::AVG, Window::DimX, arm_compute::MAX, Pooling3dLayerInfo::pool_type, Window::set(), and arm_compute::test::validation::src.

◆ qasymm8_neon_scale()

void qasymm8_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 375 of file qasymm8.cpp.

 {
     if (policy == InterpolationPolicy::BILINEAR)
     {
         if (src->info()->quantization_info() == dst->info()->quantization_info())
         {
             u8_neon_scale(src, dst, offsets, dx, dy, policy, border_mode, constant_border_value, sampling_offset,
                           align_corners, window);
         }
         else
         {
             qasymm8_neon_scale_bilinear(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset,
                                         align_corners, window);
         }
     }
     else if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         nearest_neon_scale<uint8_t>(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, arm_compute::test::validation::src, and u8_neon_scale().

◆ qasymm8_signed_neon_scale()

void qasymm8_signed_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 362 of file qasymm8_signed.cpp.

 {
     if (policy == InterpolationPolicy::BILINEAR)
     {
         if (src->info()->quantization_info() == dst->info()->quantization_info() &&
             border_mode == BorderMode::REPLICATE)
         {
             s8_neon_scale(src, dst, offsets, dx, dy, policy, border_mode, constant_border_value, sampling_offset,
                           align_corners, window);
         }
         else
         {
             qasymm8_signed_neon_scale_bilinear(src, dst, offsets, dx, dy, border_mode, constant_border_value,
                                                sampling_offset, align_corners, window);
         }
     }
     else if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         nearest_neon_scale<int8_t>(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, arm_compute::REPLICATE, s8_neon_scale(), and arm_compute::test::validation::src.

◆ qasymm8_signed_sve_scale()

void qasymm8_signed_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 97 of file qasymm8_signed.cpp.

 {
     ARM_COMPUTE_UNUSED(dx, dy, border_mode, constant_border_value);
     if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         qasymm8_signed_sve_scale_nearest(src, dst, offsets, sampling_offset, align_corners, window);
     }
     else
     {
         ARM_COMPUTE_ERROR("Not Implemented");
     }
 }

References ARM_COMPUTE_ERROR, ARM_COMPUTE_UNUSED, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ qasymm8_sve_scale()

void qasymm8_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 97 of file qasymm8.cpp.

 {
     ARM_COMPUTE_UNUSED(dx, dy, border_mode, constant_border_value);
     if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         qasymm8_sve_scale_nearest(src, dst, offsets, sampling_offset, align_corners, window);
     }
     else
     {
         ARM_COMPUTE_ERROR("Not Implemented");
     }
 }

References ARM_COMPUTE_ERROR, ARM_COMPUTE_UNUSED, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ roi_align()

void arm_compute::cpu::roi_align	(	const ITensor *	input,
		ITensor *	output,
		const ITensor *	rois,
		ROIPoolingLayerInfo	pool_info,
		const Window &	window,
		const ThreadInfo &	info
	)

Definition at line 274 of file impl.h.

 {
     ARM_COMPUTE_UNUSED(info);
  
     const DataLayout data_layout    = input->info()->data_layout();
     const size_t     values_per_roi = rois->info()->dimension(0);
  
     const int roi_list_start = window.x().start();
     const int roi_list_end   = window.x().end();
  
     const unsigned int idx_width  = get_data_layout_dimension_index(data_layout, DataLayoutDimension::WIDTH);
     const unsigned int idx_height = get_data_layout_dimension_index(data_layout, DataLayoutDimension::HEIGHT);
     const unsigned int idx_depth  = get_data_layout_dimension_index(data_layout, DataLayoutDimension::CHANNEL);
  
     const int input_width   = input->info()->dimension(idx_width);
     const int input_height  = input->info()->dimension(idx_height);
     const int input_chanels = input->info()->dimension(idx_depth);
     const int pooled_w      = pool_info.pooled_width();
     const int pooled_h      = pool_info.pooled_height();
  
     const DataType data_type = input->info()->data_type();
     const bool     is_qasymm = is_data_type_quantized_asymmetric(data_type);
  
     const auto             *rois_ptr   = reinterpret_cast<const roi_data_type *>(rois->buffer());
     const QuantizationInfo &rois_qinfo = rois->info()->quantization_info();
     for (int roi_indx = roi_list_start; roi_indx < roi_list_end; ++roi_indx)
     {
         const unsigned int roi_batch = rois_ptr[values_per_roi * roi_indx];
  
         roi_data_type qx1 = rois_ptr[values_per_roi * roi_indx + 1];
         roi_data_type qy1 = rois_ptr[values_per_roi * roi_indx + 2];
         roi_data_type qx2 = rois_ptr[values_per_roi * roi_indx + 3];
         roi_data_type qy2 = rois_ptr[values_per_roi * roi_indx + 4];
         float         x1(qx1);
         float         x2(qx2);
         float         y1(qy1);
         float         y2(qy2);
         if (is_qasymm)
         {
             x1 = dequantize_qasymm16(qx1, rois_qinfo);
             x2 = dequantize_qasymm16(qx2, rois_qinfo);
             y1 = dequantize_qasymm16(qy1, rois_qinfo);
             y2 = dequantize_qasymm16(qy2, rois_qinfo);
         }
         const float roi_anchor_x = x1 * pool_info.spatial_scale();
         const float roi_anchor_y = y1 * pool_info.spatial_scale();
         const float roi_dims_x   = std::max((x2 - x1) * pool_info.spatial_scale(), 1.0f);
         const float roi_dims_y   = std::max((y2 - y1) * pool_info.spatial_scale(), 1.0f);
         float       bin_size_x   = roi_dims_x / pool_info.pooled_width();
         float       bin_size_y   = roi_dims_y / pool_info.pooled_height();
  
         // Iterate through all feature maps
         for (int ch = 0; ch < input_chanels; ++ch)
         {
             // Iterate through all output pixels
             for (int py = 0; py < pooled_h; ++py)
             {
                 for (int px = 0; px < pooled_w; ++px)
                 {
                     const float region_start_x = compute_region_coordinate(px, bin_size_x, roi_anchor_x, input_width);
                     const float region_start_y = compute_region_coordinate(py, bin_size_y, roi_anchor_y, input_height);
                     const float region_end_x = compute_region_coordinate(px + 1, bin_size_x, roi_anchor_x, input_width);
                     const float region_end_y =
                         compute_region_coordinate(py + 1, bin_size_y, roi_anchor_y, input_height);
                     const int roi_bin_grid_x =
                         (pool_info.sampling_ratio() > 0) ? pool_info.sampling_ratio() : int(ceil(bin_size_x));
                     const int roi_bin_grid_y =
                         (pool_info.sampling_ratio() > 0) ? pool_info.sampling_ratio() : int(ceil(bin_size_y));
                     input_data_type out_val(0);
                     if (is_qasymm)
                     {
                         out_val = roi_align_1x1_qasymm8<input_data_type>(
                             input, roi_batch, region_start_x, bin_size_x, roi_bin_grid_x, region_end_x, region_start_y,
                             bin_size_y, roi_bin_grid_y, region_end_y, ch, output->info()->quantization_info());
                     }
                     else
                     {
                         out_val = roi_align_1x1<input_data_type>(input, roi_batch, region_start_x, bin_size_x,
                                                                  roi_bin_grid_x, region_end_x, region_start_y,
                                                                  bin_size_y, roi_bin_grid_y, region_end_y, ch);
                     }
  
                     if (data_layout == DataLayout::NCHW)
                     {
                         auto out_ptr = reinterpret_cast<input_data_type *>(
                             output->ptr_to_element(Coordinates(px, py, ch, roi_indx)));
                         *out_ptr = out_val;
                     }
                     else
                     {
                         auto out_ptr = reinterpret_cast<input_data_type *>(
                             output->ptr_to_element(Coordinates(ch, px, py, roi_indx)));
                         *out_ptr = out_val;
                     }
                 }
             }
         }
     }
 }

References ARM_COMPUTE_UNUSED, ITensor::buffer(), arm_compute::CHANNEL, compute_region_coordinate(), data_layout, arm_compute::test::validation::data_type, arm_compute::dequantize_qasymm16(), ITensorInfo::dimension(), Window::Dimension::end(), arm_compute::get_data_layout_dimension_index(), arm_compute::HEIGHT, arm_compute::test::validation::idx_height, arm_compute::test::validation::idx_width, ITensor::info(), arm_compute::test::validation::info, arm_compute::test::validation::input, arm_compute::is_data_type_quantized_asymmetric(), arm_compute::NCHW, ROIPoolingLayerInfo::pooled_height(), ROIPoolingLayerInfo::pooled_width(), ITensor::ptr_to_element(), ITensorInfo::quantization_info(), ROIPoolingLayerInfo::sampling_ratio(), ROIPoolingLayerInfo::spatial_scale(), Window::Dimension::start(), arm_compute::WIDTH, and Window::x().

◆ roi_align_1x1()

input_data_type arm_compute::cpu::roi_align_1x1	(	const ITensor *	input,
		unsigned int	roi_batch,
		float	region_start_x,
		float	bin_size_x,
		int	grid_size_x,
		float	region_end_x,
		float	region_start_y,
		float	bin_size_y,
		int	grid_size_y,
		float	region_end_y,
		int	pz
	)

inline

Average pooling over an aligned window.

Definition at line 37 of file impl.h.

 {
     if ((region_end_x <= region_start_x) || (region_end_y <= region_start_y))
     {
         return input_data_type(0);
     }
     else
     {
         const DataLayout data_layout = input->info()->data_layout();
         float            avg         = 0;
         // Iterate through the aligned pooling region
         for (int iy = 0; iy < grid_size_y; ++iy)
         {
             for (int ix = 0; ix < grid_size_x; ++ix)
             {
                 // Align the window in the middle of every bin
                 float y = region_start_y + (iy + 0.5) * bin_size_y / float(grid_size_y);
                 float x = region_start_x + (ix + 0.5) * bin_size_x / float(grid_size_x);
  
                 // Interpolation in the [0,0] [0,1] [1,0] [1,1] square
                 const int y_low  = y;
                 const int x_low  = x;
                 const int y_high = y_low + 1;
                 const int x_high = x_low + 1;
  
                 const float ly = y - y_low;
                 const float lx = x - x_low;
                 const float hy = 1. - ly;
                 const float hx = 1. - lx;
  
                 const float w1 = hy * hx;
                 const float w2 = hy * lx;
                 const float w3 = ly * hx;
                 const float w4 = ly * lx;
                 if (data_layout == DataLayout::NCHW)
                 {
                     const auto data1 = *reinterpret_cast<const input_data_type *>(
                         input->ptr_to_element(Coordinates(x_low, y_low, pz, roi_batch)));
                     const auto data2 = *reinterpret_cast<const input_data_type *>(
                         input->ptr_to_element(Coordinates(x_high, y_low, pz, roi_batch)));
                     const auto data3 = *reinterpret_cast<const input_data_type *>(
                         input->ptr_to_element(Coordinates(x_low, y_high, pz, roi_batch)));
                     const auto data4 = *reinterpret_cast<const input_data_type *>(
                         input->ptr_to_element(Coordinates(x_high, y_high, pz, roi_batch)));
                     avg += w1 * data1 + w2 * data2 + w3 * data3 + w4 * data4;
                 }
                 else
                 {
                     const auto data1 = *reinterpret_cast<const input_data_type *>(
                         input->ptr_to_element(Coordinates(pz, x_low, y_low, roi_batch)));
                     const auto data2 = *reinterpret_cast<const input_data_type *>(
                         input->ptr_to_element(Coordinates(pz, x_high, y_low, roi_batch)));
                     const auto data3 = *reinterpret_cast<const input_data_type *>(
                         input->ptr_to_element(Coordinates(pz, x_low, y_high, roi_batch)));
                     const auto data4 = *reinterpret_cast<const input_data_type *>(
                         input->ptr_to_element(Coordinates(pz, x_high, y_high, roi_batch)));
                     avg += w1 * data1 + w2 * data2 + w3 * data3 + w4 * data4;
                 }
             }
         }
  
         avg /= grid_size_x * grid_size_y;
         return input_data_type(avg);
     }
 }

References data_layout, arm_compute::test::validation::input, and arm_compute::NCHW.

Referenced by arm_compute::test::validation::reference::roi_align_layer().

◆ roi_align_1x1_qasymm8()

input_data_type arm_compute::cpu::roi_align_1x1_qasymm8	(	const ITensor *	input,
		unsigned int	roi_batch,
		float	region_start_x,
		float	bin_size_x,
		int	grid_size_x,
		float	region_end_x,
		float	region_start_y,
		float	bin_size_y,
		int	grid_size_y,
		float	region_end_y,
		int	pz,
		const QuantizationInfo &	out_qinfo
	)

inline

Average pooling over an aligned window.

Definition at line 115 of file impl.h.

 {
     if ((region_end_x <= region_start_x) || (region_end_y <= region_start_y))
     {
         return input_data_type(out_qinfo.uniform().offset);
     }
     else
     {
         float                         avg         = 0;
         const UniformQuantizationInfo input_qinfo = input->info()->quantization_info().uniform();
         const bool       is_qasymm_signed = is_data_type_quantized_asymmetric_signed(input->info()->data_type());
         const DataLayout data_layout      = input->info()->data_layout();
  
         // Iterate through the aligned pooling region
         for (int iy = 0; iy < grid_size_y; ++iy)
         {
             for (int ix = 0; ix < grid_size_x; ++ix)
             {
                 // Align the window in the middle of every bin
                 float y = region_start_y + (iy + 0.5) * bin_size_y / float(grid_size_y);
                 float x = region_start_x + (ix + 0.5) * bin_size_x / float(grid_size_x);
  
                 // Interpolation in the [0,0] [0,1] [1,0] [1,1] square
                 const int y_low  = y;
                 const int x_low  = x;
                 const int y_high = y_low + 1;
                 const int x_high = x_low + 1;
  
                 const float ly = y - y_low;
                 const float lx = x - x_low;
                 const float hy = 1. - ly;
                 const float hx = 1. - lx;
  
                 const float w1 = hy * hx;
                 const float w2 = hy * lx;
                 const float w3 = ly * hx;
                 const float w4 = ly * lx;
  
                 if (data_layout == DataLayout::NCHW)
                 {
                     if (is_qasymm_signed)
                     {
                         float data1 =
                             dequantize_qasymm8_signed(*reinterpret_cast<const input_data_type *>(input->ptr_to_element(
                                                           Coordinates(x_low, y_low, pz, roi_batch))),
                                                       input_qinfo);
                         float data2 =
                             dequantize_qasymm8_signed(*reinterpret_cast<const input_data_type *>(input->ptr_to_element(
                                                           Coordinates(x_high, y_low, pz, roi_batch))),
                                                       input_qinfo);
                         float data3 =
                             dequantize_qasymm8_signed(*reinterpret_cast<const input_data_type *>(input->ptr_to_element(
                                                           Coordinates(x_low, y_high, pz, roi_batch))),
                                                       input_qinfo);
                         float data4 =
                             dequantize_qasymm8_signed(*reinterpret_cast<const input_data_type *>(input->ptr_to_element(
                                                           Coordinates(x_high, y_high, pz, roi_batch))),
                                                       input_qinfo);
                         avg += w1 * data1 + w2 * data2 + w3 * data3 + w4 * data4;
                     }
                     else
                     {
                         float data1 =
                             dequantize_qasymm8(*reinterpret_cast<const input_data_type *>(
                                                    input->ptr_to_element(Coordinates(x_low, y_low, pz, roi_batch))),
                                                input_qinfo);
                         float data2 =
                             dequantize_qasymm8(*reinterpret_cast<const input_data_type *>(
                                                    input->ptr_to_element(Coordinates(x_high, y_low, pz, roi_batch))),
                                                input_qinfo);
                         float data3 =
                             dequantize_qasymm8(*reinterpret_cast<const input_data_type *>(
                                                    input->ptr_to_element(Coordinates(x_low, y_high, pz, roi_batch))),
                                                input_qinfo);
                         float data4 =
                             dequantize_qasymm8(*reinterpret_cast<const input_data_type *>(
                                                    input->ptr_to_element(Coordinates(x_high, y_high, pz, roi_batch))),
                                                input_qinfo);
                         avg += w1 * data1 + w2 * data2 + w3 * data3 + w4 * data4;
                     }
                 }
                 else
                 {
                     if (is_qasymm_signed)
                     {
                         const auto data1 =
                             dequantize_qasymm8_signed(*reinterpret_cast<const input_data_type *>(input->ptr_to_element(
                                                           Coordinates(pz, x_low, y_low, roi_batch))),
                                                       input_qinfo);
                         const auto data2 =
                             dequantize_qasymm8_signed(*reinterpret_cast<const input_data_type *>(input->ptr_to_element(
                                                           Coordinates(pz, x_high, y_low, roi_batch))),
                                                       input_qinfo);
                         const auto data3 =
                             dequantize_qasymm8_signed(*reinterpret_cast<const input_data_type *>(input->ptr_to_element(
                                                           Coordinates(pz, x_low, y_high, roi_batch))),
                                                       input_qinfo);
                         const auto data4 =
                             dequantize_qasymm8_signed(*reinterpret_cast<const input_data_type *>(input->ptr_to_element(
                                                           Coordinates(pz, x_high, y_high, roi_batch))),
                                                       input_qinfo);
                         avg += w1 * data1 + w2 * data2 + w3 * data3 + w4 * data4;
                     }
                     else
                     {
                         const auto data1 =
                             dequantize_qasymm8(*reinterpret_cast<const input_data_type *>(
                                                    input->ptr_to_element(Coordinates(pz, x_low, y_low, roi_batch))),
                                                input_qinfo);
                         const auto data2 =
                             dequantize_qasymm8(*reinterpret_cast<const input_data_type *>(
                                                    input->ptr_to_element(Coordinates(pz, x_high, y_low, roi_batch))),
                                                input_qinfo);
                         const auto data3 =
                             dequantize_qasymm8(*reinterpret_cast<const input_data_type *>(
                                                    input->ptr_to_element(Coordinates(pz, x_low, y_high, roi_batch))),
                                                input_qinfo);
                         const auto data4 =
                             dequantize_qasymm8(*reinterpret_cast<const input_data_type *>(
                                                    input->ptr_to_element(Coordinates(pz, x_high, y_high, roi_batch))),
                                                input_qinfo);
                         avg += w1 * data1 + w2 * data2 + w3 * data3 + w4 * data4;
                     }
                 }
             }
         }
  
         avg /= grid_size_x * grid_size_y;
  
         input_data_type res = 0;
         if (is_qasymm_signed)
         {
             res = quantize_qasymm8_signed(avg, out_qinfo);
         }
         else
         {
             res = quantize_qasymm8(avg, out_qinfo);
         }
         return res;
     }
 }

References data_layout, arm_compute::dequantize_qasymm8(), arm_compute::dequantize_qasymm8_signed(), arm_compute::test::validation::input, arm_compute::is_data_type_quantized_asymmetric_signed(), arm_compute::NCHW, UniformQuantizationInfo::offset, arm_compute::quantize_qasymm8(), arm_compute::quantize_qasymm8_signed(), and QuantizationInfo::uniform().

◆ rounding_divide_by_exp2() [1/3]

int32_t arm_compute::cpu::rounding_divide_by_exp2	(	const int32_t &	x,
		const int	exponent
	)

inline

Definition at line 61 of file impl.cpp.

 {
     const int32x2_t xs = vdup_n_s32(x);
     return vget_lane_s32(rounding_divide_by_exp2(xs, exponent), 0);
 }

References rounding_divide_by_exp2().

◆ rounding_divide_by_exp2() [2/3]

int32x2_t arm_compute::cpu::rounding_divide_by_exp2	(	const int32x2_t &	x,
		const int	exponent
	)

inline

Definition at line 53 of file impl.cpp.

 {
     const int32x2_t shift = vdup_n_s32(-exponent);
     const int32x2_t fixup = vshr_n_s32(vand_s32(x, shift), 31);
     const int32x2_t fixed = vqadd_s32(x, fixup);
     return vrshl_s32(fixed, shift);
 }

◆ rounding_divide_by_exp2() [3/3]

int32x4_t arm_compute::cpu::rounding_divide_by_exp2	(	const int32x4_t &	x,
		const int	exponent
	)

inline

Definition at line 45 of file impl.cpp.

 {
     const int32x4_t shift = vdupq_n_s32(-exponent);
     const int32x4_t fixup = vshrq_n_s32(vandq_s32(x, shift), 31);
     const int32x4_t fixed = vqaddq_s32(x, fixup);
     return vrshlq_s32(fixed, shift);
 }

Referenced by rounding_divide_by_exp2().

◆ run_depthwise_float()

void arm_compute::cpu::run_depthwise_float	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	biases,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Definition at line 340 of file impl.h.

 {
     PadStrideInfo conv_info        = info.pad_stride_info;
     unsigned int  depth_multiplier = info.depth_multiplier;
     Size2D        dilation         = info.dilation;
  
     if (depth_multiplier == 1)
     {
         depthwise_loop_multiplier1_fp<T>(src, weights, biases, dst, conv_info, dilation, window, has_biases);
     }
     else
     {
         depthwise_loop_generic_fp<T>(src, weights, biases, dst, conv_info, dilation, depth_multiplier, window,
                                      has_biases);
     }
 }

References arm_compute::test::validation::conv_info, arm_compute::test::validation::dst, arm_compute::test::validation::info, and arm_compute::test::validation::src.

◆ run_depthwise_quanitized8bit()

void run_depthwise_quanitized8bit	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	biases,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Definition at line 559 of file impl.cpp.

 {
     PadStrideInfo    conv_info        = info.pad_stride_info;
     unsigned int     depth_multiplier = info.depth_multiplier;
     Size2D           dilation         = info.dilation;
     std::vector<int> output_multiplier;
     std::vector<int> output_shift;
  
     const auto input_scale   = src->info()->quantization_info().uniform().scale;
     const auto output_scale  = dst->info()->quantization_info().uniform().scale;
     auto       weights_scale = weights->info()->quantization_info().scale();
  
     if (!is_data_type_quantized_per_channel(weights->info()->data_type()))
     {
         for (size_t i = 1; i < weights->info()->dimension(channel_idx); ++i)
         {
             weights_scale.push_back(weights_scale.front());
         }
     }
  
     for (const auto &s : weights_scale)
     {
         int32_t     out_mult   = 0;
         int32_t     out_shift  = 0;
         const float multiplier = input_scale * s / output_scale;
         arm_compute::quantization::calculate_quantized_multiplier(multiplier, &out_mult, &out_shift);
  
         output_multiplier.push_back(out_mult);
         output_shift.push_back(out_shift);
     }
  
     if (depth_multiplier == 1)
     {
         depthwise_loop_multiplier1_quantized<T, TW>(src, weights, biases, dst, conv_info, dilation, output_multiplier,
                                                     output_shift, window, has_biases);
     }
     else
     {
         const bool is_pow2                 = ((depth_multiplier & (depth_multiplier - 1)) == 0);
         const bool is_quantized_per_tensor = !(is_data_type_quantized_per_channel(weights->info()->data_type()));
  
         if (is_pow2 && is_quantized_per_tensor && depth_multiplier >= 8)
         {
             depthwise_loop_pow2_quantized_per_tensor<T, TW>(src, weights, biases, dst, conv_info, dilation,
                                                             depth_multiplier, output_multiplier, output_shift, window,
                                                             has_biases);
         }
         else
         {
             depthwise_loop_generic_quantized<T, TW>(src, weights, biases, dst, conv_info, dilation, depth_multiplier,
                                                     output_multiplier, output_shift, window, has_biases);
         }
     }
 }

References arm_compute::quantization::calculate_quantized_multiplier(), channel_idx, arm_compute::test::validation::conv_info, ITensorInfo::data_type(), arm_compute::test::validation::dst, ITensor::info(), arm_compute::test::validation::info, arm_compute::is_data_type_quantized_per_channel(), ITensorInfo::quantization_info(), QuantizationInfo::scale(), and arm_compute::test::validation::src.

◆ run_depthwise_quanitized8bit< int8_t, int8_t >()

template void arm_compute::cpu::run_depthwise_quanitized8bit< int8_t, int8_t >	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	biases,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Referenced by neon_qp8_qs8_deptwiseconv2dnative(), and neon_qs8_deptwiseconv2dnative().

◆ run_depthwise_quanitized8bit< uint8_t, int8_t >()

template void arm_compute::cpu::run_depthwise_quanitized8bit< uint8_t, int8_t >	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	biases,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Referenced by neon_qp8_qu8_deptwiseconv2dnative().

◆ run_depthwise_quanitized8bit< uint8_t, uint8_t >()

template void arm_compute::cpu::run_depthwise_quanitized8bit< uint8_t, uint8_t >	(	const ITensor *	src,
		const ITensor *	weights,
		const ITensor *	biases,
		ITensor *	dst,
		const Window &	window,
		bool	has_biases,
		const ConvolutionInfo &	info
	)

Referenced by neon_qu8_deptwiseconv2dnative().

◆ s16_in_bounds_crop_window()

void s16_in_bounds_crop_window	(	const ITensor *	input,
		const ITensor *	output,
		float *	output_ptr,
		Coordinates	input_offset,
		int32_t	window_step_x,
		int32_t	output_width_start,
		int32_t	output_width_limit,
		bool	input_has_single_channel,
		bool	is_width_flipped
	)

Definition at line 88 of file integer.cpp.

 {
     return in_bounds_crop_window<int16_t>(input, output, output_ptr, input_offset, window_step_x, output_width_start,
                                           output_width_limit, input_has_single_channel, is_width_flipped);
 }

References arm_compute::test::validation::input.

◆ s16_neon_range_function()

void s16_neon_range_function	(	ITensor *	output,
		float	start,
		float	step,
		const Window &	window
	)

Definition at line 53 of file integer.cpp.

 {
     return neon_range_function<int16_t>(output, start, step, window);
 }

References step.

◆ s16_neon_scale()

void s16_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 760 of file integer.cpp.

 {
     if (policy == InterpolationPolicy::BILINEAR)
     {
         s16_neon_scale_bilinear(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset,
                                 align_corners, window);
     }
     else if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         s16_neon_scale_nearest(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ s16_sve_scale()

void s16_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 172 of file integer.cpp.

 {
     ARM_COMPUTE_UNUSED(dx, dy, border_mode, constant_border_value);
     if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         s16_sve_scale_nearest(src, dst, offsets, sampling_offset, align_corners, window);
     }
     else
     {
         ARM_COMPUTE_ERROR("Not Implemented");
     }
 }

References ARM_COMPUTE_ERROR, ARM_COMPUTE_UNUSED, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ s32_in_bounds_crop_window()

void s32_in_bounds_crop_window	(	const ITensor *	input,
		const ITensor *	output,
		float *	output_ptr,
		Coordinates	input_offset,
		int32_t	window_step_x,
		int32_t	output_width_start,
		int32_t	output_width_limit,
		bool	input_has_single_channel,
		bool	is_width_flipped
	)

Definition at line 102 of file integer.cpp.

 {
     return in_bounds_crop_window<int32_t>(input, output, output_ptr, input_offset, window_step_x, output_width_start,
                                           output_width_limit, input_has_single_channel, is_width_flipped);
 }

References arm_compute::test::validation::input.

◆ s32_neon_range_function()

void s32_neon_range_function	(	ITensor *	output,
		float	start,
		float	step,
		const Window &	window
	)

Definition at line 58 of file integer.cpp.

 {
     return neon_range_function<int32_t>(output, start, step, window);
 }

References step.

◆ s8_in_bounds_crop_window()

void s8_in_bounds_crop_window	(	const ITensor *	input,
		const ITensor *	output,
		float *	output_ptr,
		Coordinates	input_offset,
		int32_t	window_step_x,
		int32_t	output_width_start,
		int32_t	output_width_limit,
		bool	input_has_single_channel,
		bool	is_width_flipped
	)

Definition at line 74 of file integer.cpp.

 {
     return in_bounds_crop_window<int8_t>(input, output, output_ptr, input_offset, window_step_x, output_width_start,
                                          output_width_limit, input_has_single_channel, is_width_flipped);
 }

References arm_compute::test::validation::input.

◆ s8_neon_range_function()

void s8_neon_range_function	(	ITensor *	output,
		float	start,
		float	step,
		const Window &	window
	)

Definition at line 48 of file integer.cpp.

 {
     return neon_range_function<int8_t>(output, start, step, window);
 }

References step.

◆ s8_neon_scale()

void s8_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 714 of file integer.cpp.

 {
     if (policy == InterpolationPolicy::BILINEAR)
     {
         s8_neon_scale_bilinear(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset,
                                align_corners, window);
     }
     else
     {
         ARM_COMPUTE_ERROR("Not implemented");
     }
 }

References ARM_COMPUTE_ERROR, arm_compute::BILINEAR, arm_compute::test::validation::dst, and arm_compute::test::validation::src.

Referenced by qasymm8_signed_neon_scale().

◆ saturating_doubling_high_mul() [1/2]

int32_t arm_compute::cpu::saturating_doubling_high_mul	(	const int32_t &	a,
		const int32_t &	b
	)

inline

Definition at line 40 of file impl.cpp.

 {
     return vget_lane_s32(vqrdmulh_n_s32(vdup_n_s32(a), b), 0);
 }

References arm_compute::test::validation::b.

◆ saturating_doubling_high_mul() [2/2]

int32x4_t arm_compute::cpu::saturating_doubling_high_mul	(	const int32x4_t &	a,
		const int32_t &	b
	)

inline

Definition at line 35 of file impl.cpp.

 {
     return vqrdmulhq_n_s32(a, b);
 }

References arm_compute::test::validation::b.

◆ select_op()

void arm_compute::cpu::select_op	(	const ITensor *	cond,
		const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window,
		const int	window_step_x,
		const int	window_start_x,
		const int	window_end_x,
		const int	limit,
		VectorType()(const uint8_t )	condition_conversion
	)

Definition at line 41 of file impl.h.

 {
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator condition(cond, win);
     Iterator input1(in1, win);
     Iterator input2(in2, win);
     Iterator output(out, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             auto       output_ptr    = reinterpret_cast<ScalarType *>(output.ptr());
             const auto condition_ptr = reinterpret_cast<const uint8_t *>(condition.ptr());
             const auto input1_ptr    = reinterpret_cast<const ScalarType *>(input1.ptr());
             const auto input2_ptr    = reinterpret_cast<const ScalarType *>(input2.ptr());
  
             int x = window_start_x;
             for (; x <= limit; x += window_step_x)
             {
                 const auto c = (*condition_conversion)(condition_ptr + x);
                 const auto a = wrapper::vloadq(input1_ptr + x);
                 const auto b = wrapper::vloadq(input2_ptr + x);
                 wrapper::vstore(output_ptr + x, wrapper::vbsl(c, a, b));
             }
             for (; x < window_end_x; ++x)
             {
                 const auto c      = *(condition_ptr + x);
                 const auto a      = *(input1_ptr + x);
                 const auto b      = *(input2_ptr + x);
                 *(output_ptr + x) = static_cast<bool>(c) ? a : b;
             }
         },
         condition, input1, input2, output);
 }

References arm_compute::test::validation::b, arm_compute::mlgo::parser::condition(), Window::DimX, arm_compute::execute_window_loop(), Iterator::ptr(), Window::set(), arm_compute::wrapper::vbsl(), arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ select_op_16()

void arm_compute::cpu::select_op_16	(	const ITensor *	cond,
		const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 106 of file impl.h.

 {
     const auto window_step_x  = 16 / sizeof(ScalarType);
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     select_op<ScalarType, VectorType>(
         cond, in1, in2, out, window, window_step_x, window_start_x, window_end_x, window_end_x - window_step_x,
         [](const uint8_t *condition_ptr) -> VectorType
         {
             static const auto zero =
                 wrapper::vdup_n(static_cast<uint16_t>(0), arm_compute::wrapper::traits::vector_128_tag());
             return wrapper::vcgt(wrapper::vmovl(wrapper::vload(condition_ptr)), zero);
         });
 }

References Window::Dimension::end(), Window::Dimension::start(), arm_compute::wrapper::vcgt(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vload(), arm_compute::wrapper::vmovl(), and Window::x().

◆ select_op_32()

void arm_compute::cpu::select_op_32	(	const ITensor *	cond,
		const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 123 of file impl.h.

 {
     const auto window_step_x  = 16 / sizeof(ScalarType);
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     select_op<ScalarType, VectorType>(
         cond, in1, in2, out, window, window_step_x, window_start_x, window_end_x, window_end_x - window_step_x,
         [](const uint8_t *condition_ptr) -> VectorType
         {
             static const auto zero =
                 wrapper::vdup_n(static_cast<uint32_t>(0), arm_compute::wrapper::traits::vector_128_tag());
             return wrapper::vcgt(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vload(condition_ptr)))), zero);
         });
 }

References Window::Dimension::end(), Window::Dimension::start(), arm_compute::wrapper::vcgt(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vgetlow(), arm_compute::wrapper::vload(), arm_compute::wrapper::vmovl(), and Window::x().

◆ select_op_8()

void arm_compute::cpu::select_op_8	(	const ITensor *	cond,
		const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 89 of file impl.h.

 {
     const auto window_step_x  = 16 / sizeof(ScalarType);
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     select_op<ScalarType, VectorType>(
         cond, in1, in2, out, window, window_step_x, window_start_x, window_end_x, window_end_x - window_step_x,
         [](const uint8_t *condition_ptr) -> VectorType
         {
             static const auto zero =
                 wrapper::vdup_n(static_cast<uint8_t>(0), arm_compute::wrapper::traits::vector_128_tag());
             return wrapper::vcgt(wrapper::vloadq(condition_ptr), zero);
         });
 }

References Window::Dimension::end(), Window::Dimension::start(), arm_compute::wrapper::vcgt(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vloadq(), and Window::x().

◆ select_op_not_same_rank()

void arm_compute::cpu::select_op_not_same_rank	(	const ITensor *	cond,
		const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 140 of file impl.h.

 {
     ARM_COMPUTE_UNUSED(window);
  
     auto       output_ptr    = reinterpret_cast<ScalarType *>(out->buffer());
     const auto condition_ptr = reinterpret_cast<const uint8_t *>(cond->buffer());
     const auto input1_ptr    = reinterpret_cast<const ScalarType *>(in1->buffer());
     const auto input2_ptr    = reinterpret_cast<const ScalarType *>(in2->buffer());
  
     const int outer_size = cond->info()->total_size() / cond->info()->element_size();
     const int inner_size = (in1->info()->total_size() / in1->info()->element_size()) / outer_size;
     int       offset     = 0;
     const int step       = 16 / in1->info()->element_size();
  
     for (int i = 0; i < outer_size; ++i)
     {
         int        x         = offset;
         const auto input_ptr = static_cast<bool>(*(condition_ptr + i)) ? input1_ptr : input2_ptr;
         for (; x <= offset + inner_size - step; x += step)
         {
             wrapper::vstore(output_ptr + x, wrapper::vloadq(input_ptr + x));
         }
         if (x <= offset + inner_size - (step / 2))
         {
             wrapper::vstore(output_ptr + x, wrapper::vload(input_ptr + x));
             x += step / 2;
         }
         for (; x < offset + inner_size; ++x)
         {
             *(output_ptr + x) = *(input_ptr + x);
         }
         offset += inner_size;
     }
 }

References ARM_COMPUTE_UNUSED, ITensor::buffer(), ITensorInfo::element_size(), ITensor::info(), offset(), step, ITensorInfo::total_size(), arm_compute::wrapper::vload(), arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ store_quantized() [1/5]

void arm_compute::cpu::store_quantized	(	int8_t *	ptr,
		svbool_t	pg,
		svfloat32x4_t	data,
		const svint32_t &	offset,
		const svfloat32_t &	inv_scale
	)

inline

Definition at line 80 of file impl.h.

 {
     const auto quantized =
         svcreate4(svadd_z(pg, svcvt_s32_z(pg, svrinta_z(pg, svmul_z(pg, svget4(data, 0), inv_scale))), offset),
                   svadd_z(pg, svcvt_s32_z(pg, svrinta_z(pg, svmul_z(pg, svget4(data, 1), inv_scale))), offset),
                   svadd_z(pg, svcvt_s32_z(pg, svrinta_z(pg, svmul_z(pg, svget4(data, 2), inv_scale))), offset),
                   svadd_z(pg, svcvt_s32_z(pg, svrinta_z(pg, svmul_z(pg, svget4(data, 3), inv_scale))), offset));
  
     const auto narrowed_bottom = svqxtnt(svqxtnb(svget4(quantized, 0)), svget4(quantized, 1));
     const auto narrowed_top    = svqxtnt(svqxtnb(svget4(quantized, 2)), svget4(quantized, 3));
     const auto narrowed        = svqxtnt(svqxtnb(narrowed_bottom), narrowed_top);
  
     svst1(pg, ptr, narrowed);
 }

References offset().

◆ store_quantized() [2/5]

void arm_compute::cpu::store_quantized	(	uint8_t *	output_ptr,
		const float32x4x4_t &	rf,
		const float32x4_t &	offset,
		const float32x4_t &	invscale
	)

inline

Definition at line 597 of file impl.h.

 {
     int32x4x4_t out = {{
         vcvtq_s32_f32(vmlaq_f32(offset, rf.val[0], invscale)),
         vcvtq_s32_f32(vmlaq_f32(offset, rf.val[1], invscale)),
         vcvtq_s32_f32(vmlaq_f32(offset, rf.val[2], invscale)),
         vcvtq_s32_f32(vmlaq_f32(offset, rf.val[3], invscale)),
     }};
     store_quantized(output_ptr, out);
 }

References offset(), and store_quantized().

◆ store_quantized() [3/5]

void arm_compute::cpu::store_quantized	(	uint8_t *	output_ptr,
		const int32x4x4_t &	out
	)

inline

Definition at line 589 of file impl.h.

 {
     const uint8x8_t pa = vqmovun_s16(vcombine_s16(vqmovn_s32(out.val[0]), vqmovn_s32(out.val[1])));
     const uint8x8_t pb = vqmovun_s16(vcombine_s16(vqmovn_s32(out.val[2]), vqmovn_s32(out.val[3])));
     vst1q_u8(output_ptr, vcombine_u8(pa, pb));
 }

◆ store_quantized() [4/5]

void arm_compute::cpu::store_quantized	(	uint8_t *	output_ptr,
		const uint32x4x4_t &	out
	)

inline

Definition at line 582 of file impl.h.

 {
     const uint8x8_t pa = vqmovn_u16(vcombine_u16(vqmovn_u32(out.val[0]), vqmovn_u32(out.val[1])));
     const uint8x8_t pb = vqmovn_u16(vcombine_u16(vqmovn_u32(out.val[2]), vqmovn_u32(out.val[3])));
     vst1q_u8(output_ptr, vcombine_u8(pa, pb));
 }

Referenced by elementwise_arithm_op_quantized_broadcast_loop(), elementwise_arithm_op_quantized_loop(), elementwise_arithmetic_quantized_op(), elementwise_comp_op_quantized_broadcast_loop(), elementwise_comp_op_quantized_loop(), elementwise_comp_op_quantized_signed_broadcast_loop(), elementwise_comp_op_quantized_signed_loop(), and store_quantized().

◆ store_quantized() [5/5]

void arm_compute::cpu::store_quantized	(	uint8_t *	ptr,
		svbool_t	pg,
		svfloat32x4_t	data,
		const svint32_t &	offset,
		const svfloat32_t &	inv_scale
	)

inline

Definition at line 65 of file impl.h.

 {
     const auto quantized =
         svcreate4(svadd_z(pg, svcvt_s32_z(pg, svrinta_z(pg, svmul_z(pg, svget4(data, 0), inv_scale))), offset),
                   svadd_z(pg, svcvt_s32_z(pg, svrinta_z(pg, svmul_z(pg, svget4(data, 1), inv_scale))), offset),
                   svadd_z(pg, svcvt_s32_z(pg, svrinta_z(pg, svmul_z(pg, svget4(data, 2), inv_scale))), offset),
                   svadd_z(pg, svcvt_s32_z(pg, svrinta_z(pg, svmul_z(pg, svget4(data, 3), inv_scale))), offset));
  
     const auto narrowed_bottom = svqxtunt(svqxtunb(svget4(quantized, 0)), svget4(quantized, 1));
     const auto narrowed_top    = svqxtunt(svqxtunb(svget4(quantized, 2)), svget4(quantized, 3));
     const auto narrowed        = svqxtnt(svqxtnb(narrowed_bottom), narrowed_top);
     svst1(pg, ptr, narrowed);
 }

References offset().

◆ store_quantized_signed() [1/2]

void arm_compute::cpu::store_quantized_signed	(	int8_t *	output_ptr,
		const float32x4x4_t &	rf,
		const float32x4_t &	offset,
		const float32x4_t &	invscale
	)

inline

Definition at line 615 of file impl.h.

 {
     int32x4x4_t out = {{
         vcvtq_s32_f32(vmlaq_f32(offset, rf.val[0], invscale)),
         vcvtq_s32_f32(vmlaq_f32(offset, rf.val[1], invscale)),
         vcvtq_s32_f32(vmlaq_f32(offset, rf.val[2], invscale)),
         vcvtq_s32_f32(vmlaq_f32(offset, rf.val[3], invscale)),
     }};
     store_quantized_signed(output_ptr, out);
 }

References offset(), and store_quantized_signed().

◆ store_quantized_signed() [2/2]

void arm_compute::cpu::store_quantized_signed	(	int8_t *	output_ptr,
		const int32x4x4_t &	out
	)

inline

Definition at line 608 of file impl.h.

 {
     const int8x8_t pa = vqmovn_s16(vcombine_s16(vqmovn_s32(out.val[0]), vqmovn_s32(out.val[1])));
     const int8x8_t pb = vqmovn_s16(vcombine_s16(vqmovn_s32(out.val[2]), vqmovn_s32(out.val[3])));
     vst1q_s8(output_ptr, vcombine_s8(pa, pb));
 }

Referenced by elementwise_arithm_op_quantized_signed_broadcast_loop(), elementwise_arithm_op_quantized_singed_loop(), and store_quantized_signed().

◆ sub_q8_neon_fixedpoint_possible()

bool sub_q8_neon_fixedpoint_possible	(	const ITensorInfo *	src0,
		const ITensorInfo *	src1,
		const ITensorInfo *	dst
	)

Definition at line 35 of file impl.cpp.

 {
     return add_sub_q8_neon_fixedpoint_possible(src0, src1, dst, false);
 }

References add_sub_q8_neon_fixedpoint_possible(), and arm_compute::test::validation::dst.

Referenced by CpuSubKernel::configure().

◆ sub_qasymm8_neon()

void sub_qasymm8_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 39 of file qasymm8.cpp.

 {
     add_sub_qasymm8_neon(src0, src1, dst, policy, window, false /*is_addition*/);
 }

References add_sub_qasymm8_neon(), and arm_compute::test::validation::dst.

◆ sub_qasymm8_neon_fixedpoint()

void sub_qasymm8_neon_fixedpoint	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 33 of file qasymm8.cpp.

 {
     add_sub_q8_neon_fixedpoint<uint8_t>(src0, src1, dst, policy, window, false /*is_addition*/);
 }

References add_sub_q8_neon_fixedpoint< uint8_t >(), and arm_compute::test::validation::dst.

◆ sub_qasymm8_signed_neon()

void sub_qasymm8_signed_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 40 of file qasymm8_signed.cpp.

 {
     add_sub_qasymm8_signed_neon(src0, src1, dst, policy, window, false /*is_addition*/);
 }

References add_sub_qasymm8_signed_neon(), and arm_compute::test::validation::dst.

◆ sub_qasymm8_signed_neon_fixedpoint()

void sub_qasymm8_signed_neon_fixedpoint	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 34 of file qasymm8_signed.cpp.

 {
     add_sub_q8_neon_fixedpoint<int8_t>(src0, src1, dst, policy, window, false /*is_addition*/);
 }

References add_sub_q8_neon_fixedpoint< int8_t >(), and arm_compute::test::validation::dst.

◆ sub_qsymm16_neon()

void sub_qsymm16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 36 of file qsymm16.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     const int  window_step_x         = 8;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
  
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
  
     const float32x4_t vscale1    = vdupq_n_f32(iq1_info.scale);
     const float32x4_t vscale2    = vdupq_n_f32(iq2_info.scale);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / oq_info.scale);
  
     if (is_broadcast_across_x)
     {
         const bool                    is_broadcast_input_2 = input2_win.x().step() == 0;
         Window                        broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window                        non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor                *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor                *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
         const UniformQuantizationInfo broadcast_qinfo      = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo = non_broadcast_tensor->info()->quantization_info().uniform();
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const int16_t *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<int16_t *>(output.ptr());
  
                 const int16_t   broadcast_value     = *reinterpret_cast<const int16_t *>(broadcast_input.ptr());
                 const int16x8_t broadcast_value_vec = vdupq_n_s16(broadcast_value);
  
                 const float32x4x2_t bf  = {{
                      vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(broadcast_value_vec))), vscale2),
                      vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(broadcast_value_vec))), vscale2),
                 }};
                 const float         bfs = static_cast<int32_t>(broadcast_value) * broadcast_qinfo.scale;
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const int16x8_t     a  = vld1q_s16(non_broadcast_input_ptr + x);
                     const float32x4x2_t af = {{
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(a))), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(a))), vscale1),
                     }};
  
                     const int32x4x4_t rf = {{
 #ifdef __aarch64__
                         vcvtnq_s32_f32(vmulq_f32(is_broadcast_input_2 ? vsubq_f32(bf.val[0], af.val[0])
                                                                       : vsubq_f32(af.val[0], bf.val[0]),
                                                  invvscaleo)),
                         vcvtnq_s32_f32(vmulq_f32(is_broadcast_input_2 ? vsubq_f32(bf.val[1], af.val[1])
                                                                       : vsubq_f32(af.val[1], bf.val[1]),
                                                  invvscaleo)),
 #else  //__aarch64__
                         vcvtq_s32_f32(vmulq_f32(is_broadcast_input_2 ? vsubq_f32(bf.val[0], af.val[0])
                                                                      : vsubq_f32(af.val[0], bf.val[0]),
                                                 invvscaleo)),
                         vcvtq_s32_f32(vmulq_f32(is_broadcast_input_2 ? vsubq_f32(bf.val[1], af.val[1])
                                                                      : vsubq_f32(af.val[1], bf.val[1]),
                                                 invvscaleo)),
 #endif //__aarch64__
                     }};
  
                     const int16x8_t pa = vcombine_s16(vqmovn_s32(rf.val[0]), vqmovn_s32(rf.val[1]));
                     vst1q_s16(output_ptr + x, pa);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const float afs = static_cast<int32_t>(*(non_broadcast_input_ptr + x)) * non_broadcast_qinfo.scale;
                     *(output_ptr + x) = quantize_qsymm16(is_broadcast_input_2 ? (bfs - afs) : (afs - bfs), oq_info);
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const int16_t *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const int16_t *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<int16_t *>(output.ptr());
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const int16x8_t a = vld1q_s16(input1_ptr + x);
                     const int16x8_t b = vld1q_s16(input2_ptr + x);
  
                     const float32x4x2_t af = {{
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(a))), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(a))), vscale1),
                     }};
  
                     const float32x4x2_t bf = {{
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(b))), vscale2),
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(b))), vscale2),
                     }};
  
                     const int32x4x2_t rf = {{
 #ifdef __aarch64__
                         vcvtnq_s32_f32(vmulq_f32(vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtnq_s32_f32(vmulq_f32(vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
 #else  //__aarch64__
                         vcvtq_s32_f32(vmulq_f32(vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtq_s32_f32(vmulq_f32(vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
 #endif //__aarch64__
                     }};
  
                     const int16x8_t pa = vcombine_s16(vqmovn_s32(rf.val[0]), vqmovn_s32(rf.val[1]));
                     vst1q_s16(output_ptr + x, pa);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const float afs   = static_cast<int32_t>((*(input1_ptr + x))) * iq1_info.scale;
                     const float bfs   = static_cast<int32_t>((*(input2_ptr + x))) * iq2_info.scale;
                     *(output_ptr + x) = quantize_qsymm16((afs - bfs), dst->info()->quantization_info());
                 }
             },
             input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::for(), ITensor::info(), Iterator::ptr(), ITensorInfo::quantization_info(), arm_compute::quantize_qsymm16(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ sub_same_neon()

void arm_compute::cpu::sub_same_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 42 of file impl.h.

 {
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
  
     bool is_sat = policy == ConvertPolicy::SATURATE;
  
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
  
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     constexpr int window_step_x         = 16 / sizeof(T);
     const auto    window_start_x        = static_cast<int>(window.x().start());
     const auto    window_end_x          = static_cast<int>(window.x().end());
     const bool    is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
  
     Iterator input1(src0, window.broadcast_if_dimension_le_one(src0->info()->tensor_shape()));
     Iterator input2(src1, window.broadcast_if_dimension_le_one(src1->info()->tensor_shape()));
     Iterator output(dst, window);
  
     if (is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
  
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto non_broadcast_input_ptr = reinterpret_cast<const T *>(non_broadcast_input.ptr());
                 const auto output_ptr              = reinterpret_cast<T *>(output.ptr());
  
                 const T    broadcast_value     = *reinterpret_cast<const T *>(broadcast_input.ptr());
                 const auto broadcast_value_vec = wrapper::vdup_n(broadcast_value, ExactTagType{});
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const auto non_broadcast_v = wrapper::vloadq(non_broadcast_input_ptr + x);
                     auto       res             = is_sat ? wrapper::vqsub(broadcast_value_vec, non_broadcast_v)
                                                         : wrapper::vsub(broadcast_value_vec, non_broadcast_v);
                     if (is_broadcast_input_2)
                     {
                         res = wrapper::vmul(res, wrapper::vdup_n(static_cast<T>(-1), ExactTagType{}));
                     }
                     wrapper::vstore(output_ptr + x, res);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto non_broadcast_v = *(non_broadcast_input_ptr + x);
                     auto       res =
                         is_sat ? wrapper::sub_sat(broadcast_value, non_broadcast_v) : broadcast_value - non_broadcast_v;
                     if (is_broadcast_input_2)
                     {
                         res = static_cast<T>(-1) * res;
                     }
  
                     *(output_ptr + x) = res;
                 }
             },
             broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
  
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
  
         execute_window_loop(
             win,
             [&](const Coordinates &)
             {
                 const auto input1_ptr = reinterpret_cast<const T *>(input1.ptr());
                 const auto input2_ptr = reinterpret_cast<const T *>(input2.ptr());
                 const auto output_ptr = reinterpret_cast<T *>(output.ptr());
  
                 // Compute S elements per iteration
                 int x = window_start_x;
                 for (; x <= (window_end_x - window_step_x); x += window_step_x)
                 {
                     const auto val1 = wrapper::vloadq(input1_ptr + x);
                     const auto val2 = wrapper::vloadq(input2_ptr + x);
                     const auto res  = is_sat ? wrapper::vqsub(val1, val2) : wrapper::vsub(val1, val2);
                     wrapper::vstore(output_ptr + x, res);
                 }
  
                 // Compute left-over elements
                 for (; x < window_end_x; ++x)
                 {
                     const auto val1   = *(input1_ptr + x);
                     const auto val2   = *(input2_ptr + x);
                     *(output_ptr + x) = is_sat ? wrapper::sub_sat(val1, val2) : val1 - val2;
                 }
             },
             input1, input2, output);
     }
 }

References Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), arm_compute::SATURATE, Window::set(), Window::Dimension::start(), Window::Dimension::step(), arm_compute::wrapper::sub_sat(), ITensorInfo::tensor_shape(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmul(), arm_compute::wrapper::vqsub(), arm_compute::wrapper::vstore(), arm_compute::wrapper::vsub(), Dimensions< T >::x(), and Window::x().

◆ sub_same_neon_fp16()

void arm_compute::cpu::sub_same_neon_fp16	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

◆ sve2_q8_activation_lut()

void arm_compute::cpu::sve2_q8_activation_lut	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ sve2_q8_elementwise_unary()

void sve2_q8_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

Definition at line 33 of file q8.cpp.

 {
     ARM_COMPUTE_UNUSED(op);
  
     auto       win          = window;
     const auto window_end_x = window.x().end();
     win.set(0, Window::Dimension(0, 1, 1));
  
     Iterator src_it(in, win);
     Iterator dst_it(out, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             const auto src_ptr = src_it.ptr();
             auto       dst_ptr = dst_it.ptr();
  
             lut_u8_sve2(lut, 1, window_end_x, &src_ptr, &dst_ptr);
         },
         src_it, dst_it);
 }

References ARM_COMPUTE_UNUSED, Window::Dimension::end(), arm_compute::execute_window_loop(), Iterator::ptr(), and Window::x().

◆ sve2_qasymm8_activation()

void sve2_qasymm8_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 40 of file qasymm8.cpp.

 {
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
  
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
  
     const UniformQuantizationInfo qi_in    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out   = dst->info()->quantization_info().uniform();
     const auto                    va       = svdup_n_u8(quantize_qasymm8(act_info.a(), qi_in));
     const auto                    vb       = svdup_n_u8(quantize_qasymm8(act_info.b(), qi_in));
     const auto                    const_0  = quantize_qasymm8(0.f, qi_in);
     const auto                    vconst_0 = svdup_n_u8(const_0);
     const auto                    vconst_1 = svdup_n_f32(1.f);
     const auto                    va_f32   = svdup_n_f32(act_info.a());
     const auto                    vb_f32   = svdup_n_f32(act_info.b());
  
     // Initialise scale/offset for re-quantization
     bool requant = true;
     if (qi_in.scale == qi_out.scale && qi_in.offset == qi_out.offset)
     {
         requant = false;
     }
     float s  = qi_in.scale / qi_out.scale;
     float o  = -qi_in.offset * s + qi_out.offset;
     auto  vs = svdup_n_f32(s);
     auto  vo = svdup_n_f32(o);
  
     // Initialise scale/offset for re-quantization with int32_t
     const auto voffset_in = svdup_n_s32(qi_in.offset);
     int32_t    s_s32      = round(s * (1 << 8), arm_compute::RoundingPolicy::TO_NEAREST_EVEN);
     int32_t    o_s32      = round(o * (1 << 8), arm_compute::RoundingPolicy::TO_NEAREST_EVEN);
     const auto vs_s32     = svdup_n_s32(s_s32);
     const auto vo_s32     = svdup_n_s32(o_s32);
  
     // Initialise scale/offset for re-quantization for leaky relu
     int32_t    s_leaky_s32  = round(s * act_info.a() * (1 << 8), arm_compute::RoundingPolicy::TO_NEAREST_EVEN);
     int32_t    o_leaky_s32  = round((-qi_in.offset * s * act_info.a() + qi_out.offset) * (1 << 8),
                                     arm_compute::RoundingPolicy::TO_NEAREST_EVEN);
     const auto vs_leaky_s32 = svdup_n_s32(s_leaky_s32);
     const auto vo_leaky_s32 = svdup_n_s32(o_leaky_s32);
  
     execute_window_loop(
         win_collapsed,
         [&](const Coordinates &)
         {
             const auto input_ptr  = reinterpret_cast<const uint8_t *>(input.ptr());
             const auto output_ptr = reinterpret_cast<uint8_t *>(output.ptr());
  
             svuint8_t tmp;
  
             int      x  = window_start_x;
             svbool_t pg = svwhilelt_b8(x, window_end_x);
             do
             {
                 const auto vin = svld1_u8(pg, input_ptr + x);
                 if (act == ActivationLayerInfo::ActivationFunction::RELU)
                 {
                     // Perform activation
                     tmp = svmax_u8_z(pg, vconst_0, vin);
                     // Re-quantize to new output space
                     tmp = requant ? svmla_qasymm8_z(pg, tmp, vs, vo) : tmp;
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
                 {
                     // Perform activation
                     tmp = svmin_u8_z(pg, va, svmax_u8_z(pg, vconst_0, vin));
                     // Re-quantize to new output space
                     tmp = requant ? svmla_qasymm8_z(pg, tmp, vs, vo) : tmp;
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
                 {
                     // Perform activation
                     tmp = svmin_u8_z(pg, va, svmax_u8_z(pg, vb, vin));
                     // Re-quantize to new output space
                     tmp = svmla_qasymm8_z(pg, tmp, vs, vo);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
                 {
                     // De-quantize
                     const auto vin_deq = svdequantize_z(pg, vin, qi_in);
                     // Perform activation
                     const svfloat32x4_t tmp_dep = svcreate4_f32(
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget4_f32(vin_deq, 0))))),
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget4_f32(vin_deq, 1))))),
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget4_f32(vin_deq, 2))))),
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget4_f32(vin_deq, 3))))));
  
                     // Re-quantize to new output space
                     tmp = svquantize_z(pg, tmp_dep, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::TANH)
                 {
                     // De-quantize
                     const auto vin_deq = svdequantize_z(pg, vin, qi_in);
                     // Perform activation
                     const svfloat32x4_t tmp_dep = svcreate4_f32(
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget4_f32(vin_deq, 0), vb_f32))),
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget4_f32(vin_deq, 1), vb_f32))),
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget4_f32(vin_deq, 2), vb_f32))),
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget4_f32(vin_deq, 3), vb_f32))));
  
                     // Re-quantize to new output space
                     tmp = svquantize_z(pg, tmp_dep, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
                 {
                     svbool_t    p0, p1, p2, p3;
                     svint32x4_t tmp_dep;
  
                     // Expand to int32
                     const svint32x4_t vin_s32 = svcreate4_s32(svreinterpret_s32_u32(svmovlb_u32(svmovlb_u16(vin))),
                                                               svreinterpret_s32_u32(svmovlt_u32(svmovlb_u16(vin))),
                                                               svreinterpret_s32_u32(svmovlb_u32(svmovlt_u16(vin))),
                                                               svreinterpret_s32_u32(svmovlt_u32(svmovlt_u16(vin))));
  
                     // Compare elements to input offset
                     if (qi_in.scale >= 0)
                     {
                         p0 = svcmplt_s32(pg, svget4_s32(vin_s32, 0), voffset_in);
                         p1 = svcmplt_s32(pg, svget4_s32(vin_s32, 1), voffset_in);
                         p2 = svcmplt_s32(pg, svget4_s32(vin_s32, 2), voffset_in);
                         p3 = svcmplt_s32(pg, svget4_s32(vin_s32, 3), voffset_in);
                     }
                     else
                     {
                         p0 = svcmpgt_s32(pg, svget4_s32(vin_s32, 0), voffset_in);
                         p1 = svcmpgt_s32(pg, svget4_s32(vin_s32, 1), voffset_in);
                         p2 = svcmpgt_s32(pg, svget4_s32(vin_s32, 2), voffset_in);
                         p3 = svcmpgt_s32(pg, svget4_s32(vin_s32, 3), voffset_in);
                     }
  
                     // Multiply negative elements and requantize if necessary
                     if (requant)
                     {
                         tmp_dep = svcreate4_s32(
                             svasr_n_s32_m(pg,
                                           svmla_s32_m(pg, svsel(p0, vo_leaky_s32, vo_s32), svget4_s32(vin_s32, 0),
                                                       svsel(p0, vs_leaky_s32, vs_s32)),
                                           8),
                             svasr_n_s32_m(pg,
                                           svmla_s32_m(pg, svsel(p1, vo_leaky_s32, vo_s32), svget4_s32(vin_s32, 1),
                                                       svsel(p1, vs_leaky_s32, vs_s32)),
                                           8),
                             svasr_n_s32_m(pg,
                                           svmla_s32_m(pg, svsel(p2, vo_leaky_s32, vo_s32), svget4_s32(vin_s32, 2),
                                                       svsel(p2, vs_leaky_s32, vs_s32)),
                                           8),
                             svasr_n_s32_m(pg,
                                           svmla_s32_m(pg, svsel(p3, vo_leaky_s32, vo_s32), svget4_s32(vin_s32, 3),
                                                       svsel(p3, vs_leaky_s32, vs_s32)),
                                           8));
                     }
                     else
                     {
                         tmp_dep = svcreate4_s32(
                             svasr_n_s32_m(p0, svmad_s32_m(p0, svget4_s32(vin_s32, 0), vs_leaky_s32, vo_leaky_s32), 8),
                             svasr_n_s32_m(p1, svmad_s32_m(p1, svget4_s32(vin_s32, 1), vs_leaky_s32, vo_leaky_s32), 8),
                             svasr_n_s32_m(p2, svmad_s32_m(p2, svget4_s32(vin_s32, 2), vs_leaky_s32, vo_leaky_s32), 8),
                             svasr_n_s32_m(p3, svmad_s32_m(p3, svget4_s32(vin_s32, 3), vs_leaky_s32, vo_leaky_s32), 8));
                     }
  
                     // Convert uint32 vectors to uint16 vectors (with saturation)
                     const auto v_low_u16  = svqxtunt_s32(svqxtunb_s32(svget4_s32(tmp_dep, 0)), svget4_s32(tmp_dep, 1));
                     const auto v_high_u16 = svqxtunt_s32(svqxtunb_s32(svget4_s32(tmp_dep, 2)), svget4_s32(tmp_dep, 3));
  
                     // convert uint16 vectors to uint8 vectors (with saturation)
                     tmp = svqxtnt_u16(svqxtnb_u16(v_low_u16), v_high_u16);
                 }
                 else
                 {
                     ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
  
                 svst1_u8(pg, output_ptr + x, tmp);
  
                 x += svcntb();
                 pg = svwhilelt_b8(x, window_end_x);
  
             } while (svptest_any(svptrue_b8(), pg));
         },
         input, output);
 }

References arm_compute::test::validation::act_info, ARM_COMPUTE_ERROR, Window::collapse_if_possible(), Window::DimX, Window::DimZ, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::input, UniformQuantizationInfo::offset, Iterator::ptr(), arm_compute::quantize_qasymm8(), arm_compute::round(), UniformQuantizationInfo::scale, Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), arm_compute::TO_NEAREST_EVEN, and Window::x().

◆ sve2_qasymm8_comparison_elementwise_binary()

void sve2_qasymm8_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 72 of file qasymm8.cpp.

 {
     return elementwise_comparison_quantized_op<uint8_t>(in1, in2, out, op, window);
 }

◆ sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::sve2_qasymm8_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_elementwise_binary()

void sve2_qasymm8_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 33 of file qasymm8.cpp.

 {
     return elementwise_arithmetic_quantized_op<uint8_t>(in1, in2, out, op, window);
 }

◆ sve2_qasymm8_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::sve2_qasymm8_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::sve2_qasymm8_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::sve2_qasymm8_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::sve2_qasymm8_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::sve2_qasymm8_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::sve2_qasymm8_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::sve2_qasymm8_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::sve2_qasymm8_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_activation()

void sve2_qasymm8_signed_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 40 of file qasymm8_signed.cpp.

 {
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
  
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
  
     const UniformQuantizationInfo qi_in           = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out          = dst->info()->quantization_info().uniform();
     const auto                    va              = svdup_n_s8(quantize_qasymm8_signed(act_info.a(), qi_in));
     const auto                    vb              = svdup_n_s8(quantize_qasymm8_signed(act_info.b(), qi_in));
     const auto                    const_0         = quantize_qasymm8_signed(0.f, qi_in);
     const auto                    vconst_0        = svdup_n_s8(const_0);
     const auto                    vconst_1        = svdup_n_f32(1.f);
     const auto                    va_f32          = svdup_n_f32(act_info.a());
     const auto                    vb_f32          = svdup_n_f32(act_info.b());
     const auto                    const_6_f32     = svdup_n_f32(6.f);
     const auto                    const_0_f32     = svdup_n_f32(0.f);
     const auto                    const_3_f32     = svdup_n_f32(3.f);
     const auto                    const_inv_6_f32 = svdup_n_f32(0.166666667f);
  
     // Initialise scale/offset for re-quantization
     bool requant = true;
     if (qi_in.scale == qi_out.scale && qi_in.offset == qi_out.offset)
     {
         requant = false;
     }
     float s  = qi_in.scale / qi_out.scale;
     float o  = -qi_in.offset * s + qi_out.offset;
     auto  vs = svdup_n_f32(s);
     auto  vo = svdup_n_f32(o);
  
     // Initialise scale/offset for re-quantization with int32_t
     const auto voffset_in = svdup_n_s32(qi_in.offset);
     int32_t    s_s32      = round(s * (1 << 8), arm_compute::RoundingPolicy::TO_NEAREST_EVEN);
     int32_t    o_s32      = round(o * (1 << 8), arm_compute::RoundingPolicy::TO_NEAREST_EVEN);
     const auto vs_s32     = svdup_n_s32(s_s32);
     const auto vo_s32     = svdup_n_s32(o_s32);
  
     // Initialise scale/offset for re-quantization for leaky relu
     int32_t    s_leaky_s32  = round(s * act_info.a() * (1 << 8), arm_compute::RoundingPolicy::TO_NEAREST_EVEN);
     int32_t    o_leaky_s32  = round((-qi_in.offset * s * act_info.a() + qi_out.offset) * (1 << 8),
                                     arm_compute::RoundingPolicy::TO_NEAREST_EVEN);
     const auto vs_leaky_s32 = svdup_n_s32(s_leaky_s32);
     const auto vo_leaky_s32 = svdup_n_s32(o_leaky_s32);
  
     execute_window_loop(
         win_collapsed,
         [&](const Coordinates &)
         {
             const auto input_ptr  = reinterpret_cast<const int8_t *>(input.ptr());
             const auto output_ptr = reinterpret_cast<int8_t *>(output.ptr());
  
             svint8_t tmp;
  
             int      x  = window_start_x;
             svbool_t pg = svwhilelt_b8(x, window_end_x);
             do
             {
                 const auto vin = svld1_s8(pg, input_ptr + x);
                 if (act == ActivationLayerInfo::ActivationFunction::RELU)
                 {
                     // Perform activation
                     tmp = svmax_s8_z(pg, vconst_0, vin);
                     // Re-quantize to new output space
                     tmp = requant ? svmla_qasymm8_signed_z(pg, tmp, vs, vo) : tmp;
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
                 {
                     // Perform activation
                     tmp = svmin_s8_z(pg, va, svmax_s8_z(pg, vconst_0, vin));
                     // Re-quantize to new output space
                     tmp = requant ? svmla_qasymm8_signed_z(pg, tmp, vs, vo) : tmp;
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
                 {
                     // Perform activation
                     tmp = svmin_s8_z(pg, va, svmax_s8_z(pg, vb, vin));
                     // Re-quantize to new output space
                     tmp = requant ? svmla_qasymm8_signed_z(pg, tmp, vs, vo) : tmp;
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
                 {
                     // De-quantize
                     const auto vin_deq = svdequantize_z(pg, vin, qi_in);
                     // Perform activation
                     const svfloat32x4_t tmp_dep = svcreate4_f32(
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget4_f32(vin_deq, 0))))),
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget4_f32(vin_deq, 1))))),
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget4_f32(vin_deq, 2))))),
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget4_f32(vin_deq, 3))))));
                     // Re-quantize to new output space
                     tmp = svquantize_signed_z(pg, tmp_dep, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::TANH)
                 {
                     // De-quantize
                     const auto vin_deq = svdequantize_z(pg, vin, qi_in);
                     // Perform activation
                     const svfloat32x4_t tmp_dep = svcreate4_f32(
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget4_f32(vin_deq, 0), vb_f32))),
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget4_f32(vin_deq, 1), vb_f32))),
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget4_f32(vin_deq, 2), vb_f32))),
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget4_f32(vin_deq, 3), vb_f32))));
                     // Re-quantize to new output space
                     tmp = svquantize_signed_z(pg, tmp_dep, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::HARD_SWISH)
                 {
                     // De-quantize
                     const auto vin_deq = svdequantize_z(pg, vin, qi_in);
                     // Perform activation
                     const svfloat32x4_t tmp_dep = svcreate4_f32(
                         svmul_f32_z(pg, svget4_f32(vin_deq, 0),
                                     svmul_f32_z(pg, const_inv_6_f32,
                                                 svmin_f32_z(pg, const_6_f32,
                                                             svmax_f32_z(pg, const_0_f32,
                                                                         svadd_f32_z(pg, svget4_f32(vin_deq, 0),
                                                                                     const_3_f32))))),
                         svmul_f32_z(pg, svget4_f32(vin_deq, 1),
                                     svmul_f32_z(pg, const_inv_6_f32,
                                                 svmin_f32_z(pg, const_6_f32,
                                                             svmax_f32_z(pg, const_0_f32,
                                                                         svadd_f32_z(pg, svget4_f32(vin_deq, 1),
                                                                                     const_3_f32))))),
                         svmul_f32_z(pg, svget4_f32(vin_deq, 2),
                                     svmul_f32_z(pg, const_inv_6_f32,
                                                 svmin_f32_z(pg, const_6_f32,
                                                             svmax_f32_z(pg, const_0_f32,
                                                                         svadd_f32_z(pg, svget4_f32(vin_deq, 2),
                                                                                     const_3_f32))))),
                         svmul_f32_z(pg, svget4_f32(vin_deq, 3),
                                     svmul_f32_z(pg, const_inv_6_f32,
                                                 svmin_f32_z(pg, const_6_f32,
                                                             svmax_f32_z(pg, const_0_f32,
                                                                         svadd_f32_z(pg, svget4_f32(vin_deq, 3),
                                                                                     const_3_f32))))));
                     // Re-quantize to new output space
                     tmp = svquantize_signed_z(pg, tmp_dep, qi_out);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
                 {
                     svbool_t    p0, p1, p2, p3;
                     svint32x4_t tmp_dep;
  
                     // Expand to int32
                     const svint32x4_t vin_s32 =
                         svcreate4_s32(svmovlb_s32(svmovlb_s16(vin)), svmovlt_s32(svmovlb_s16(vin)),
                                       svmovlb_s32(svmovlt_s16(vin)), svmovlt_s32(svmovlt_s16(vin)));
  
                     // Compare elements to input offset
                     if (qi_in.scale >= 0)
                     {
                         p0 = svcmplt_s32(pg, svget4_s32(vin_s32, 0), voffset_in);
                         p1 = svcmplt_s32(pg, svget4_s32(vin_s32, 1), voffset_in);
                         p2 = svcmplt_s32(pg, svget4_s32(vin_s32, 2), voffset_in);
                         p3 = svcmplt_s32(pg, svget4_s32(vin_s32, 3), voffset_in);
                     }
                     else
                     {
                         p0 = svcmpgt_s32(pg, svget4_s32(vin_s32, 0), voffset_in);
                         p1 = svcmpgt_s32(pg, svget4_s32(vin_s32, 1), voffset_in);
                         p2 = svcmpgt_s32(pg, svget4_s32(vin_s32, 2), voffset_in);
                         p3 = svcmpgt_s32(pg, svget4_s32(vin_s32, 3), voffset_in);
                     }
  
                     // Multiply negative elements and requantize if necessary
                     if (requant)
                     {
                         tmp_dep = svcreate4_s32(
                             svasr_n_s32_m(pg,
                                           svmla_s32_m(pg, svsel(p0, vo_leaky_s32, vo_s32), svget4_s32(vin_s32, 0),
                                                       svsel(p0, vs_leaky_s32, vs_s32)),
                                           8),
                             svasr_n_s32_m(pg,
                                           svmla_s32_m(pg, svsel(p1, vo_leaky_s32, vo_s32), svget4_s32(vin_s32, 1),
                                                       svsel(p1, vs_leaky_s32, vs_s32)),
                                           8),
                             svasr_n_s32_m(pg,
                                           svmla_s32_m(pg, svsel(p2, vo_leaky_s32, vo_s32), svget4_s32(vin_s32, 2),
                                                       svsel(p2, vs_leaky_s32, vs_s32)),
                                           8),
                             svasr_n_s32_m(pg,
                                           svmla_s32_m(pg, svsel(p3, vo_leaky_s32, vo_s32), svget4_s32(vin_s32, 3),
                                                       svsel(p3, vs_leaky_s32, vs_s32)),
                                           8));
                     }
                     else
                     {
                         tmp_dep = svcreate4_s32(
                             svasr_n_s32_m(p0, svmad_s32_m(p0, svget4_s32(vin_s32, 0), vs_leaky_s32, vo_leaky_s32), 8),
                             svasr_n_s32_m(p1, svmad_s32_m(p1, svget4_s32(vin_s32, 1), vs_leaky_s32, vo_leaky_s32), 8),
                             svasr_n_s32_m(p2, svmad_s32_m(p2, svget4_s32(vin_s32, 2), vs_leaky_s32, vo_leaky_s32), 8),
                             svasr_n_s32_m(p3, svmad_s32_m(p3, svget4_s32(vin_s32, 3), vs_leaky_s32, vo_leaky_s32), 8));
                     }
  
                     // Convert uint32 vectors to uint16 vectors (with saturation)
                     const auto v_low_s16  = svqxtnt_s32(svqxtnb_s32(svget4_s32(tmp_dep, 0)), svget4_s32(tmp_dep, 1));
                     const auto v_high_s16 = svqxtnt_s32(svqxtnb_s32(svget4_s32(tmp_dep, 2)), svget4_s32(tmp_dep, 3));
  
                     // convert uint16 vectors to uint8 vectors (with saturation)
                     tmp = svqxtnt_s16(svqxtnb_s16(v_low_s16), v_high_s16);
                 }
                 else
                 {
                     ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
  
                 svst1_s8(pg, output_ptr + x, tmp);
  
                 x += svcntb();
                 pg = svwhilelt_b8(x, window_end_x);
  
             } while (svptest_any(svptrue_b8(), pg));
         },
         input, output);
 }

References arm_compute::test::validation::act_info, ARM_COMPUTE_ERROR, Window::collapse_if_possible(), Window::DimX, Window::DimZ, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::input, UniformQuantizationInfo::offset, Iterator::ptr(), arm_compute::quantize_qasymm8_signed(), arm_compute::round(), UniformQuantizationInfo::scale, Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), arm_compute::TO_NEAREST_EVEN, and Window::x().

◆ sve2_qasymm8_signed_comparison_elementwise_binary()

void sve2_qasymm8_signed_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 72 of file qasymm8_signed.cpp.

 {
     return elementwise_comparison_quantized_op<int8_t>(in1, in2, out, op, window);
 }

◆ sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::sve2_qasymm8_signed_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_elementwise_binary()

void sve2_qasymm8_signed_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 33 of file qasymm8_signed.cpp.

 {
     return elementwise_arithmetic_quantized_op<int8_t>(in1, in2, out, op, window);
 }

◆ sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::sve2_qasymm8_signed_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve2_qsymm16_activation()

void sve2_qsymm16_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 41 of file qsymm16.cpp.

 {
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
  
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
  
     const UniformQuantizationInfo qi_in    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out   = dst->info()->quantization_info().uniform();
     const auto                    vconst_1 = svdup_n_f32(1.f);
     const auto                    va_f32   = svdup_n_f32(act_info.a());
     const auto                    vb_f32   = svdup_n_f32(act_info.b());
  
     execute_window_loop(
         win_collapsed,
         [&](const Coordinates &)
         {
             const auto input_ptr  = reinterpret_cast<const int16_t *>(input.ptr());
             const auto output_ptr = reinterpret_cast<int16_t *>(output.ptr());
  
             svint16_t tmp;
  
             int      x  = window_start_x;
             svbool_t pg = svwhilelt_b16(x, window_end_x);
             do
             {
                 const auto vin = svld1_s16(pg, input_ptr + x);
                 if (act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
                 {
                     // De-quantize
                     auto vin_deq = svdequantize_qsymm16_z(pg, vin, qi_in.scale);
                     // Perform activation
                     const svfloat32x2_t tmp_dep = svcreate2_f32(
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget2_f32(vin_deq, 0))))),
                         svdiv_f32_z(
                             pg, vconst_1,
                             svadd_f32_z(pg, vconst_1, svexp_f32_z(pg, svneg_f32_z(pg, svget2_f32(vin_deq, 1))))));
                     // Re-quantize to new output space
                     tmp = svquantize_qsymm16_z(pg, tmp_dep, qi_out.scale);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::TANH)
                 {
                     // De-quantize
                     auto vin_deq = svdequantize_qsymm16_z(pg, vin, qi_in.scale);
                     // Perform activation
                     const svfloat32x2_t tmp_dep = svcreate2_f32(
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget2_f32(vin_deq, 0), vb_f32))),
                         svmul_f32_z(pg, va_f32, svtanh_f32_z(pg, svmul_f32_z(pg, svget2_f32(vin_deq, 1), vb_f32))));
                     // Re-quantize to new output space
                     tmp = svquantize_qsymm16_z(pg, tmp_dep, qi_out.scale);
                 }
                 else if (act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
                 {
                     // De-quantize
                     auto vin_deq = svdequantize_qsymm16_z(pg, vin, qi_in.scale);
                     // Perform activation
                     const svfloat32x2_t tmp_dep =
                         svcreate2_f32(svmin_f32_z(pg, va_f32, svmax_f32_z(pg, vb_f32, svget2_f32(vin_deq, 0))),
                                       svmin_f32_z(pg, va_f32, svmax_f32_z(pg, vb_f32, svget2_f32(vin_deq, 1))));
                     // Re-quantize to new output space
                     tmp = svquantize_qsymm16_z(pg, tmp_dep, qi_out.scale);
                 }
                 else
                 {
                     ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
  
                 svst1_s16(pg, output_ptr + x, tmp);
  
                 x += svcnth();
                 pg = svwhilelt_b16(x, window_end_x);
  
             } while (svptest_any(svptrue_b16(), pg));
         },
         input, output);
 }

References arm_compute::test::validation::act_info, ARM_COMPUTE_ERROR, Window::collapse_if_possible(), Window::DimX, Window::DimZ, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::input, Iterator::ptr(), UniformQuantizationInfo::scale, Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), and Window::x().

◆ sve2_softmax_logits_1d_quantized()

void sve2_softmax_logits_1d_quantized	(	const ITensor *	in,
		const ITensor *	max,
		void *const	tmp,
		ITensor *	out,
		float	beta,
		bool	is_log,
		const Window &	window
	)

TODO: (COMPMID-6505) Similar to Neon(TM), this implementation be converted to a single kernel that performs softmax operation.

Leaving the SVE2 code here for future references. Implementation for Neon(TM) is introduced in COMPMID-6500

Definition at line 39 of file impl.cpp.

 {
     const int start_x     = in->info()->valid_region().anchor.x();
     const int input_width = in->info()->valid_region().shape.x();
  
     const float scale_beta     = -beta * in->info()->quantization_info().uniform().scale;
     const auto  scale_beta_vec = svdup_n_f32(scale_beta);
  
     Iterator   in_it(in, window);
     Iterator   max_it(max, window);
     Iterator   out_it(out, window);
     const auto all_true_pg = wrapper::svptrue<ScalarType>();
     using SVEType          = typename wrapper::traits::sve_vector<ScalarType>::type;
  
     const int inc_1 = static_cast<int>(svcntw());
     const int inc_2 = static_cast<int>(2 * svcntw());
     const int inc_3 = static_cast<int>(3 * svcntw());
  
     execute_window_loop(
         window,
         [&](const Coordinates &)
         {
             /* Get pointers */
             const auto in_ptr  = reinterpret_cast<const ScalarType *>(in_it.ptr()) + start_x;
             const auto out_ptr = reinterpret_cast<ScalarType *>(out_it.ptr()) + start_x;
             const auto tmp_ptr = reinterpret_cast<float *>(tmp);
  
             float sum{};
  
             /* Compute exponentials and sum */
             {
                 /* Get max value */
                 const auto max_val = *reinterpret_cast<const ScalarType *>(max_it.ptr());
                 const auto vec_max = wrapper::svdup_n(max_val);
  
                 /* Init sum to zero */
                 auto vec_sum_0 = svdup_n_f32(0.f);
                 auto vec_sum_1 = svdup_n_f32(0.f);
                 auto vec_sum_2 = svdup_n_f32(0.f);
                 auto vec_sum_3 = svdup_n_f32(0.f);
  
                 /* Loop over row and compute exponentials and sum */
                 int      x    = 0;
                 svbool_t pg   = wrapper::svwhilelt<ScalarType>(x, input_width);
                 svbool_t pg_0 = svunpklo(svunpklo(pg));
                 svbool_t pg_1 = svunpkhi(svunpklo(pg));
                 svbool_t pg_2 = svunpklo(svunpkhi(pg));
                 svbool_t pg_3 = svunpkhi(svunpkhi(pg));
                 do
                 {
                     const auto vec_elements     = svld1(pg, in_ptr + x);
                     const auto vec_elements_sub = svreinterpret_u8(svsub_z(pg, vec_max, vec_elements));
  
                     auto vec_elements_flt_0 = svcvt_f32_z(pg_0, svunpklo(svunpklo(vec_elements_sub)));
                     auto vec_elements_flt_1 = svcvt_f32_z(pg_1, svunpkhi(svunpklo(vec_elements_sub)));
                     auto vec_elements_flt_2 = svcvt_f32_z(pg_2, svunpklo(svunpkhi(vec_elements_sub)));
                     auto vec_elements_flt_3 = svcvt_f32_z(pg_3, svunpkhi(svunpkhi(vec_elements_sub)));
  
                     if (is_log)
                     {
                         vec_elements_flt_0 = svmul_f32_z(pg_0, vec_elements_flt_0, scale_beta_vec);
                         vec_elements_flt_1 = svmul_f32_z(pg_1, vec_elements_flt_1, scale_beta_vec);
                         vec_elements_flt_2 = svmul_f32_z(pg_2, vec_elements_flt_2, scale_beta_vec);
                         vec_elements_flt_3 = svmul_f32_z(pg_3, vec_elements_flt_3, scale_beta_vec);
                         vec_sum_0          = svadd_f32_m(pg_0, vec_sum_0, svexp_f32_z(pg_0, vec_elements_flt_0));
                         vec_sum_1          = svadd_f32_m(pg_1, vec_sum_1, svexp_f32_z(pg_1, vec_elements_flt_1));
                         vec_sum_2          = svadd_f32_m(pg_2, vec_sum_2, svexp_f32_z(pg_2, vec_elements_flt_2));
                         vec_sum_3          = svadd_f32_m(pg_3, vec_sum_3, svexp_f32_z(pg_3, vec_elements_flt_3));
                     }
                     else
                     {
                         vec_elements_flt_0 = svexp_f32_z(pg_0, svmul_f32_z(pg_0, vec_elements_flt_0, scale_beta_vec));
                         vec_elements_flt_1 = svexp_f32_z(pg_1, svmul_f32_z(pg_1, vec_elements_flt_1, scale_beta_vec));
                         vec_elements_flt_2 = svexp_f32_z(pg_2, svmul_f32_z(pg_2, vec_elements_flt_2, scale_beta_vec));
                         vec_elements_flt_3 = svexp_f32_z(pg_3, svmul_f32_z(pg_3, vec_elements_flt_3, scale_beta_vec));
                         vec_sum_0          = svadd_f32_m(pg_0, vec_sum_0, vec_elements_flt_0);
                         vec_sum_1          = svadd_f32_m(pg_1, vec_sum_1, vec_elements_flt_1);
                         vec_sum_2          = svadd_f32_m(pg_2, vec_sum_2, vec_elements_flt_2);
                         vec_sum_3          = svadd_f32_m(pg_3, vec_sum_3, vec_elements_flt_3);
                     }
  
                     svst1_f32(pg_0, tmp_ptr + x, vec_elements_flt_0);
                     svst1_f32(pg_1, tmp_ptr + x + inc_1, vec_elements_flt_1);
                     svst1_f32(pg_2, tmp_ptr + x + inc_2, vec_elements_flt_2);
                     svst1_f32(pg_3, tmp_ptr + x + inc_3, vec_elements_flt_3);
  
                     x += wrapper::svcnt<ScalarType>();
                     pg   = wrapper::svwhilelt<ScalarType>(x, input_width);
                     pg_0 = svunpklo(svunpklo(pg));
                     pg_1 = svunpkhi(svunpklo(pg));
                     pg_2 = svunpklo(svunpkhi(pg));
                     pg_3 = svunpkhi(svunpkhi(pg));
                 } while (svptest_any(all_true_pg, pg));
  
                 /* Reduce sum */
                 const auto vec_sum = svadd_f32_z(all_true_pg, svadd_f32_z(all_true_pg, vec_sum_0, vec_sum_1),
                                                  svadd_f32_z(all_true_pg, vec_sum_2, vec_sum_3));
                 sum                = svaddv_f32(all_true_pg, vec_sum);
  
                 /* Run remaining elements */
                 x = 0;
                 if (is_log)
                 {
                     sum = std::log(sum);
                 }
                 else
                 {
                     sum = 256.f / sum;
                 }
             }
  
             /* Normalize exponentials */
             {
                 constexpr bool is_qasymm8_signed = std::is_same<ScalarType, qasymm8_signed_t>::value;
                 /* Loop over row and compute softmax */
                 int      x    = 0;
                 svbool_t pg   = wrapper::svwhilelt<ScalarType>(x, input_width);
                 svbool_t pg_0 = svunpklo(svunpklo(pg));
                 svbool_t pg_1 = svunpkhi(svunpklo(pg));
                 svbool_t pg_2 = svunpklo(svunpkhi(pg));
                 svbool_t pg_3 = svunpkhi(svunpkhi(pg));
                 do
                 {
                     auto vec_in_0 = svld1_f32(pg_0, tmp_ptr + x);
                     auto vec_in_1 = svld1_f32(pg_1, tmp_ptr + x + inc_1);
                     auto vec_in_2 = svld1_f32(pg_2, tmp_ptr + x + inc_2);
                     auto vec_in_3 = svld1_f32(pg_3, tmp_ptr + x + inc_3);
  
                     svfloat32_t res_0{};
                     svfloat32_t res_1{};
                     svfloat32_t res_2{};
                     svfloat32_t res_3{};
  
                     if (is_log)
                     {
                         res_0 = svsub_f32_z(pg_0, vec_in_0, svdup_n_f32(sum));
                         res_1 = svsub_f32_z(pg_1, vec_in_1, svdup_n_f32(sum));
                         res_2 = svsub_f32_z(pg_2, vec_in_2, svdup_n_f32(sum));
                         res_3 = svsub_f32_z(pg_3, vec_in_3, svdup_n_f32(sum));
                     }
                     else
                     {
                         res_0 = svmul_f32_z(pg_0, vec_in_0, svdup_n_f32(sum));
                         res_1 = svmul_f32_z(pg_1, vec_in_1, svdup_n_f32(sum));
                         res_2 = svmul_f32_z(pg_2, vec_in_2, svdup_n_f32(sum));
                         res_3 = svmul_f32_z(pg_3, vec_in_3, svdup_n_f32(sum));
  
                         if (is_qasymm8_signed)
                         {
                             const auto offset_vec = svdup_n_f32(128.f);
                             res_0                 = svsub_z(pg_0, res_0, offset_vec);
                             res_1                 = svsub_z(pg_1, res_1, offset_vec);
                             res_2                 = svsub_z(pg_2, res_2, offset_vec);
                             res_3                 = svsub_z(pg_3, res_3, offset_vec);
                         }
                     }
  
                     // Store value
                     const auto out = convert_float_to_int<SVEType>(res_0, res_1, res_2, res_3);
                     svst1(pg, out_ptr + x, out);
                     x += wrapper::svcnt<ScalarType>();
                     pg   = wrapper::svwhilelt<ScalarType>(x, input_width);
                     pg_0 = svunpklo(svunpklo(pg));
                     pg_1 = svunpkhi(svunpklo(pg));
                     pg_2 = svunpklo(svunpkhi(pg));
                     pg_3 = svunpkhi(svunpkhi(pg));
                 } while (svptest_any(all_true_pg, pg));
             }
         },
         in_it, max_it, out_it);
 }

References ValidRegion::anchor, arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, ValidRegion::shape, type, QuantizationInfo::uniform(), ITensorInfo::valid_region(), and Dimensions< T >::x().

◆ sve_fp16_activation()

void arm_compute::cpu::sve_fp16_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ sve_fp16_activation_lut()

void arm_compute::cpu::sve_fp16_activation_lut	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ sve_fp16_comparison_elementwise_binary()

void arm_compute::cpu::sve_fp16_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp16_elementwise_binary()

void arm_compute::cpu::sve_fp16_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp16_elementwise_unary()

void arm_compute::cpu::sve_fp16_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

◆ sve_fp32_activation()

void sve_fp32_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 40 of file fp32.cpp.

 {
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
  
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
  
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
  
     const auto const_1          = svdup_n_f32(1.f);
     const auto const_0          = svdup_n_f32(0.f);
     const auto const_6          = svdup_n_f32(6.f);
     const auto const_3          = svdup_n_f32(3.f);
     const auto const_inv_6      = svdup_n_f32(0.166666667f);
     const auto soft_relu_thresh = svdup_n_f32(16.63553047f);
  
     const auto va = svdup_n_f32(act_info.a());
     const auto vb = svdup_n_f32(act_info.b());
     execute_window_loop(
         win_collapsed,
         [&](const Coordinates &)
         {
             const auto input_ptr  = reinterpret_cast<const float *>(input.ptr());
             const auto output_ptr = reinterpret_cast<float *>(output.ptr());
  
             svfloat32_t tmp;
  
             // Compute S elements per iteration
             int      x  = window_start_x;
             svbool_t pg = svwhilelt_b32(x, window_end_x);
             do
             {
                 const auto vin = svld1_f32(pg, input_ptr + x);
                 switch (act)
                 {
                     case ActivationLayerInfo::ActivationFunction::ABS:
                         tmp = svabs_f32_z(pg, vin);
                         break;
                     case ActivationLayerInfo::ActivationFunction::LINEAR:
                         tmp = svmla_f32_z(pg, vb, va, vin);
                         break;
                     case ActivationLayerInfo::ActivationFunction::LOGISTIC:
                         tmp = svinv_f32_z(pg, svadd_f32_z(pg, const_1, svexp_f32_z(pg, svneg_f32_z(pg, vin))));
                         break;
                     case ActivationLayerInfo::ActivationFunction::RELU:
                         tmp = svmax_f32_z(pg, const_0, vin);
                         break;
                     case ActivationLayerInfo::ActivationFunction::BOUNDED_RELU:
                         tmp = svmin_f32_z(pg, va, svmax_f32_z(pg, const_0, vin));
                         break;
                     case ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU:
                         tmp = svmin_f32_z(pg, va, svmax_f32_z(pg, vb, vin));
                         break;
                     case ActivationLayerInfo::ActivationFunction::LEAKY_RELU:
                         tmp = svadd_f32_z(pg, svmul_f32_z(pg, svmin_f32_z(pg, vin, const_0), va),
                                           svmax_f32_z(pg, vin, const_0));
                         break;
                     case ActivationLayerInfo::ActivationFunction::SOFT_RELU:
                         tmp = svsel_f32(svcmpgt_f32(pg, vin, soft_relu_thresh), vin,
                                         svlog_f32_z(pg, svadd_f32_z(pg, const_1, svexp_f32_z(pg, vin))));
                         break;
                     case ActivationLayerInfo::ActivationFunction::ELU:
                         tmp = svsel_f32(svcmpgt_f32(pg, vin, const_0), vin,
                                         svmul_f32_z(pg, va, svsub_f32_z(pg, svexp_f32_z(pg, vin), const_1)));
                         break;
                     case ActivationLayerInfo::ActivationFunction::SQRT:
                         tmp = svsqrt_f32_z(pg, vin);
                         break;
                     case ActivationLayerInfo::ActivationFunction::SQUARE:
                         tmp = svmul_f32_z(pg, vin, vin);
                         break;
                     case ActivationLayerInfo::ActivationFunction::TANH:
                         tmp = svmul_f32_z(pg, va, svtanh_f32_z(pg, svmul_f32_z(pg, vb, vin)));
                         break;
                     case ActivationLayerInfo::ActivationFunction::IDENTITY:
                         tmp = vin;
                         break;
                     case ActivationLayerInfo::ActivationFunction::HARD_SWISH:
                         tmp = svmul_f32_z(
                             pg, vin,
                             svmul_f32_z(
                                 pg, const_inv_6,
                                 svmin_f32_z(pg, const_6, svmax_f32_z(pg, const_0, svadd_f32_z(pg, vin, const_3)))));
                         break;
                     case ActivationLayerInfo::ActivationFunction::SWISH:
                         tmp = svmul_f32_z(
                             pg, vin,
                             svinv_f32_z(pg, svadd_f32_z(pg, const_1,
                                                         svexp_f32_z(pg, svneg_f32_z(pg, svmul_f32_z(pg, va, vin))))));
                         break;
                     default:
                         ARM_COMPUTE_ERROR("Unsupported activation function");
                 }
                 svst1_f32(pg, output_ptr + x, tmp);
  
                 x += svcntw();
                 pg = svwhilelt_b32(x, window_end_x);
  
             } while (svptest_any(svptrue_b32(), pg));
         },
         input, output);
 }

References arm_compute::test::validation::act_info, ARM_COMPUTE_ERROR, Window::collapse_if_possible(), Window::DimX, Window::DimZ, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::input, Iterator::ptr(), Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), and Window::x().

◆ sve_fp32_comparison_elementwise_binary()

void sve_fp32_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 72 of file fp32.cpp.

 {
     return elementwise_comparison_op<float>(in1, in2, out, op, window);
 }

◆ sve_fp32_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::sve_fp32_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::sve_fp32_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::sve_fp32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::sve_fp32_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::sve_fp32_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::sve_fp32_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_elementwise_binary()

void sve_fp32_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 33 of file fp32.cpp.

 {
     return elementwise_arithmetic_op<float32_t>(in1, in2, out, op, window);
 }

References elementwise_arithmetic_op< float32_t >().

◆ sve_fp32_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::sve_fp32_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::sve_fp32_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::sve_fp32_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::sve_fp32_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::sve_fp32_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::sve_fp32_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::sve_fp32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::sve_fp32_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_fp32_elementwise_unary()

void sve_fp32_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

Definition at line 34 of file fp32.cpp.

 {
     ARM_COMPUTE_UNUSED(lut);
     return elementwise_sve_op<float32_t>(in, out, window, op);
 }

References ARM_COMPUTE_UNUSED, and elementwise_sve_op< float32_t >().

◆ sve_logits_1d_max()

void sve_logits_1d_max	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window
	)

TODO: (COMPMID-6505) Similar to Neon(TM), this implementation be converted to a single kernel that performs softmax operation.

Leaving the SVE code here for future references. Implementation for Neon(TM) is introduced in COMPMID-6500

Definition at line 37 of file impl.cpp.

 {
     const auto all_true_pg    = wrapper::svptrue<ScalarType>();
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
  
     Window win{window};
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
     Iterator input(in, win);
     Iterator output(out, win);
  
     execute_window_loop(
         win,
         [&](const Coordinates &)
         {
             // Get pointers
             const auto in_ptr  = reinterpret_cast<const ScalarType *>(input.ptr());
             const auto out_ptr = reinterpret_cast<ScalarType *>(output.ptr());
  
             // Init max value
             auto vec_max = wrapper::svdup_n(support::cpp11::lowest<ScalarType>());
  
             int      x  = window_start_x;
             svbool_t pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
             do
             {
                 const auto current_value = svld1(pg, in_ptr + x);
                 vec_max                  = svmax_m(pg, vec_max, current_value);
  
                 x += wrapper::svcnt<ScalarType>();
                 pg = wrapper::svwhilelt<ScalarType>(x, window_end_x);
             } while (svptest_any(all_true_pg, pg));
  
             auto max_val = svmaxv(all_true_pg, vec_max);
  
             *out_ptr = max_val;
         },
         input, output);
 }

References Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::input, Iterator::ptr(), Window::set(), Window::Dimension::start(), and Window::x().

◆ sve_s16_comparison_elementwise_binary()

void sve_s16_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 139 of file integer.cpp.

 {
     return elementwise_comparison_op<int16_t>(in1, in2, out, op, window);
 }

References elementwise_comparison_op< int16_t >().

◆ sve_s16_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::sve_s16_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::sve_s16_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::sve_s16_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::sve_s16_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::sve_s16_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::sve_s16_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_elementwise_binary()

void sve_s16_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 71 of file integer.cpp.

 {
     return elementwise_arithmetic_op<int16_t>(in1, in2, out, op, window);
 }

References elementwise_arithmetic_op< int16_t >().

◆ sve_s16_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::sve_s16_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::sve_s16_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::sve_s16_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::sve_s16_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::sve_s16_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::sve_s16_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::sve_s16_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s16_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::sve_s16_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_comparison_elementwise_binary()

void sve_s32_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 169 of file integer.cpp.

 {
     return elementwise_comparison_op<int32_t>(in1, in2, out, op, window);
 }

References elementwise_comparison_op< int32_t >().

◆ sve_s32_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::sve_s32_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::sve_s32_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::sve_s32_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::sve_s32_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::sve_s32_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::sve_s32_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_elementwise_binary()

void sve_s32_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 33 of file integer.cpp.

 {
     return elementwise_arithmetic_op<int32_t>(in1, in2, out, op, window);
 }

References elementwise_arithmetic_op< int32_t >().

◆ sve_s32_elementwise_binary< ArithmeticOperation::ADD >()

template void arm_compute::cpu::sve_s32_elementwise_binary< ArithmeticOperation::ADD >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_elementwise_binary< ArithmeticOperation::DIV >()

template void arm_compute::cpu::sve_s32_elementwise_binary< ArithmeticOperation::DIV >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_elementwise_binary< ArithmeticOperation::MAX >()

template void arm_compute::cpu::sve_s32_elementwise_binary< ArithmeticOperation::MAX >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_elementwise_binary< ArithmeticOperation::MIN >()

template void arm_compute::cpu::sve_s32_elementwise_binary< ArithmeticOperation::MIN >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_elementwise_binary< ArithmeticOperation::POWER >()

template void arm_compute::cpu::sve_s32_elementwise_binary< ArithmeticOperation::POWER >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_elementwise_binary< ArithmeticOperation::PRELU >()

template void arm_compute::cpu::sve_s32_elementwise_binary< ArithmeticOperation::PRELU >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >()

template void arm_compute::cpu::sve_s32_elementwise_binary< ArithmeticOperation::SQUARED_DIFF >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_elementwise_binary< ArithmeticOperation::SUB >()

template void arm_compute::cpu::sve_s32_elementwise_binary< ArithmeticOperation::SUB >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_s32_elementwise_unary()

void sve_s32_elementwise_unary	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op,
		const uint8_t *	lut
	)

Definition at line 33 of file integer.cpp.

 {
     ARM_COMPUTE_UNUSED(lut);
     return elementwise_sve_op<int32_t>(in, out, window, op);
 }

References ARM_COMPUTE_UNUSED, and elementwise_sve_op< int32_t >().

◆ sve_softmax_logits_1d_float()

void sve_softmax_logits_1d_float	(	const ITensor *	in,
		const ITensor *	max,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		bool	is_log,
		const Window &	window
	)

Definition at line 78 of file impl.cpp.

 {
     const int start_x     = in->info()->valid_region().anchor.x();
     const int input_width = in->info()->valid_region().shape.x();
  
     Iterator in_it(in, window);
     Iterator max_it(max, window);
     Iterator out_it(out, window);
  
     const auto all_true_pg = wrapper::svptrue<ScalarType>();
  
     execute_window_loop(
         window,
         [&](const Coordinates &)
         {
             /* Get pointers */
             const auto in_ptr  = reinterpret_cast<const ScalarType *>(in_it.ptr()) + start_x;
             const auto out_ptr = reinterpret_cast<ScalarType *>(out_it.ptr()) + start_x;
             const auto tmp_ptr = reinterpret_cast<ScalarType *>(tmp);
  
             ScalarType sum{0};
  
             /* Compute exponentials and sum */
             {
                 /* Get max value */
                 const auto max_val  = *reinterpret_cast<const ScalarType *>(max_it.ptr());
                 const auto vec_max  = wrapper::svdup_n(max_val);
                 const auto vec_beta = wrapper::svdup_n(static_cast<ScalarType>(beta));
  
                 /* Init sum to zero */
                 auto vec_sum = wrapper::svdup_n(static_cast<ScalarType>(0));
  
                 /* Loop over row and compute exponentials and sum */
                 int      x  = 0;
                 svbool_t pg = wrapper::svwhilelt<ScalarType>(x, input_width);
                 do
                 {
                     auto vec_elements = svld1(pg, in_ptr + x);
                     vec_elements      = svmul_z(pg, svsub_z(pg, vec_elements, vec_max), vec_beta);
                     if (!is_log)
                     {
                         vec_elements = wrapper::svexp_z(pg, vec_elements);
                         vec_sum      = svadd_m(pg, vec_sum, vec_elements);
                     }
                     svst1(pg, tmp_ptr + x, vec_elements);
  
                     if (is_log)
                     {
                         vec_sum = svadd_m(pg, vec_sum, wrapper::svexp_z(pg, vec_elements));
                     }
  
                     x += wrapper::svcnt<ScalarType>();
                     pg = wrapper::svwhilelt<ScalarType>(x, input_width);
                 } while (svptest_any(all_true_pg, pg));
  
                 /* Reduce sum */
                 sum = svaddv(all_true_pg, vec_sum);
  
                 if (is_log)
                 {
                     sum = static_cast<ScalarType>(std::log(sum));
                 }
                 else
                 {
                     sum = ScalarType(1) / sum;
                 }
             }
  
             /* Normalize exponentials */
             {
                 /* Loop over row and compute softmax */
                 int      x  = 0;
                 svbool_t pg = wrapper::svwhilelt<ScalarType>(x, input_width);
                 do
                 {
                     auto vec_in           = svld1(pg, tmp_ptr + x);
                     auto normalized_value = wrapper::svdup_n(static_cast<ScalarType>(0));
                     if (is_log)
                     {
                         normalized_value = svsub_z(pg, vec_in, wrapper::svdup_n(static_cast<ScalarType>(sum)));
                     }
                     else
                     {
                         normalized_value = svmul_z(pg, vec_in, wrapper::svdup_n(static_cast<ScalarType>(sum)));
                     }
                     svst1(pg, out_ptr + x, normalized_value);
  
                     x += wrapper::svcnt<ScalarType>();
                     pg = wrapper::svwhilelt<ScalarType>(x, input_width);
                 } while (svptest_any(all_true_pg, pg));
             }
         },
         in_it, max_it, out_it);
 }

References ValidRegion::anchor, arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), ValidRegion::shape, ITensorInfo::valid_region(), and Dimensions< T >::x().

◆ sve_u8_comparison_elementwise_binary()

void sve_u8_comparison_elementwise_binary	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 109 of file integer.cpp.

 {
     return elementwise_comparison_op<uint8_t>(in1, in2, out, op, window);
 }

References elementwise_comparison_op< uint8_t >().

◆ sve_u8_comparison_elementwise_binary< ComparisonOperation::Equal >()

template void arm_compute::cpu::sve_u8_comparison_elementwise_binary< ComparisonOperation::Equal >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_u8_comparison_elementwise_binary< ComparisonOperation::Greater >()

template void arm_compute::cpu::sve_u8_comparison_elementwise_binary< ComparisonOperation::Greater >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_u8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >()

template void arm_compute::cpu::sve_u8_comparison_elementwise_binary< ComparisonOperation::GreaterEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_u8_comparison_elementwise_binary< ComparisonOperation::Less >()

template void arm_compute::cpu::sve_u8_comparison_elementwise_binary< ComparisonOperation::Less >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_u8_comparison_elementwise_binary< ComparisonOperation::LessEqual >()

template void arm_compute::cpu::sve_u8_comparison_elementwise_binary< ComparisonOperation::LessEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ sve_u8_comparison_elementwise_binary< ComparisonOperation::NotEqual >()

template void arm_compute::cpu::sve_u8_comparison_elementwise_binary< ComparisonOperation::NotEqual >	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

◆ u16_in_bounds_crop_window()

void u16_in_bounds_crop_window	(	const ITensor *	input,
		const ITensor *	output,
		float *	output_ptr,
		Coordinates	input_offset,
		int32_t	window_step_x,
		int32_t	output_width_start,
		int32_t	output_width_limit,
		bool	input_has_single_channel,
		bool	is_width_flipped
	)

Definition at line 46 of file integer.cpp.

 {
     return in_bounds_crop_window<uint16_t>(input, output, output_ptr, input_offset, window_step_x, output_width_start,
                                            output_width_limit, input_has_single_channel, is_width_flipped);
 }

References arm_compute::test::validation::input.

◆ u16_neon_range_function()

void u16_neon_range_function	(	ITensor *	output,
		float	start,
		float	step,
		const Window &	window
	)

Definition at line 38 of file integer.cpp.

 {
     return neon_range_function<uint16_t>(output, start, step, window);
 }

References step.

◆ u32_in_bounds_crop_window()

void u32_in_bounds_crop_window	(	const ITensor *	input,
		const ITensor *	output,
		float *	output_ptr,
		Coordinates	input_offset,
		int32_t	window_step_x,
		int32_t	output_width_start,
		int32_t	output_width_limit,
		bool	input_has_single_channel,
		bool	is_width_flipped
	)

Definition at line 60 of file integer.cpp.

 {
     return in_bounds_crop_window<uint32_t>(input, output, output_ptr, input_offset, window_step_x, output_width_start,
                                            output_width_limit, input_has_single_channel, is_width_flipped);
 }

References arm_compute::test::validation::input.

◆ u32_neon_range_function()

void u32_neon_range_function	(	ITensor *	output,
		float	start,
		float	step,
		const Window &	window
	)

Definition at line 43 of file integer.cpp.

 {
     return neon_range_function<uint32_t>(output, start, step, window);
 }

References step.

◆ u8_in_bounds_crop_window()

void u8_in_bounds_crop_window	(	const ITensor *	input,
		const ITensor *	output,
		float *	output_ptr,
		Coordinates	input_offset,
		int32_t	window_step_x,
		int32_t	output_width_start,
		int32_t	output_width_limit,
		bool	input_has_single_channel,
		bool	is_width_flipped
	)

Definition at line 32 of file integer.cpp.

 {
     return in_bounds_crop_window<uint8_t>(input, output, output_ptr, input_offset, window_step_x, output_width_start,
                                           output_width_limit, input_has_single_channel, is_width_flipped);
 }

References arm_compute::test::validation::input.

◆ u8_neon_range_function()

void u8_neon_range_function	(	ITensor *	output,
		float	start,
		float	step,
		const Window &	window
	)

Definition at line 33 of file integer.cpp.

 {
     return neon_range_function<uint8_t>(output, start, step, window);
 }

References step.

◆ u8_neon_scale()

void u8_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 737 of file integer.cpp.

 {
     if (policy == InterpolationPolicy::BILINEAR)
     {
         u8_neon_scale_bilinear(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset,
                                align_corners, window);
     }
     else if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         u8_neon_scale_nearest(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

Referenced by qasymm8_neon_scale().

◆ u8_sve_scale()

void u8_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 149 of file integer.cpp.

 {
     ARM_COMPUTE_UNUSED(dx, dy, border_mode, constant_border_value);
     if (policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         u8_sve_scale_nearest(src, dst, offsets, sampling_offset, align_corners, window);
     }
     else
     {
         ARM_COMPUTE_ERROR("Not Implemented");
     }
 }

References ARM_COMPUTE_ERROR, ARM_COMPUTE_UNUSED, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ vector_float_norm()

InputType vector_float_norm	(	const InputType &	inputs,
		const AccType &	vec_mean,
		const AccType &	vec_multip,
		const AccType &	vec_beta
	)

Definition at line 43 of file impl.cpp.

 {
     return wrapper::vadd(wrapper::vmul(wrapper::vsub(inputs, vec_mean), vec_multip), vec_beta);
 }

References arm_compute::wrapper::vadd(), arm_compute::wrapper::vmul(), and arm_compute::wrapper::vsub().

Referenced by instance_normalization_nchw().

◆ vector_float_sum()

void vector_float_sum	(	AccType &	result,
		AccType &	result_square,
		const InputType &	inputs
	)

Definition at line 35 of file impl.cpp.

 {
     result        = wrapper::vadd(result, inputs);
     result_square = wrapper::vadd(result_square, wrapper::vmul(inputs, inputs));
 }

References arm_compute::wrapper::vadd(), and arm_compute::wrapper::vmul().

Referenced by instance_normalization_nchw().

◆ vector_matrix_multiply_f32()

void vector_matrix_multiply_f32	(	const ITensor *	lhs,
		const ITensor *	rhs,
		ITensor *	dst,
		const Window &	window,
		const ThreadInfo &	info,
		float	alpha
	)

Definition at line 35 of file impl.cpp.

 {
     const auto width_matrix_b = static_cast<int>(dst->info()->dimension(0));
     const auto in_b_stride =
         static_cast<int>(rhs->info()->strides_in_bytes()[1] / data_size_from_type(rhs->info()->data_type()));
     const auto num_elems_vec_a = static_cast<int>(lhs->info()->dimension(0));
  
     // The implementation computes 16 elements per iteration
     const int window_start_x = 16 * info.thread_id;
     const int window_step_x  = 16 * info.num_threads;
     // Make sure (window_end_x - window_start_x) is a multiple of window_step_x
     const int window_end_x = ceil_to_multiple(width_matrix_b - window_start_x, window_step_x) + window_start_x;
  
     Window win_out(window);
     win_out.set(Window::DimX, Window::Dimension(0, 1, 1));
     win_out.set(Window::DimY, Window::Dimension(0, 1, 1));
  
     Window win_a(window);
     win_a.set(Window::DimX, Window::Dimension(0, 0, 0));
     win_a.set(Window::DimY, Window::Dimension(0, 0, 0));
  
     Window win_b;
     // Don't slice matrix B along the z dimension if matrix B has just 2 dimensions and matrix A more than 2
     // This scenario can happen when the the matrix multiplication is used to perform a convolution operation
     if (rhs->info()->num_dimensions() >= 3)
     {
         win_b = window;
     }
     win_b.set(Window::DimX, Window::Dimension(0, 1, 1));
     win_b.set(Window::DimY, Window::Dimension(0, 1, 1));
  
     Iterator ina(lhs, win_a);
     Iterator inb(rhs, win_b);
     Iterator out(dst, win_out);
  
     const bool multiply_alpha = !(helpers::float_ops::is_one(alpha));
  
     const float32x4_t alpha_f32 = vdupq_n_f32(alpha);
  
     execute_window_loop(
         win_out,
         [&](const Coordinates &)
         {
             int x = window_start_x;
             // Here we don't check for x lower equal than (window_end_x - window_step_x) because of
             // window_end_x is computed above which may cause out-of-bound writes to the dst.
             for (; x < (window_end_x - window_step_x); x += window_step_x)
             {
                 if (x > width_matrix_b)
                 {
                     return;
                 }
  
                 float32x4_t acc0 = vdupq_n_f32(0.f);
                 float32x4_t acc1 = vdupq_n_f32(0.f);
                 float32x4_t acc2 = vdupq_n_f32(0.f);
                 float32x4_t acc3 = vdupq_n_f32(0.f);
  
                 auto vec_a    = reinterpret_cast<const float *>(ina.ptr());
                 auto matrix_b = reinterpret_cast<const float *>(inb.ptr()) + x;
  
 #if __arm__
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(vec_a)));
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b)));
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + in_b_stride)));
 #endif /* __arm__ */
  
                 auto vec_a_end_addr = vec_a + num_elems_vec_a;
                 for (; vec_a <= (vec_a_end_addr - 4);)
                 {
                     float32x2_t a0l = vld1_f32(vec_a);
  
                     float32x4_t b00 = vld1q_f32(matrix_b + 0 + 0 * in_b_stride);
                     float32x4_t b01 = vld1q_f32(matrix_b + 4 + 0 * in_b_stride);
                     float32x4_t b02 = vld1q_f32(matrix_b + 8 + 0 * in_b_stride);
                     float32x4_t b03 = vld1q_f32(matrix_b + 12 + 0 * in_b_stride);
  
                     float32x4_t b10 = vld1q_f32(matrix_b + 0 + 1 * in_b_stride);
                     float32x4_t b11 = vld1q_f32(matrix_b + 4 + 1 * in_b_stride);
                     float32x4_t b12 = vld1q_f32(matrix_b + 8 + 1 * in_b_stride);
                     float32x4_t b13 = vld1q_f32(matrix_b + 12 + 1 * in_b_stride);
  
 #if __arm__
                     asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(vec_a)));
                     asm volatile(
                         "PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + 1 * in_b_stride)));
                     asm volatile(
                         "PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + 2 * in_b_stride)));
                     asm volatile(
                         "PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + 3 * in_b_stride)));
                     asm volatile(
                         "PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + 4 * in_b_stride)));
 #endif /* __arm__ */
  
                     acc0 = vmlaq_lane_f32(acc0, b00, a0l, 0);
                     acc1 = vmlaq_lane_f32(acc1, b01, a0l, 0);
                     acc2 = vmlaq_lane_f32(acc2, b02, a0l, 0);
                     acc3 = vmlaq_lane_f32(acc3, b03, a0l, 0);
  
                     acc0 = vmlaq_lane_f32(acc0, b10, a0l, 1);
                     acc1 = vmlaq_lane_f32(acc1, b11, a0l, 1);
                     acc2 = vmlaq_lane_f32(acc2, b12, a0l, 1);
                     acc3 = vmlaq_lane_f32(acc3, b13, a0l, 1);
  
                     vec_a += 2;
                     matrix_b += 2 * in_b_stride;
  
                     a0l = vld1_f32(vec_a);
  
                     b00 = vld1q_f32(matrix_b + 0 + 0 * in_b_stride);
                     b01 = vld1q_f32(matrix_b + 4 + 0 * in_b_stride);
                     b02 = vld1q_f32(matrix_b + 8 + 0 * in_b_stride);
                     b03 = vld1q_f32(matrix_b + 12 + 0 * in_b_stride);
  
                     b10 = vld1q_f32(matrix_b + 0 + 1 * in_b_stride);
                     b11 = vld1q_f32(matrix_b + 4 + 1 * in_b_stride);
                     b12 = vld1q_f32(matrix_b + 8 + 1 * in_b_stride);
                     b13 = vld1q_f32(matrix_b + 12 + 1 * in_b_stride);
  
                     acc0 = vmlaq_lane_f32(acc0, b00, a0l, 0);
                     acc1 = vmlaq_lane_f32(acc1, b01, a0l, 0);
                     acc2 = vmlaq_lane_f32(acc2, b02, a0l, 0);
                     acc3 = vmlaq_lane_f32(acc3, b03, a0l, 0);
  
                     acc0 = vmlaq_lane_f32(acc0, b10, a0l, 1);
                     acc1 = vmlaq_lane_f32(acc1, b11, a0l, 1);
                     acc2 = vmlaq_lane_f32(acc2, b12, a0l, 1);
                     acc3 = vmlaq_lane_f32(acc3, b13, a0l, 1);
  
                     vec_a += 2;
                     matrix_b += 2 * in_b_stride;
                 }
  
                 for (; vec_a < vec_a_end_addr; ++vec_a)
                 {
                     const float a0 = *vec_a;
  
                     const float32x4_t b00 = vld1q_f32(matrix_b + 0 + 0 * in_b_stride);
                     const float32x4_t b01 = vld1q_f32(matrix_b + 4 + 0 * in_b_stride);
                     const float32x4_t b02 = vld1q_f32(matrix_b + 8 + 0 * in_b_stride);
                     const float32x4_t b03 = vld1q_f32(matrix_b + 12 + 0 * in_b_stride);
  
                     acc0 = vmlaq_n_f32(acc0, b00, a0);
                     acc1 = vmlaq_n_f32(acc1, b01, a0);
                     acc2 = vmlaq_n_f32(acc2, b02, a0);
                     acc3 = vmlaq_n_f32(acc3, b03, a0);
  
                     matrix_b += in_b_stride;
                 }
  
                 // Multiply by the weight of matrix product (alpha)
                 if (multiply_alpha)
                 {
                     acc0 = vmulq_f32(acc0, alpha_f32);
                     acc1 = vmulq_f32(acc1, alpha_f32);
                     acc2 = vmulq_f32(acc2, alpha_f32);
                     acc3 = vmulq_f32(acc3, alpha_f32);
                 }
  
                 const auto vec_out = reinterpret_cast<float *>(out.ptr()) + x;
  
                 vst1q_f32(vec_out + 0, acc0);
                 vst1q_f32(vec_out + 4, acc1);
                 vst1q_f32(vec_out + 8, acc2);
                 vst1q_f32(vec_out + 12, acc3);
             }
  
             // Left-over loop
             for (; x < window_end_x; ++x)
             {
                 if (x > width_matrix_b)
                 {
                     return;
                 }
  
                 float32x4_t vacc = vdupq_n_f32(0.f);
  
                 auto vec_a    = reinterpret_cast<const float *>(ina.ptr());
                 auto matrix_b = reinterpret_cast<const float *>(inb.ptr()) + x;
  
 #if __arm__
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(vec_a)));
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b)));
                 asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + in_b_stride)));
 #endif /* __arm__ */
  
                 auto vec_a_end_addr = vec_a + num_elems_vec_a;
                 for (; vec_a <= (vec_a_end_addr - 4); vec_a += 4)
                 {
                     const float32x4_t a0l = vld1q_f32(vec_a);
  
                     const float32x4_t b_col = {
                         *(matrix_b + 0 * in_b_stride),
                         *(matrix_b + 1 * in_b_stride),
                         *(matrix_b + 2 * in_b_stride),
                         *(matrix_b + 3 * in_b_stride),
                     };
  
 #if __arm__
                     asm volatile("PLD [%0, #128*4]" ::"r"(reinterpret_cast<const uint8_t *>(vec_a)));
                     asm volatile(
                         "PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + 1 * in_b_stride)));
                     asm volatile(
                         "PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + 2 * in_b_stride)));
                     asm volatile(
                         "PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + 3 * in_b_stride)));
                     asm volatile(
                         "PLD [%0, #128*1]" ::"r"(reinterpret_cast<const uint8_t *>(matrix_b + 4 * in_b_stride)));
 #endif /* __arm__ */
  
                     vacc = vmlaq_f32(vacc, b_col, a0l);
  
                     matrix_b += 4 * in_b_stride;
                 }
  
                 float acc = vgetq_lane_f32(vacc, 0) + vgetq_lane_f32(vacc, 1) + vgetq_lane_f32(vacc, 2) +
                             vgetq_lane_f32(vacc, 3);
  
                 for (; vec_a < vec_a_end_addr; ++vec_a)
                 {
                     const float a0 = *vec_a;
  
                     const float b00 = *matrix_b;
  
                     acc += b00 * a0;
  
                     matrix_b += in_b_stride;
                 }
  
                 // Multiply by the weight of matrix product (alpha)
                 if (multiply_alpha)
                 {
                     acc *= alpha;
                 }
  
                 const auto vec_out = reinterpret_cast<float *>(out.ptr()) + x;
  
                 *vec_out = acc;
             }
         },
         ina, inb, out);
 }

References arm_compute::ceil_to_multiple(), arm_compute::data_size_from_type(), ITensorInfo::data_type(), ITensorInfo::dimension(), Window::DimX, Window::DimY, arm_compute::test::validation::dst, arm_compute::execute_window_loop(), ITensor::info(), arm_compute::test::validation::info, arm_compute::helpers::float_ops::is_one(), ITensorInfo::num_dimensions(), Iterator::ptr(), Window::set(), and ITensorInfo::strides_in_bytes().

Referenced by neon_fp32_gemm_matrix_mul().

Variable Documentation

◆ channel_idx

const size_t channel_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::CHANNEL)

Definition at line 39 of file impl.h.

Referenced by arm_compute::test::colorconvert_helper::detail::colorconvert_rgb_to_rgbx(), arm_compute::test::colorconvert_helper::detail::colorconvert_rgbx_to_rgb(), arm_compute::misc::shape_calculator::compute_col2im_shape(), arm_compute::misc::shape_calculator::compute_deconvolution_output_shape(), arm_compute::misc::shape_calculator::compute_depthwise_convolution_shape(), arm_compute::misc::shape_calculator::compute_im2col_conv_shape(), arm_compute::test::colorconvert_helper::detail::compute_rgb_value(), ClTransposedConvolutionKernel::configure(), CpuConvertFullyConnectedWeightsKernel::configure(), ClConvertFullyConnectedWeightsKernel::configure(), ClIndirectConv2dKernel::configure(), CLNormalizePlanarYUVLayerKernel::configure(), ClDirectConv2dKernel::configure(), CpuIm2ColKernel::configure(), CLComputeMeanVariance::configure(), arm_compute::test::validation::reference::convert_fully_connected_weights(), ClTemplateDirectConv2d::get_build_options(), ClTemplateDirectConv2d::get_component_code(), ClTemplatePool2d::get_config_id(), arm_compute::get_normalization_dimension_index(), ClTemplateDirectConv2d::get_tag_lut(), CpuWinogradConv2d::prepare(), NESpaceToDepthLayerKernel::run(), run_depthwise_quanitized8bit(), arm_compute::cpu::kernels::run_im2col(), ClComponentDirectConv2d::validate(), ClComponentDepthwiseConv2d::validate(), NEDeconvolutionLayer::validate(), arm_compute::cpu::kernels::validate_arguments(), GpuCkwDirectConv2d::write_component_code(), and arm_compute::test::colorconvert_helper::detail::yuyv_to_rgb_calculation().

◆ data_layout

constexpr auto data_layout = DataLayout::NHWC

constexpr

Definition at line 36 of file impl.h.

◆ dim_manual_loop

constexpr auto dim_manual_loop = Window::Dimension(0, 0, 0)

constexpr

Definition at line 41 of file impl.h.

Referenced by depthwise_loop_generic_fp(), and depthwise_loop_multiplier1_fp().

◆ dim_single_unit_step

constexpr auto dim_single_unit_step = Window::Dimension(0, 1, 1)

constexpr

Definition at line 42 of file impl.h.

Referenced by depthwise_loop_multiplier1_fp().

◆ height_idx

const size_t height_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::HEIGHT)

Definition at line 38 of file impl.h.

◆ step

constexpr int step = 4

constexpr

Definition at line 35 of file fp32.cpp.

◆ vector_size

constexpr size_t vector_size = 8

constexpr

Definition at line 43 of file impl.h.

Referenced by CLArgMinMaxLayerKernel::configure(), CpuGemmTranspose1xWKernel::configure(), arm_compute::create_lws_hint_parallel_implementations(), depthwise_loop_multiplier1_fp(), ClTemplateLogits1DMaxShiftExpSum::get_build_options(), ClTemplateLogits1DMaxShiftExpSum::get_component_code(), ClTemplateLogits1DNorm::get_window(), CpuGemmTranspose1xWKernel::run_op(), and arm_compute::test::validation::TEST_CASE().

◆ width_idx

const size_t width_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::WIDTH)

Definition at line 37 of file impl.h.

Namespaces

Data Structures

Typedefs

Enumerations

Functions

Variables

Typedef Documentation

◆ CpuElementwiseMax

◆ CpuElementwiseMin

◆ CpuElementwiseSquaredDiff

◆ CpuPRelu

◆ ICpuOperator

◆ KernelType

◆ NEEqual

◆ NEGreater

◆ NEGreaterEqual

◆ NELess

◆ NELessEqual

◆ NENotEqual

Enumeration Type Documentation

◆ AsmConvMethod

◆ KernelSelectionType

Function Documentation

◆ add_fp16_neon()

◆ add_fp16_sve()

◆ add_fp32_neon()

◆ add_fp32_sve()

◆ add_mul_add_fp16_neon()

◆ add_mul_add_fp32_neon()

◆ add_mul_add_s8_neon()

◆ add_mul_add_u8_neon()

◆ add_q8_neon_fixedpoint()

◆ add_q8_neon_fixedpoint< int8_t >()

◆ add_q8_neon_fixedpoint< uint8_t >()

◆ add_q8_neon_fixedpoint_possible()

◆ add_qasymm8_neon()

◆ add_qasymm8_signed_neon()

◆ add_qasymm8_signed_sve2()

◆ add_qasymm8_sve2()

◆ add_qsymm16_neon()

◆ add_qsymm16_sve2()

◆ add_s16_neon()

◆ add_s16_sve()

◆ add_s32_neon()

◆ add_s32_sve()

◆ add_same_neon()

◆ add_same_sve()

◆ add_same_sve< float >()

◆ add_same_sve< int16_t >()

◆ add_same_sve< int32_t >()

◆ add_same_sve< uint8_t >()

◆ add_sub_q8_neon_fixedpoint()

◆ add_sub_q8_neon_fixedpoint< int8_t >()

◆ add_sub_q8_neon_fixedpoint< uint8_t >()

◆ add_sub_q8_neon_fixedpoint_possible()

◆ add_sub_qasymm8_neon()

◆ add_sub_qasymm8_signed_neon()

◆ add_u8_neon()

◆ add_u8_sve()

◆ avg_poolingMxNxD_q8_neon_ndhwc()

◆ batch_normalization_nchw()

◆ bilinear_neon_scale()

◆ bounding_box_transform()

◆ bounding_box_transform_qsymm16()

◆ common_neon_scale()

◆ compute_all_anchors()

◆ compute_all_anchors_qasymm16()

◆ compute_region_coordinate()

◆ depth_to_space_nchw_any()

◆ depth_to_space_nhwc_any()

◆ depthwise_loop_generic_fp()

◆ depthwise_loop_multiplier1_fp()

◆ directconv3d_float_neon_ndhwc()

◆ directconv3d_quantized_neon_ndhwc()

◆ elementwise_arithm_op() [1/3]

◆ elementwise_arithm_op() [2/3]

◆ elementwise_arithm_op() [3/3]

◆ elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< float, 4 > >()

◆ elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< int32_t, 4 > >()

◆ elementwise_arithm_op< ArithmeticOperation::POWER, typename wrapper::traits::neon_vector< float, 4 > >()