Namespaces
	kernels

Data Structures
class	CpuActivation
	Basic function to run kernels::CpuActivationKernel. More...

class	CpuAdd
	Basic function to run kernels::CpuAddKernel. More...

struct	CpuCapabilities
	Structure that encodes the CPU capabilities to be used. More...

class	CpuComplexMul
	Basic function to run kernels::CpuComplexMulKernel. More...

class	CpuConcatenate
	Basic function to execute concatenate tensors along a given axis. More...

class	CpuContext
	CPU context implementation class. More...

class	CpuConvertFullyConnectedWeights
	Basic function to run kernels::CpuConvertFullyConnectedWeightsKernel. More...

class	CpuCopy
	Basic function to run kernels::CpuCopyKernel. More...

class	CpuDepthwiseConvolution
	Function to execute a depthwise convolution. More...

class	CpuDepthwiseConvolutionAssemblyDispatch
	Depthwise convolution assembly kernel glue. More...

class	CpuDequantization
	Basic function to run kernels::CpuDequantizationKernel that dequantizes an input tensor. More...

class	CpuDirectConvolution
	Function to run the direct convolution. More...

class	CpuElementwiseArithmetic
	Class to run cpu::kernels::CpuArithmeticKernel except for division and power. More...

class	CpuElementwiseBase

class	CpuElementwiseComparison
	Basic function to run cpu::kernels::CpuComparisonKernel. More...

class	CpuElementwiseComparisonStatic
	Basic function to run cpu::kernels::CpuComparisonKernel. More...

class	CpuElementwiseDivision
	Basic function to run cpu::kernels::CpuArithmeticKernel for division. More...

class	CpuElementwisePower
	Basic function to run cpu::kernels::CpuArithmeticKernel for power. More...

class	CpuElementwiseUnary

class	CpuFill
	Basic function to run kernels::CpuFillKernel. More...

class	CpuFloor
	Basic function to run kernels::CpuFloorKernel. More...

class	CpuLogits1DSoftmaxKernel

class	CpuMul
	Basic function to run kernels::CpuMulKernel. More...

class	CpuPermute
	Basic function to run kernels::CpuPermuteKernel. More...

class	CpuPooling
	Basic function to simulate a pooling layer with the specified pooling operation. More...

class	CpuPoolingAssemblyDispatch
	Basic function to run pooling assembly kernels. More...

class	CpuQuantization
	Basic function to simulate a quantization layer. More...

class	CpuQueue
	CPU queue implementation class. More...

class	CpuReshape
	Basic function to run kernels::CpuReshapeKernel. More...

class	CpuScale
	Basic function to compute Scale. More...

class	CpuSoftmaxGeneric
	Basic function to compute a SoftmaxLayer and a Log SoftmaxLayer. More...

class	CpuSub
	Basic function to run kernels::CpuSubKernel. More...

class	CpuTensor
	CPU tensor implementation class. More...

class	CpuTranspose
	Basic function to run kernels::CpuTransposeKernel. More...

Typedefs
using	ICpuKernel = arm_compute::ICPPKernel

using	ICpuOperator = experimental::INEOperator

using	CpuElementwiseMax = CpuElementwiseArithmetic< ArithmeticOperation::MAX >
	Class to run cpu::kernels::CpuArithmeticKernel except for maximum operation. More...

using	CpuElementwiseMin = CpuElementwiseArithmetic< ArithmeticOperation::MIN >
	Class to run cpu::kernels::CpuArithmeticKernel except for minimum operation. More...

using	CpuElementwiseSquaredDiff = CpuElementwiseArithmetic< ArithmeticOperation::SQUARED_DIFF >
	Class to run cpu::kernels::CpuArithmeticKernel except for squared difference operation. More...

using	NEEqual = CpuElementwiseComparisonStatic< ComparisonOperation::Equal >
	Basic function to run equal comparison. More...

using	NENotEqual = CpuElementwiseComparisonStatic< ComparisonOperation::NotEqual >
	Basic function to run not equal comparison. More...

using	NEGreater = CpuElementwiseComparisonStatic< ComparisonOperation::Greater >
	Basic function to run greater comparison. More...

using	NEGreaterEqual = CpuElementwiseComparisonStatic< ComparisonOperation::GreaterEqual >
	Basic function to run greater-equal comparison. More...

using	NELess = CpuElementwiseComparisonStatic< ComparisonOperation::Less >
	Basic function to run less comparison. More...

using	NELessEqual = CpuElementwiseComparisonStatic< ComparisonOperation::LessEqual >
	Basic function to run less-equal comparison. More...

using	KernelType = kernels::CpuElementwiseUnaryKernel

using	CpuPRelu = CpuElementwiseArithmetic< ArithmeticOperation::PRELU >
	Class to run cpu::kernels::CpuArithmeticKernel except for PRelu operation. More...

using	CpuSoftmax = CpuSoftmaxGeneric< false >

using	CpuLogSoftmax = CpuSoftmaxGeneric< true >

Functions
void	qasymm8_neon_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	qasymm8_sve_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	qasymm8_signed_neon_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	qasymm8_signed_sve_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	qsymm16_neon_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	qsymm16_sve_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	fp16_neon_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	fp16_sve_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	fp32_neon_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	fp32_sve_activation (const ITensor src, ITensor dst, const ActivationLayerInfo &act_info, const Window &window)

void	add_u8_u8_s16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_s16_u8_s16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_u8_s16_s16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_qasymm8_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_qasymm8_signed_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	add_qsymm16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template<typename ScalarType >
void	add_same_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template<typename InputScalarType , typename OutputScalarType , typename InputVectorType >
void	elementwise_op (const ITensor in1, const ITensor in2, ITensor out, const Window &window, OutputScalarType(scalar_func)(const InputScalarType &, const InputScalarType &), int(broadcast_func)(int, int, int, const InputScalarType , const InputScalarType &, OutputScalarType , const bool), int(neon_func)(int, int, int, const InputScalarType , const InputScalarType , OutputScalarType *))

template<ArithmeticOperation op, typename ScalarType >
ScalarType	elementwise_arithm_op_scalar (const ScalarType &a, const ScalarType &b)

template<ArithmeticOperation op, typename VectorType >
VectorType::type	elementwise_arithm_op (const typename VectorType::type &a, const typename VectorType::type &b)

template<>
int32x4_t	elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< int32_t, 4 > > (const int32x4_t &a, const int32x4_t &b)

template<>
float32x4_t	elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< float, 4 > > (const float32x4_t &a, const float32x4_t &b)

template<>
float32x4_t	elementwise_arithm_op< ArithmeticOperation::POWER, typename wrapper::traits::neon_vector< float, 4 > > (const float32x4_t &a, const float32x4_t &b)

template<ArithmeticOperation op, typename ScalarType , typename VectorType >
VectorType::type	elementwise_arithm_op_broadcast (const typename VectorType::type &a, const ScalarType &broadcast_value, const bool reorder)

template<ArithmeticOperation op, typename ScalarType , typename VectorType >
int	elementwise_arithm_op_loop (int window_start_x, int window_end_x, int window_step_x, const ScalarType input1_ptr, const ScalarType input2_ptr, ScalarType *output_ptr)

template<ArithmeticOperation op, typename ScalarType , typename VectorType >
int	elementwise_arithm_op_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const ScalarType non_broadcast_input_ptr, const ScalarType &broadcast_value, ScalarType output_ptr, const bool reorder)

template<ArithmeticOperation op, typename VectorType >
void	elementwise_arithm_op (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op, typename InputScalarType >
uint8_t	elementwise_comp_op_scalar (const InputScalarType &a, const InputScalarType &b)

template<ComparisonOperation op, typename InputVectorType , typename OutputVectorType >
OutputVectorType	elementwise_comp_op (const InputVectorType &a, const InputVectorType &b)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType , typename OutputVectorType >
OutputVectorType	elementwise_comp_op_broadcast (const InputVectorType &a, const InputScalarType &broadcast_value, const bool reorder)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_broadcast_8_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType non_broadcast_input_ptr, const InputScalarType &broadcast_value, uint8_t output_ptr, const bool reorder)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_broadcast_16_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType non_broadcast_input_ptr, const InputScalarType &broadcast_value, uint8_t output_ptr, const bool reorder)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_broadcast_32_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType non_broadcast_input_ptr, const InputScalarType &broadcast_value, uint8_t output_ptr, const bool reorder)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_8_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType input1_ptr, const InputScalarType input2_ptr, uint8_t *output_ptr)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_16_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType input1_ptr, const InputScalarType input2_ptr, uint8_t *output_ptr)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
int	elementwise_comp_op_32_loop (int window_start_x, int window_end_x, int window_step_x, const InputScalarType input1_ptr, const InputScalarType input2_ptr, uint8_t *output_ptr)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
void	elementwise_comp_op_8 (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
void	elementwise_comp_op_16 (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op, typename InputScalarType , typename InputVectorType >
void	elementwise_comp_op_32 (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

float32x4x4_t	load_quantized (const uint8_t *input1_ptr, const int32x4_t &offset, const float32x4_t &scale)

float32x4x4_t	load_quantized_signed (const int8_t *input1_ptr, const int32x4_t &offset, const float32x4_t &scale)

void	store_quantized (uint8_t *output_ptr, const uint32x4x4_t &out)

void	store_quantized (uint8_t *output_ptr, const int32x4x4_t &out)

void	store_quantized (uint8_t *output_ptr, const float32x4x4_t &rf, const float32x4_t &offset, const float32x4_t &invscale)

void	store_quantized_signed (int8_t *output_ptr, const int32x4x4_t &out)

void	store_quantized_signed (int8_t *output_ptr, const float32x4x4_t &rf, const float32x4_t &offset, const float32x4_t &invscale)

template<ArithmeticOperation op>
uint8_t	elementwise_arithm_op_quantized_scalar (const float &a, const float &b, UniformQuantizationInfo qinfo)

template<ArithmeticOperation op>
int8_t	elementwise_arithm_op_quantized_signed_scalar (const float &a, const float &b, UniformQuantizationInfo qinfo)

template<ArithmeticOperation op>
float32x4x4_t	elementwise_arithm_op (const float32x4x4_t &a, const float32x4x4_t &b)

template<ComparisonOperation op>
uint8_t	elementwise_comp_op_quantized_scalar (const float &a, const float &b, UniformQuantizationInfo qinfo)

template<ComparisonOperation op>
uint32x4x4_t	elementwise_comp_op (const float32x4x4_t &a, const float32x4x4_t &b)

template<ArithmeticOperation op>
int	elementwise_arithm_op_quantized_loop (int window_start_x, int window_end_x, int window_step_x, const uint8_t input1_ptr, const uint8_t input2_ptr, uint8_t *output_ptr, int32x4_t voffset1, int32x4_t voffset2, float32x4_t vscale1, float32x4_t vscale2, float32x4_t voffseto, float32x4_t invvscaleo)

template<ArithmeticOperation op>
int	elementwise_arithm_op_quantized_singed_loop (int window_start_x, int window_end_x, int window_step_x, const int8_t input1_ptr, const int8_t input2_ptr, int8_t *output_ptr, int32x4_t voffset1, int32x4_t voffset2, float32x4_t vscale1, float32x4_t vscale2, float32x4_t voffseto, float32x4_t invvscaleo)

template<ArithmeticOperation op>
int	elementwise_arithm_op_quantized_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const uint8_t non_broadcast_input_ptr, float32x4x4_t broadcast_vector, uint8_t output_ptr, int32x4_t voffset_non_broadcast, float32x4_t vscale_non_broadcast, float32x4_t voffseto, float32x4_t invvscaleo, bool reorder)

template<ArithmeticOperation op>
int	elementwise_arithm_op_quantized_signed_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const int8_t non_broadcast_input_ptr, float32x4x4_t broadcast_vector, int8_t output_ptr, int32x4_t voffset_non_broadcast, float32x4_t vscale_non_broadcast, float32x4_t voffseto, float32x4_t invvscaleo, bool reorder)

template<ComparisonOperation op>
int	elementwise_comp_op_quantized_loop (int window_start_x, int window_end_x, int window_step_x, const uint8_t input1_ptr, const uint8_t input2_ptr, uint8_t *output_ptr, int32x4_t voffset1, int32x4_t voffset2, float32x4_t vscale1, float32x4_t vscale2, float32x4_t voffseto, float32x4_t invvscaleo)

template<ComparisonOperation op>
int	elementwise_comp_op_quantized_signed_loop (int window_start_x, int window_end_x, int window_step_x, const int8_t input1_ptr, const int8_t input2_ptr, uint8_t *output_ptr, int32x4_t voffset1, int32x4_t voffset2, float32x4_t vscale1, float32x4_t vscale2, float32x4_t voffseto, float32x4_t invvscaleo)

template<ComparisonOperation op>
int	elementwise_comp_op_quantized_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const uint8_t non_broadcast_input_ptr, float32x4x4_t broadcast_vector, uint8_t output_ptr, int32x4_t voffset_non_broadcast, float32x4_t vscale_non_broadcast, float32x4_t voffseto, float32x4_t invvscaleo, bool reorder)

template<ComparisonOperation op>
int	elementwise_comp_op_quantized_signed_broadcast_loop (int window_start_x, int window_end_x, int window_step_x, const int8_t non_broadcast_input_ptr, float32x4x4_t broadcast_vector, uint8_t output_ptr, int32x4_t voffset_non_broadcast, float32x4_t vscale_non_broadcast, float32x4_t voffseto, float32x4_t invvscaleo, bool reorder)

void	elementwise_op_quantized (const ITensor in1, const ITensor in2, ITensor out, const Window &window, uint8_t(scalar_func)(const float &, const float &, UniformQuantizationInfo), int(broadcast_func)(int, int, int, const uint8_t , float32x4x4_t, uint8_t , int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool), int(neon_func)(int, int, int, const uint8_t , const uint8_t , uint8_t *, int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t))

void	elementwise_comp_quantized_signed (const ITensor in1, const ITensor in2, ITensor out, const Window &window, uint8_t(scalar_func)(const float &, const float &, UniformQuantizationInfo), int(broadcast_func)(int, int, int, const int8_t , float32x4x4_t, uint8_t , int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool), int(neon_func)(int, int, int, const int8_t , const int8_t , uint8_t *, int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t))

void	elementwise_op_quantized_signed (const ITensor in1, const ITensor in2, ITensor out, const Window &window, int8_t(scalar_func)(const float &, const float &, UniformQuantizationInfo), int(broadcast_func)(int, int, int, const int8_t , float32x4x4_t, int8_t , int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool), int(neon_func)(int, int, int, const int8_t , const int8_t , int8_t *, int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t))

template<ArithmeticOperation op>
void	elementwise_arithm_op_quantized (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ArithmeticOperation op>
void	elementwise_arithm_op_quantized_signed (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	elementwise_comp_op_quantized (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<ComparisonOperation op>
void	elementwise_comp_op_quantized_signed (const ITensor in1, const ITensor in2, ITensor *out, const Window &window)

template<typename ScalarType >
ScalarType	elementwise_op_scalar_imp (ElementWiseUnary op, const ScalarType &a)

template<typename ScalarType , typename VectorType >
VectorType	elementwise_op_imp (ElementWiseUnary op, const VectorType &a)

template<typename ScalarType >
void	elementwise_op (const ITensor in, ITensor out, const Window &window, ElementWiseUnary op)

void	fp16_neon_floor (const void src, void dst, int len)

void	fp32_neon_floor (const void src, void dst, int len)

void	poolingMxN_fp32_neon_nhwc (const ITensor src, ITensor dst0, ITensor *dst1, PoolingLayerInfo &pool_info, const Window &window_src, const Window &window)

void	poolingMxN_qasymm8_neon_nhwc (const ITensor src0, ITensor dst0, ITensor *dst1, PoolingLayerInfo &, const Window &window_src, const Window &window)

void	poolingMxN_qasymm8_signed_neon_nhwc (const ITensor src0, ITensor dst0, ITensor *dst1, PoolingLayerInfo &, const Window &window_src, const Window &window)

void	poolingMxN_fp16_neon_nhwc (const ITensor src0, ITensor dst0, ITensor *dst1, PoolingLayerInfo &, const Window &window_src, const Window &window)

template<typename T >
uint32_t	offset_no_padding (uint32_t padded_offset, const Coordinates &id, const ITensorInfo &info, int pool_stride_x, int pool_stride_y, DataLayout data_layout)

template<typename T >
std::enable_if< std::is_same< T, int8_t >::value, int8_t >::type	quantize (float val, const UniformQuantizationInfo &info)

template<typename T >
std::enable_if< std::is_same< T, uint8_t >::value, uint8_t >::type	quantize (float val, const UniformQuantizationInfo &info)

template<typename T >
T	vcvtq_q32_f32 (float32x4_t values)

template<>
uint32x4_t	vcvtq_q32_f32 (float32x4_t values)

template<>
int32x4_t	vcvtq_q32_f32 (float32x4_t values)

template<typename T >
float32x4_t	vcvtq_f32_q32 (T values)

template<>
float32x4_t	vcvtq_f32_q32 (uint32x4_t values)

template<>
float32x4_t	vcvtq_f32_q32 (int32x4_t values)

template<typename Tout >
Tout	vrequantize_pooling_with_scale (const float32x4x4_t &acc, const float quant_rescale, const float scale_pooling, const int32_t new_offset)

template<>
uint8x16_t	vrequantize_pooling_with_scale (const float32x4x4_t &acc, const float quant_rescale, const float scale_pooling, const int32_t new_offset)

template<>
int8x16_t	vrequantize_pooling_with_scale (const float32x4x4_t &acc, const float quant_rescale, const float scale_pooling, const int32_t new_offset)

template<typename Tin , typename Tout >
Tout	vrequantize_pooling (Tin vec1, Tin vec2, const UniformQuantizationInfo &requant_qinfo)

template<>
uint8x16_t	vrequantize_pooling (uint8x8_t vec1, uint8x8_t vec2, const UniformQuantizationInfo &requant_qinfo)

template<>
int8x16_t	vrequantize_pooling (int8x8_t vec1, int8x8_t vec2, const UniformQuantizationInfo &requant_qinfo)

template<typename T >
T	vrequantize_pooling (T &vec, const UniformQuantizationInfo &requant_qinfo)

template<>
uint8x8_t	vrequantize_pooling (uint8x8_t &vec, const UniformQuantizationInfo &requant_qinfo)

template<>
int8x8_t	vrequantize_pooling (int8x8_t &vec, const UniformQuantizationInfo &requant_qinfo)

float	calculate_avg_scale (bool exclude_padding, DataLayout data_layout, const Coordinates &id, const int pool_size_x, const int pool_size_y, const int upper_bound_w, const int upper_bound_h, const int pad_x, const int pad_y, const int stride_x, const int stride_y)

template<typename T >
void	poolingMxN_q8_neon_nhwc (const ITensor src, ITensor dst0, ITensor *dst1, PoolingLayerInfo &pool_info, const Window &window_src, const Window &window)

void	u8_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	s16_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	qasymm8_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	qasymm8_signed_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

template<typename T >
void	nearest_neon_scale (const ITensor src, ITensor dst, const ITensor *offsets, float sampling_offset, bool align_corners, const Window &window)

template<typename T >
void	bilinear_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

template<typename T >
void	common_neon_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	fp16_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	fp32_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	s16_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	u8_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	qasymm8_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

void	qasymm8_signed_sve_scale (const ITensor src, ITensor dst, const ITensor offsets, const ITensor dx, const ITensor *dy, InterpolationPolicy policy, BorderMode border_mode, PixelValue constant_border_value, float sampling_offset, bool align_corners, const Window &window)

template<typename T >
void	neon_logits_1d_max (const ITensor in, ITensor out, const Window &window)

template<typename T >
void	neon_softmax_logits_1d_quantized (const ITensor in, const ITensor max, void const tmp, ITensor out, float beta, bool is_log, const Window &window)

template<typename T >
void	neon_softmax_logits_1d_float (const ITensor in, const ITensor max, void const tmp, ITensor out, const float beta, bool is_log, const Window &window)

void	sub_s16_u8_s16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_u8_s16_s16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_u8_u8_s16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_qasymm8_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_qasymm8_signed_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	sub_qsymm16_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

template<typename T >
void	sub_same_neon (const ITensor src0, const ITensor src1, ITensor *dst, const ConvertPolicy &policy, const Window &window)

void	fp16_neon_batch_normalization (ITensor src, ITensor dst, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo &act_info, const Window &window)

void	fp16_sve_batch_normalization (ITensor src, ITensor dst, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo &act_info, const Window &window)

void	fp32_neon_batch_normalization (ITensor src, ITensor dst, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo &act_info, const Window &window)

void	fp32_sve_batch_normalization (ITensor src, ITensor dst, const ITensor mean, const ITensor var, const ITensor beta, const ITensor gamma, float epsilon, ActivationLayerInfo &act_info, const Window &window)

Variables
constexpr int	step = 4

Typedef Documentation

◆ CpuElementwiseMax

using CpuElementwiseMax = CpuElementwiseArithmetic<ArithmeticOperation::MAX>

Class to run cpu::kernels::CpuArithmeticKernel except for maximum operation.

Definition at line 67 of file CpuElementwise.h.

◆ CpuElementwiseMin

using CpuElementwiseMin = CpuElementwiseArithmetic<ArithmeticOperation::MIN>

Class to run cpu::kernels::CpuArithmeticKernel except for minimum operation.

Definition at line 69 of file CpuElementwise.h.

◆ CpuElementwiseSquaredDiff

using CpuElementwiseSquaredDiff = CpuElementwiseArithmetic<ArithmeticOperation::SQUARED_DIFF>

Class to run cpu::kernels::CpuArithmeticKernel except for squared difference operation.

Definition at line 71 of file CpuElementwise.h.

◆ CpuLogSoftmax

using CpuLogSoftmax = CpuSoftmaxGeneric<true>

Definition at line 101 of file CpuSoftmax.h.

◆ CpuPRelu

using CpuPRelu = CpuElementwiseArithmetic<ArithmeticOperation::PRELU>

Class to run cpu::kernels::CpuArithmeticKernel except for PRelu operation.

Definition at line 34 of file CpuPRelu.h.

◆ CpuSoftmax

using CpuSoftmax = CpuSoftmaxGeneric<false>

Definition at line 100 of file CpuSoftmax.h.

◆ ICpuKernel

using ICpuKernel = arm_compute::ICPPKernel

Definition at line 33 of file ICpuKernel.h.

◆ ICpuOperator

using ICpuOperator = experimental::INEOperator

Definition at line 33 of file ICpuOperator.h.

◆ KernelType

using KernelType = kernels::CpuElementwiseUnaryKernel

Definition at line 32 of file CpuElementwiseUnary.cpp.

◆ NEEqual

using NEEqual = CpuElementwiseComparisonStatic<ComparisonOperation::Equal>

Basic function to run equal comparison.

Definition at line 182 of file CpuElementwise.h.

◆ NEGreater

using NEGreater = CpuElementwiseComparisonStatic<ComparisonOperation::Greater>

Basic function to run greater comparison.

Definition at line 186 of file CpuElementwise.h.

◆ NEGreaterEqual

using NEGreaterEqual = CpuElementwiseComparisonStatic<ComparisonOperation::GreaterEqual>

Basic function to run greater-equal comparison.

Definition at line 188 of file CpuElementwise.h.

◆ NELess

using NELess = CpuElementwiseComparisonStatic<ComparisonOperation::Less>

Basic function to run less comparison.

Definition at line 190 of file CpuElementwise.h.

◆ NELessEqual

using NELessEqual = CpuElementwiseComparisonStatic<ComparisonOperation::LessEqual>

Basic function to run less-equal comparison.

Definition at line 192 of file CpuElementwise.h.

◆ NENotEqual

using NENotEqual = CpuElementwiseComparisonStatic<ComparisonOperation::NotEqual>

Basic function to run not equal comparison.

Definition at line 184 of file CpuElementwise.h.

Function Documentation

◆ add_qasymm8_neon()

void add_qasymm8_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 35 of file qasymm8.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
 
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
 
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
 
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / oq_info.scale);
     const float32x4_t voffseto   = vdupq_n_f32(oq_info.offset);
 
     if(is_broadcast_across_x)
     {
         const bool                    is_broadcast_input_2 = input2_win.x().step() == 0;
         Window                        broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window                        non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor                *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor                *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
         const UniformQuantizationInfo broadcast_qinfo      = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo  = non_broadcast_tensor->info()->quantization_info().uniform();
 
         const float32x4_t vscale1  = is_broadcast_input_2 ? vdupq_n_f32(iq1_info.scale) : vdupq_n_f32(iq2_info.scale);
         const float32x4_t vscale2  = is_broadcast_input_2 ? vdupq_n_f32(iq2_info.scale) : vdupq_n_f32(iq1_info.scale);
         const int32x4_t   voffset1 = is_broadcast_input_2 ? vdupq_n_s32(iq1_info.offset) : vdupq_n_s32(iq2_info.offset);
         const int32x4_t   voffset2 = is_broadcast_input_2 ? vdupq_n_s32(iq2_info.offset) : vdupq_n_s32(iq1_info.offset);
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const uint8_t *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<uint8_t *>(output.ptr());
 
             const uint8_t    broadcast_value     = *reinterpret_cast<const uint8_t *>(broadcast_input.ptr());
             const uint8x16_t broadcast_value_vec = vdupq_n_u8(broadcast_value);
 
             const auto bf_0 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_low_u8(broadcast_value_vec))))), voffset2)), vscale2);
             const auto bf_1 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_low_u8(broadcast_value_vec))))), voffset2)), vscale2);
             const auto bf_2 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_high_u8(broadcast_value_vec))))), voffset2)), vscale2);
             const auto bf_3 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_high_u8(broadcast_value_vec))))), voffset2)), vscale2);
 
             const float bfs = static_cast<int32_t>(broadcast_value - broadcast_qinfo.offset) * broadcast_qinfo.scale;
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const uint8x16_t a    = vld1q_u8(non_broadcast_input_ptr + x);
                 const auto       af_0 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_low_u8(a))))), voffset1)), vscale1);
                 const auto       af_1 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_low_u8(a))))), voffset1)), vscale1);
                 const auto       af_2 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_high_u8(a))))), voffset1)), vscale1);
                 const auto       af_3 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_high_u8(a))))), voffset1)), vscale1);
 
                 int32x4_t rf_0{};
                 int32x4_t rf_1{};
                 int32x4_t rf_2{};
                 int32x4_t rf_3{};
 
 #ifdef __aarch64__
                 rf_0 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_1, bf_1), invvscaleo));
                 rf_2 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_2, bf_2), invvscaleo));
                 rf_3 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_3, bf_3), invvscaleo));
 #else  //__aarch64__
                 rf_0 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_1, bf_1), invvscaleo));
                 rf_2 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_2, bf_2), invvscaleo));
                 rf_3 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_3, bf_3), invvscaleo));
 #endif //__aarch64__
 
                 const uint8x8_t pa = vqmovun_s16(vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1)));
                 const uint8x8_t pb = vqmovun_s16(vcombine_s16(vqmovn_s32(rf_2), vqmovn_s32(rf_3)));
                 vst1q_u8(output_ptr + x, vcombine_u8(pa, pb));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>(*(non_broadcast_input_ptr + x) - non_broadcast_qinfo.offset) * non_broadcast_qinfo.scale;
                 *(output_ptr + x) = quantize_qasymm8((afs + bfs), oq_info);
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
 
         const float32x4_t vscale1  = vdupq_n_f32(iq1_info.scale);
         const float32x4_t vscale2  = vdupq_n_f32(iq2_info.scale);
         const int32x4_t   voffset1 = vdupq_n_s32(iq1_info.offset);
         const int32x4_t   voffset2 = vdupq_n_s32(iq2_info.offset);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const uint8_t *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const uint8_t *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<uint8_t *>(output.ptr());
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const uint8x16_t a = vld1q_u8(input1_ptr + x);
                 const uint8x16_t b = vld1q_u8(input2_ptr + x);
 
                 const auto af_0 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_low_u8(a))))), voffset1)), vscale1);
                 const auto af_1 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_low_u8(a))))), voffset1)), vscale1);
                 const auto af_2 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_high_u8(a))))), voffset1)), vscale1);
                 const auto af_3 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_high_u8(a))))), voffset1)), vscale1);
 
                 const auto bf_0 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_low_u8(b))))), voffset2)), vscale2);
                 const auto bf_1 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_low_u8(b))))), voffset2)), vscale2);
                 const auto bf_2 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_high_u8(b))))), voffset2)), vscale2);
                 const auto bf_3 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_high_u8(b))))), voffset2)), vscale2);
 
                 int32x4_t rf_0{};
                 int32x4_t rf_1{};
                 int32x4_t rf_2{};
                 int32x4_t rf_3{};
 
 #ifdef __aarch64__
                 rf_0 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_1, bf_1), invvscaleo));
                 rf_2 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_2, bf_2), invvscaleo));
                 rf_3 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_3, bf_3), invvscaleo));
 #else  //__aarch64__
                 rf_0 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_1, bf_1), invvscaleo));
                 rf_2 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_2, bf_2), invvscaleo));
                 rf_3 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_3, bf_3), invvscaleo));
 #endif //__aarch64__
 
                 const uint8x8_t pa = vqmovun_s16(vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1)));
                 const uint8x8_t pb = vqmovun_s16(vcombine_s16(vqmovn_s32(rf_2), vqmovn_s32(rf_3)));
                 vst1q_u8(output_ptr + x, vcombine_u8(pa, pb));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>((*(input1_ptr + x)) - iq1_info.offset) * iq1_info.scale;
                 const float bfs   = static_cast<int32_t>((*(input2_ptr + x)) - iq2_info.offset) * iq2_info.scale;
                 *(output_ptr + x) = quantize_qasymm8((afs + bfs), dst->info()->quantization_info());
             }
         },
         input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), arm_compute::quantize_qasymm8(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ add_qasymm8_signed_neon()

void add_qasymm8_signed_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 35 of file qasymm8_signed.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
 
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
 
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
 
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / oq_info.scale);
     const float32x4_t voffseto   = vdupq_n_f32(oq_info.offset);
 
     if(is_broadcast_across_x)
     {
         const bool                    is_broadcast_input_2 = input2_win.x().step() == 0;
         Window                        broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window                        non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor                *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor                *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
         const UniformQuantizationInfo broadcast_qinfo      = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo  = non_broadcast_tensor->info()->quantization_info().uniform();
 
         const float32x4_t vscale1  = is_broadcast_input_2 ? vdupq_n_f32(iq1_info.scale) : vdupq_n_f32(iq2_info.scale);
         const float32x4_t vscale2  = is_broadcast_input_2 ? vdupq_n_f32(iq2_info.scale) : vdupq_n_f32(iq1_info.scale);
         const int32x4_t   voffset1 = is_broadcast_input_2 ? vdupq_n_s32(iq1_info.offset) : vdupq_n_s32(iq2_info.offset);
         const int32x4_t   voffset2 = is_broadcast_input_2 ? vdupq_n_s32(iq2_info.offset) : vdupq_n_s32(iq1_info.offset);
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const int8_t *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<int8_t *>(output.ptr());
 
             const int8_t    broadcast_value     = *reinterpret_cast<const int8_t *>(broadcast_input.ptr());
             const int8x16_t broadcast_value_vec = vdupq_n_s8(broadcast_value);
 
             const auto  bf_0 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_low_s8(broadcast_value_vec)))), voffset2)), vscale2);
             const auto  bf_1 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_low_s8(broadcast_value_vec)))), voffset2)), vscale2);
             const auto  bf_2 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_high_s8(broadcast_value_vec)))), voffset2)), vscale2);
             const auto  bf_3 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_high_s8(broadcast_value_vec)))), voffset2)), vscale2);
             const float bfs  = static_cast<int32_t>(broadcast_value - broadcast_qinfo.offset) * broadcast_qinfo.scale;
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const int8x16_t a = vld1q_s8(non_broadcast_input_ptr + x);
 
                 const auto af_0 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_low_s8(a)))), voffset1)), vscale1);
                 const auto af_1 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_low_s8(a)))), voffset1)), vscale1);
                 const auto af_2 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_high_s8(a)))), voffset1)), vscale1);
                 const auto af_3 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_high_s8(a)))), voffset1)), vscale1);
 
                 int32x4_t rf_0{};
                 int32x4_t rf_1{};
                 int32x4_t rf_2{};
                 int32x4_t rf_3{};
 
 #ifdef __aarch64__
                 rf_0 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_1, bf_1), invvscaleo));
                 rf_2 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_2, bf_2), invvscaleo));
                 rf_3 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_3, bf_3), invvscaleo));
 #else  //__aarch64__
                 rf_0 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_1, bf_1), invvscaleo));
                 rf_2 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_2, bf_2), invvscaleo));
                 rf_3 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_3, bf_3), invvscaleo));
 #endif //__aarch64__
 
                 const int8x8_t pa = vqmovn_s16(vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1)));
                 const int8x8_t pb = vqmovn_s16(vcombine_s16(vqmovn_s32(rf_2), vqmovn_s32(rf_3)));
                 vst1q_s8(output_ptr + x, vcombine_s8(pa, pb));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>(*(non_broadcast_input_ptr + x) - non_broadcast_qinfo.offset) * non_broadcast_qinfo.scale;
                 *(output_ptr + x) = quantize_qasymm8_signed((afs + bfs), oq_info);
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
 
         const float32x4_t vscale1  = vdupq_n_f32(iq1_info.scale);
         const float32x4_t vscale2  = vdupq_n_f32(iq2_info.scale);
         const int32x4_t   voffset1 = vdupq_n_s32(iq1_info.offset);
         const int32x4_t   voffset2 = vdupq_n_s32(iq2_info.offset);
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const int8_t *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const int8_t *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<int8_t *>(output.ptr());
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const int8x16_t a = vld1q_s8(input1_ptr + x);
                 const int8x16_t b = vld1q_s8(input2_ptr + x);
 
                 const auto af_0 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_low_s8(a)))), voffset1)), vscale1);
                 const auto af_1 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_low_s8(a)))), voffset1)), vscale1);
                 const auto af_2 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_high_s8(a)))), voffset1)), vscale1);
                 const auto af_3 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_high_s8(a)))), voffset1)), vscale1);
 
                 const auto bf_0 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_low_s8(b)))), voffset2)), vscale2);
                 const auto bf_1 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_low_s8(b)))), voffset2)), vscale2);
                 const auto bf_2 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_high_s8(b)))), voffset2)), vscale2);
                 const auto bf_3 = vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_high_s8(b)))), voffset2)), vscale2);
 
                 int32x4_t rf_0{};
                 int32x4_t rf_1{};
                 int32x4_t rf_2{};
                 int32x4_t rf_3{};
 
 #ifdef __aarch64__
                 rf_0 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_1, bf_1), invvscaleo));
                 rf_2 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_2, bf_2), invvscaleo));
                 rf_3 = vcvtnq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_3, bf_3), invvscaleo));
 #else  //__aarch64__
                 rf_0 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_1, bf_1), invvscaleo));
                 rf_2 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_2, bf_2), invvscaleo));
                 rf_3 = vcvtq_s32_f32(vmlaq_f32(voffseto, vaddq_f32(af_3, bf_3), invvscaleo));
 #endif //__aarch64__
 
                 const int8x8_t pa = vqmovn_s16(vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1)));
                 const int8x8_t pb = vqmovn_s16(vcombine_s16(vqmovn_s32(rf_2), vqmovn_s32(rf_3)));
                 vst1q_s8(output_ptr + x, vcombine_s8(pa, pb));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>((*(input1_ptr + x)) - iq1_info.offset) * iq1_info.scale;
                 const float bfs   = static_cast<int32_t>((*(input2_ptr + x)) - iq2_info.offset) * iq2_info.scale;
                 *(output_ptr + x) = quantize_qasymm8_signed((afs + bfs), dst->info()->quantization_info());
             }
         },
         input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), arm_compute::quantize_qasymm8_signed(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ add_qsymm16_neon()

void add_qsymm16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 35 of file qsymm16.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
 
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = 8;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
 
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
 
     const float32x4_t vscale1    = vdupq_n_f32(iq1_info.scale);
     const float32x4_t vscale2    = vdupq_n_f32(iq2_info.scale);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / oq_info.scale);
 
     if(is_broadcast_across_x)
     {
         const bool                    is_broadcast_input_2 = input2_win.x().step() == 0;
         Window                        broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window                        non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor                *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor                *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
         const UniformQuantizationInfo broadcast_qinfo      = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo  = non_broadcast_tensor->info()->quantization_info().uniform();
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const int16_t *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<int16_t *>(output.ptr());
 
             const int16_t   broadcast_value     = *reinterpret_cast<const int16_t *>(broadcast_input.ptr());
             const int16x8_t broadcast_value_vec = vdupq_n_s16(broadcast_value);
 
             const auto  bf_0 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(broadcast_value_vec))), vscale2);
             const auto  bf_1 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(broadcast_value_vec))), vscale2);
             const float bfs  = static_cast<int32_t>(broadcast_value) * broadcast_qinfo.scale;
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const int16x8_t a    = vld1q_s16(non_broadcast_input_ptr + x);
                 const auto      af_0 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(a))), vscale1);
                 const auto      af_1 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(a))), vscale1);
 
                 int32x4_t rf_0{};
                 int32x4_t rf_1{};
 #ifdef __aarch64__
                 rf_0 = vcvtnq_s32_f32(vmulq_f32(vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtnq_s32_f32(vmulq_f32(vaddq_f32(af_1, bf_1), invvscaleo));
 #else  //__aarch64__
                 rf_0 = vcvtq_s32_f32(vmulq_f32(vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtq_s32_f32(vmulq_f32(vaddq_f32(af_1, bf_1), invvscaleo));
 #endif //__aarch64__
 
                 const int16x8_t pa = vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1));
                 vst1q_s16(output_ptr + x, pa);
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>(*(non_broadcast_input_ptr + x)) * non_broadcast_qinfo.scale;
                 *(output_ptr + x) = quantize_qsymm16((afs + bfs), oq_info);
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const int16_t *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const int16_t *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<int16_t *>(output.ptr());
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const int16x8_t a = vld1q_s16(input1_ptr + x);
                 const int16x8_t b = vld1q_s16(input2_ptr + x);
 
                 const auto af_0 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(a))), vscale1);
                 const auto af_1 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(a))), vscale1);
                 const auto bf_0 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(b))), vscale2);
                 const auto bf_1 = vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(b))), vscale2);
 
                 int32x4_t rf_0{};
                 int32x4_t rf_1{};
 #ifdef __aarch64__
                 rf_0 = vcvtnq_s32_f32(vmulq_f32(vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtnq_s32_f32(vmulq_f32(vaddq_f32(af_1, bf_1), invvscaleo));
 #else  //__aarch64__
                 rf_0 = vcvtq_s32_f32(vmulq_f32(vaddq_f32(af_0, bf_0), invvscaleo));
                 rf_1 = vcvtq_s32_f32(vmulq_f32(vaddq_f32(af_1, bf_1), invvscaleo));
 #endif //__aarch64__
 
                 const int16x8_t pa = vcombine_s16(vqmovn_s32(rf_0), vqmovn_s32(rf_1));
                 vst1q_s16(output_ptr + x, pa);
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>((*(input1_ptr + x))) * iq1_info.scale;
                 const float bfs   = static_cast<int32_t>((*(input2_ptr + x))) * iq2_info.scale;
                 *(output_ptr + x) = quantize_qsymm16((afs + bfs), dst->info()->quantization_info());
             }
         },
         input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), ITensorInfo::quantization_info(), arm_compute::quantize_qsymm16(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ add_s16_u8_s16_neon()

void add_s16_u8_s16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 100 of file integer.cpp.

 {
     // Create input windows
     Window win        = window;
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
     input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
     input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     Iterator input1(src0, input1_win);
     Iterator input2(src1, input2_win);
     Iterator output(dst, win);
 
     const int  window_step_x  = 8;
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
 
     execute_window_loop(win, [&](const Coordinates &)
     {
         const auto input1_ptr = reinterpret_cast<const int16_t *>(input1.ptr());
         const auto input2_ptr = reinterpret_cast<const uint8_t *>(input2.ptr());
         const auto output_ptr = reinterpret_cast<int16_t *>(output.ptr());
 
         if(policy == ConvertPolicy::WRAP)
         {
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin1 = wrapper::vloadq(input1_ptr + x);
                 const auto vin2 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input2_ptr + x)));
                 wrapper::vstore(output_ptr + x, wrapper::vadd(vin1, vin2));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 *(output_ptr + x) = *(input1_ptr + x) + static_cast<int16_t>(*(input2_ptr + x));
             }
         }
         else
         {
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin1 = wrapper::vloadq(input1_ptr + x);
                 const auto vin2 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input2_ptr + x)));
                 wrapper::vstore(output_ptr + x, wrapper::vqadd(vin1, vin2));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 *(output_ptr + x) = wrapper::add_sat(*(input1_ptr + x), static_cast<int16_t>(*(input2_ptr + x)));
             }
         }
     },
     input1, input2, output);
 }

References arm_compute::wrapper::add_sat(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), Window::set(), Window::Dimension::start(), ITensorInfo::tensor_shape(), arm_compute::wrapper::vadd(), arm_compute::wrapper::vload(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmovl(), arm_compute::wrapper::vqadd(), arm_compute::wrapper::vstore(), arm_compute::WRAP, and Window::x().

Referenced by add_u8_s16_s16_neon().

◆ add_same_neon()

void arm_compute::cpu::add_same_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 48 of file list.h.

 {
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<ScalarType, wrapper::traits::BitWidth::W128>;
 
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     constexpr int window_step_x         = 16 / sizeof(ScalarType);
     const auto    window_start_x        = static_cast<int>(window.x().start());
     const auto    window_end_x          = static_cast<int>(window.x().end());
     const bool    is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
 
     if(is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const ScalarType *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<ScalarType *>(output.ptr());
 
             const ScalarType broadcast_value     = *reinterpret_cast<const ScalarType *>(broadcast_input.ptr());
             const auto       broadcast_value_vec = wrapper::vdup_n(broadcast_value, ExactTagType{});
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto non_broadcast_v = wrapper::vloadq(non_broadcast_input_ptr + x);
                 const auto res             = (policy == ConvertPolicy::SATURATE) ? wrapper::vqadd(broadcast_value_vec, non_broadcast_v) : wrapper::vadd(broadcast_value_vec, non_broadcast_v);
                 wrapper::vstore(output_ptr + x, res);
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const auto non_broadcast_v = *(non_broadcast_input_ptr + x);
                 *(output_ptr + x)          = (policy == ConvertPolicy::SATURATE) ? wrapper::add_sat(broadcast_value, non_broadcast_v) : broadcast_value + non_broadcast_v;
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const ScalarType *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const ScalarType *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<ScalarType *>(output.ptr());
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto val1 = wrapper::vloadq(input1_ptr + x);
                 const auto val2 = wrapper::vloadq(input2_ptr + x);
                 const auto res  = (policy == ConvertPolicy::SATURATE) ? wrapper::vqadd(val1, val2) : wrapper::vadd(val1, val2);
                 wrapper::vstore(output_ptr + x, res);
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const auto val1   = *(input1_ptr + x);
                 const auto val2   = *(input2_ptr + x);
                 *(output_ptr + x) = (policy == ConvertPolicy::SATURATE) ? wrapper::add_sat(val1, val2) : val1 + val2;
             }
         },
         input1, input2, output);
     }
 }

References arm_compute::wrapper::add_sat(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), arm_compute::SATURATE, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), arm_compute::wrapper::vadd(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vqadd(), arm_compute::wrapper::vstore(), Dimensions< T >::x(), and Window::x().

◆ add_u8_s16_s16_neon()

void add_u8_s16_s16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 164 of file integer.cpp.

 {
     // Simply swap the two input buffers:
     add_s16_u8_s16_neon(src1, src0, dst, policy, window);
 }

References add_s16_u8_s16_neon(), and arm_compute::test::validation::dst.

◆ add_u8_u8_s16_neon()

void add_u8_u8_s16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 35 of file integer.cpp.

 {
     // Create input windows
     Window win        = window;
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
     input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
     input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     Iterator input1(src0, input1_win);
     Iterator input2(src1, input2_win);
     Iterator output(dst, win);
 
     const int  window_step_x  = 8;
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
 
     execute_window_loop(win, [&](const Coordinates &)
     {
         const auto input1_ptr = reinterpret_cast<const uint8_t *>(input1.ptr());
         const auto input2_ptr = reinterpret_cast<const uint8_t *>(input2.ptr());
         const auto output_ptr = reinterpret_cast<int16_t *>(output.ptr());
 
         if(policy == ConvertPolicy::WRAP)
         {
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin1 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input1_ptr + x)));
                 const auto vin2 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input2_ptr + x)));
                 wrapper::vstore(output_ptr + x, wrapper::vadd(vin1, vin2));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 *(output_ptr + x) = static_cast<int16_t>(*(input1_ptr + x)) + static_cast<int16_t>(*(input2_ptr + x));
             }
         }
         else
         {
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin1 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input1_ptr + x)));
                 const auto vin2 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input2_ptr + x)));
                 wrapper::vstore(output_ptr + x, wrapper::vqadd(vin1, vin2));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 *(output_ptr + x) = wrapper::add_sat(static_cast<int16_t>(*(input1_ptr + x)),
                                                      static_cast<int16_t>(*(input2_ptr + x)));
             }
         }
     },
     input1, input2, output);
 }

References arm_compute::wrapper::add_sat(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), Window::set(), Window::Dimension::start(), ITensorInfo::tensor_shape(), arm_compute::wrapper::vadd(), arm_compute::wrapper::vload(), arm_compute::wrapper::vmovl(), arm_compute::wrapper::vqadd(), arm_compute::wrapper::vstore(), arm_compute::WRAP, and Window::x().

◆ bilinear_neon_scale()

void arm_compute::cpu::bilinear_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 94 of file list.h.

 {
     // Compute the ratio between source height and destination height
     const auto hr = scale_utils::calculate_resize_ratio(src->info()->dimension(2), dst->info()->dimension(2), align_corners);
 
     Iterator  out(dst, window);
     const int in_stride_c  = src->info()->dimension(0) + src->info()->padding().left + src->info()->padding().right;
     const int in_dim_w     = src->info()->dimension(1);
     const int in_dim_h     = src->info()->dimension(2);
     const int in_stride_wc = in_stride_c * (in_dim_w + src->info()->padding().top + src->info()->padding().bottom);
 
     // Don't increment in Y and Z direction for the input tensor
     // A pointer to the start of this plane is needed as base for the precomputed offsets
     Window win_in(window);
     win_in.set(Window::DimY, Window::Dimension(0, 0, 0));
     win_in.set(Window::DimZ, Window::Dimension(0, 0, 0));
     Iterator in(src, win_in);
 
     if(border_mode == BorderMode::CONSTANT)
     {
 #ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC
         using ConstType = typename std::conditional<std::is_same<T, float16_t>::value, half, T>::type;
 #else  /* __ARM_FEATURE_FP16_VECTOR_ARITHMETIC */
         using ConstType = T;
 #endif /* __ARM_FEATURE_FP16_VECTOR_ARITHMETIC */
         const T const_border_value = static_cast<T>(constant_border_value.get<ConstType>());
         execute_window_loop(window, [&](const Coordinates & id)
         {
             const auto    offset = *reinterpret_cast<const int32_t *>(offsets->ptr_to_element(Coordinates(id.y(), id.z())));
             const auto    dx_val = *reinterpret_cast<const float *>(dx->ptr_to_element(Coordinates(id.y(), id.z())));
             const auto    dy_val = *reinterpret_cast<const float *>(dy->ptr_to_element(Coordinates(id.y(), id.z())));
             const int32_t in_hi  = std::floor((id.z() + sampling_offset) * hr - sampling_offset);
             const T      *in_ptr = reinterpret_cast<const T *>(in.ptr()) + offset * in_stride_c + in_hi * in_stride_wc;
 
             const auto a00 = (0 <= offset && offset < in_dim_w && 0 <= in_hi && in_hi < in_dim_h) ? *in_ptr : const_border_value;
             const auto a01 = (-1 <= offset && offset < in_dim_w - 1 && 0 <= in_hi && in_hi < in_dim_h) ? *(in_ptr + in_stride_c) : const_border_value;
             const auto a10 = (0 <= offset && offset < in_dim_w && -1 <= in_hi && in_hi < in_dim_h - 1) ? *(in_ptr + in_stride_wc) : const_border_value;
             const auto a11 = (-1 <= offset && offset < in_dim_w - 1 && -1 <= in_hi && in_hi < in_dim_h - 1) ? *(in_ptr + in_stride_c + in_stride_wc) : const_border_value;
 
             *reinterpret_cast<T *>(out.ptr()) = static_cast<T>(scale_helpers::delta_bilinear(a00, a01, a10, a11, dx_val, dy_val));
         },
         in, out);
     }
     else if(border_mode == BorderMode::REPLICATE)
     {
         execute_window_loop(window, [&](const Coordinates & id)
         {
             const auto offset = *reinterpret_cast<const int32_t *>(offsets->ptr_to_element(Coordinates(id.y(), id.z())));
             const auto dx_val = *reinterpret_cast<const float *>(dx->ptr_to_element(Coordinates(id.y(), id.z())));
             const auto dy_val = *reinterpret_cast<const float *>(dy->ptr_to_element(Coordinates(id.y(), id.z())));
             const int  in_hi  = std::floor((id.z() + sampling_offset) * hr - sampling_offset);
 
             auto clamped_w  = utility::clamp<int>(offset, 0, in_dim_w - 1);
             auto clamped_w1 = utility::clamp<int>(offset + 1, 0, in_dim_w - 1);
             auto clamped_h  = utility::clamp<int>(in_hi, 0, in_dim_h - 1);
             auto clamped_h1 = utility::clamp<int>(in_hi + 1, 0, in_dim_h - 1);
 
             const auto a00 = *(reinterpret_cast<const T *>(in.ptr()) + clamped_w * in_stride_c + clamped_h * in_stride_wc);
             const auto a01 = *(reinterpret_cast<const T *>(in.ptr()) + clamped_w1 * in_stride_c + clamped_h * in_stride_wc);
             const auto a10 = *(reinterpret_cast<const T *>(in.ptr()) + clamped_w * in_stride_c + clamped_h1 * in_stride_wc);
             const auto a11 = *(reinterpret_cast<const T *>(in.ptr()) + clamped_w1 * in_stride_c + clamped_h1 * in_stride_wc);
 
             *reinterpret_cast<T *>(out.ptr()) = static_cast<T>(scale_helpers::delta_bilinear(a00, a01, a10, a11, dx_val, dy_val));
         },
         in, out);
     }
     else
     {
         ARM_COMPUTE_ERROR("Not implemented");
     }
 }

References ARM_COMPUTE_ERROR, arm_compute::scale_utils::calculate_resize_ratio(), arm_compute::CONSTANT, arm_compute::scale_helpers::delta_bilinear(), Window::DimY, Window::DimZ, arm_compute::test::validation::dst, arm_compute::execute_window_loop(), PixelValue::get(), offset(), Iterator::ptr(), ITensor::ptr_to_element(), arm_compute::REPLICATE, arm_compute::test::validation::src, and type.

◆ calculate_avg_scale()

float arm_compute::cpu::calculate_avg_scale	(	bool	exclude_padding,
		DataLayout	data_layout,
		const Coordinates &	id,
		const int	pool_size_x,
		const int	pool_size_y,
		const int	upper_bound_w,
		const int	upper_bound_h,
		const int	pad_x,
		const int	pad_y,
		const int	stride_x,
		const int	stride_y
	)

inline

Definition at line 162 of file quantized.h.

 {
     const unsigned int idx_width  = get_data_layout_dimension_index(data_layout, DataLayoutDimension::WIDTH);
     const unsigned int idx_height = get_data_layout_dimension_index(data_layout, DataLayoutDimension::HEIGHT);
 
     int start_x = id[idx_width] * stride_x - pad_x;
     int start_y = id[idx_height] * stride_y - pad_y;
 
     const int end_x = std::min(start_x + pool_size_x, upper_bound_w);
     const int end_y = std::min(start_y + pool_size_y, upper_bound_h);
     if(exclude_padding)
     {
         start_x = std::max(0, start_x);
         start_y = std::max(0, start_y);
     }
     return 1.f / ((end_y - start_y) * (end_x - start_x));
 }

References arm_compute::test::validation::data_layout, arm_compute::get_data_layout_dimension_index(), arm_compute::HEIGHT, arm_compute::test::validation::idx_height, arm_compute::test::validation::idx_width, and arm_compute::WIDTH.

Referenced by poolingMxN_fp32_neon_nhwc(), and poolingMxN_q8_neon_nhwc().

◆ common_neon_scale()

void arm_compute::cpu::common_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 169 of file list.h.

 {
     if(policy == InterpolationPolicy::BILINEAR)
     {
         bilinear_neon_scale<T>(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset, align_corners, window);
     }
     else if(policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         nearest_neon_scale<T>(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ elementwise_arithm_op() [1/3]

float32x4x4_t arm_compute::cpu::elementwise_arithm_op	(	const float32x4x4_t &	a,
		const float32x4x4_t &	b
	)

inline

Definition at line 125 of file elementwise_quantized_list.h.

 {
     using neon_vector_float = wrapper::traits::neon_vector<float, 4>;
     float32x4x4_t out =
     {
         {
             elementwise_arithm_op<op, neon_vector_float>(a.val[0], b.val[0]),
             elementwise_arithm_op<op, neon_vector_float>(a.val[1], b.val[1]),
             elementwise_arithm_op<op, neon_vector_float>(a.val[2], b.val[2]),
             elementwise_arithm_op<op, neon_vector_float>(a.val[3], b.val[3]),
         }
     };
     return out;
 }

References arm_compute::test::validation::b.

◆ elementwise_arithm_op() [2/3]

VectorType::type arm_compute::cpu::elementwise_arithm_op	(	const typename VectorType::type &	a,
		const typename VectorType::type &	b
	)

inline

Definition at line 160 of file elementwise_list.h.

 {
     using vec_type    = typename VectorType::type;
     using scalar_type = typename VectorType::scalar_type;
     using tag_type    = typename VectorType::tag_type;
 
     vec_type res = wrapper::vdup_n(static_cast<scalar_type>(0), tag_type{});
 
     switch(op)
     {
         case ArithmeticOperation::MAX:
             res = wrapper::vmax(a, b);
             break;
         case ArithmeticOperation::MIN:
             res = wrapper::vmin(a, b);
             break;
         case ArithmeticOperation::SQUARED_DIFF:
         {
             const vec_type tmp = wrapper::vsub(a, b);
             res                = wrapper::vmul(tmp, tmp);
             break;
         }
         case ArithmeticOperation::PRELU:
         {
             const vec_type zero = wrapper::vdup_n(static_cast<scalar_type>(0), tag_type{});
             const vec_type tmp  = wrapper::vmul(a, b);
             const auto     gt   = wrapper::vcgt(a, zero);
 
             res = wrapper::vbsl(gt, a, tmp);
             break;
         }
 
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
 
     return res;
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::MAX, arm_compute::MIN, arm_compute::PRELU, arm_compute::SQUARED_DIFF, type, arm_compute::wrapper::vbsl(), arm_compute::wrapper::vcgt(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vmax(), arm_compute::wrapper::vmin(), arm_compute::wrapper::vmul(), and arm_compute::wrapper::vsub().

◆ elementwise_arithm_op() [3/3]

void arm_compute::cpu::elementwise_arithm_op	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 269 of file elementwise_list.h.

 {
     using scalar_type = typename VectorType::scalar_type;
 
     elementwise_op<scalar_type, scalar_type, VectorType>(in1, in2, out, window,
                                                          &elementwise_arithm_op_scalar<op, scalar_type>,
                                                          &elementwise_arithm_op_broadcast_loop<op, scalar_type, VectorType>,
                                                          &elementwise_arithm_op_loop<op, scalar_type, VectorType>);
 }

◆ elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< float, 4 > >()

float32x4_t arm_compute::cpu::elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< float, 4 > >	(	const float32x4_t &	a,
		const float32x4_t &	b
	)

inline

Definition at line 206 of file elementwise_list.h.

 {
     return wrapper::vdiv(a, b);
 }

References arm_compute::test::validation::b, and arm_compute::wrapper::vdiv().

◆ elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< int32_t, 4 > >()

int32x4_t arm_compute::cpu::elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< int32_t, 4 > >	(	const int32x4_t &	a,
		const int32x4_t &	b
	)

inline

Definition at line 200 of file elementwise_list.h.

 {
     return vcvtq_s32_f32(vfloorq_f32(wrapper::vdiv(vcvtq_f32_s32(a), vcvtq_f32_s32(b))));
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vdiv(), and arm_compute::vfloorq_f32().

◆ elementwise_arithm_op< ArithmeticOperation::POWER, typename wrapper::traits::neon_vector< float, 4 > >()

float32x4_t arm_compute::cpu::elementwise_arithm_op< ArithmeticOperation::POWER, typename wrapper::traits::neon_vector< float, 4 > >	(	const float32x4_t &	a,
		const float32x4_t &	b
	)

inline

Definition at line 212 of file elementwise_list.h.

 {
     return wrapper::vpow(a, b);
 }

References arm_compute::test::validation::b, and arm_compute::wrapper::vpow().

◆ elementwise_arithm_op_broadcast()

VectorType::type arm_compute::cpu::elementwise_arithm_op_broadcast	(	const typename VectorType::type &	a,
		const ScalarType &	broadcast_value,
		const bool	reorder
	)

inline

Definition at line 232 of file elementwise_list.h.

 {
     using tag_type = typename VectorType::tag_type;
     using vec_type = typename VectorType::type;
 
     vec_type broadcast_vector = wrapper::vdup_n(broadcast_value, tag_type{});
     return elementwise_arithm_op<op, VectorType>(reorder ? broadcast_vector : a, reorder ? a : broadcast_vector);
 }

References type, and arm_compute::wrapper::vdup_n().

◆ elementwise_arithm_op_broadcast_loop()

int arm_compute::cpu::elementwise_arithm_op_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const ScalarType *	non_broadcast_input_ptr,
		const ScalarType &	broadcast_value,
		ScalarType *	output_ptr,
		const bool	reorder
	)

inline

Definition at line 256 of file elementwise_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = wrapper::vloadq((non_broadcast_input_ptr + x));
         wrapper::vstore(output_ptr + x, elementwise_arithm_op_broadcast<op, ScalarType, VectorType>(a, broadcast_value, reorder));
     }
     return x;
 }

References arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ elementwise_arithm_op_loop()

int arm_compute::cpu::elementwise_arithm_op_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const ScalarType *	input1_ptr,
		const ScalarType *	input2_ptr,
		ScalarType *	output_ptr
	)

inline

Definition at line 242 of file elementwise_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = wrapper::vloadq(input1_ptr + x);
         const auto b = wrapper::vloadq(input2_ptr + x);
         wrapper::vstore(output_ptr + x, elementwise_arithm_op<op, VectorType>(a, b));
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ elementwise_arithm_op_quantized()

void arm_compute::cpu::elementwise_arithm_op_quantized	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 622 of file elementwise_quantized_list.h.

 {
     elementwise_op_quantized(in1, in2, out, window, &elementwise_arithm_op_quantized_scalar<op>,
                              &elementwise_arithm_op_quantized_broadcast_loop<op>,
                              &elementwise_arithm_op_quantized_loop<op>);
 }

References elementwise_op_quantized().

◆ elementwise_arithm_op_quantized_broadcast_loop()

int arm_compute::cpu::elementwise_arithm_op_quantized_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const uint8_t *	non_broadcast_input_ptr,
		float32x4x4_t	broadcast_vector,
		uint8_t *	output_ptr,
		int32x4_t	voffset_non_broadcast,
		float32x4_t	vscale_non_broadcast,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo,
		bool	reorder
	)

inline

Definition at line 199 of file elementwise_quantized_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af = load_quantized(non_broadcast_input_ptr + x, voffset_non_broadcast, vscale_non_broadcast);
         const float32x4x4_t rf = elementwise_arithm_op<op>(reorder ? broadcast_vector : af, reorder ? af : broadcast_vector);
         store_quantized(output_ptr + x, rf, voffseto, invvscaleo);
     }
     return x;
 }

References load_quantized(), and store_quantized().

◆ elementwise_arithm_op_quantized_loop()

int arm_compute::cpu::elementwise_arithm_op_quantized_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const uint8_t *	input1_ptr,
		const uint8_t *	input2_ptr,
		uint8_t *	output_ptr,
		int32x4_t	voffset1,
		int32x4_t	voffset2,
		float32x4_t	vscale1,
		float32x4_t	vscale2,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo
	)

inline

Definition at line 163 of file elementwise_quantized_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         // Get inputs and compute output
         const float32x4x4_t af = load_quantized(input1_ptr + x, voffset1, vscale1);
         const float32x4x4_t bf = load_quantized(input2_ptr + x, voffset2, vscale2);
         const float32x4x4_t rf = elementwise_arithm_op<op>(af, bf);
         store_quantized(output_ptr + x, rf, voffseto, invvscaleo);
     }
     return x;
 }

References load_quantized(), and store_quantized().

◆ elementwise_arithm_op_quantized_scalar()

uint8_t arm_compute::cpu::elementwise_arithm_op_quantized_scalar	(	const float &	a,
		const float &	b,
		UniformQuantizationInfo	qinfo
	)

inline

Definition at line 113 of file elementwise_quantized_list.h.

 {
     return quantize_qasymm8(elementwise_arithm_op_scalar<op>(a, b), qinfo);
 }

References arm_compute::test::validation::b, arm_compute::test::validation::qinfo, and arm_compute::quantize_qasymm8().

◆ elementwise_arithm_op_quantized_signed()

void arm_compute::cpu::elementwise_arithm_op_quantized_signed	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 629 of file elementwise_quantized_list.h.

 {
     elementwise_op_quantized_signed(in1, in2, out, window, &elementwise_arithm_op_quantized_signed_scalar<op>,
                                     &elementwise_arithm_op_quantized_signed_broadcast_loop<op>,
                                     &elementwise_arithm_op_quantized_singed_loop<op>);
 }

References elementwise_op_quantized_signed().

◆ elementwise_arithm_op_quantized_signed_broadcast_loop()

int arm_compute::cpu::elementwise_arithm_op_quantized_signed_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const int8_t *	non_broadcast_input_ptr,
		float32x4x4_t	broadcast_vector,
		int8_t *	output_ptr,
		int32x4_t	voffset_non_broadcast,
		float32x4_t	vscale_non_broadcast,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo,
		bool	reorder
	)

inline

Definition at line 214 of file elementwise_quantized_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af = load_quantized_signed(non_broadcast_input_ptr + x, voffset_non_broadcast, vscale_non_broadcast);
         const float32x4x4_t rf = elementwise_arithm_op<op>(reorder ? broadcast_vector : af, reorder ? af : broadcast_vector);
         store_quantized_signed(output_ptr + x, rf, voffseto, invvscaleo);
     }
     return x;
 }

References load_quantized_signed(), and store_quantized_signed().

◆ elementwise_arithm_op_quantized_signed_scalar()

int8_t arm_compute::cpu::elementwise_arithm_op_quantized_signed_scalar	(	const float &	a,
		const float &	b,
		UniformQuantizationInfo	qinfo
	)

inline

Definition at line 119 of file elementwise_quantized_list.h.

 {
     return quantize_qasymm8_signed(elementwise_arithm_op_scalar<op>(a, b), qinfo);
 }

References arm_compute::test::validation::b, arm_compute::test::validation::qinfo, and arm_compute::quantize_qasymm8_signed().

◆ elementwise_arithm_op_quantized_singed_loop()

int arm_compute::cpu::elementwise_arithm_op_quantized_singed_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const int8_t *	input1_ptr,
		const int8_t *	input2_ptr,
		int8_t *	output_ptr,
		int32x4_t	voffset1,
		int32x4_t	voffset2,
		float32x4_t	vscale1,
		float32x4_t	vscale2,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo
	)

inline

Definition at line 181 of file elementwise_quantized_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         // Get inputs and compute output
         const float32x4x4_t af = load_quantized_signed(input1_ptr + x, voffset1, vscale1);
         const float32x4x4_t bf = load_quantized_signed(input2_ptr + x, voffset2, vscale2);
         const float32x4x4_t rf = elementwise_arithm_op<op>(af, bf);
         store_quantized_signed(output_ptr + x, rf, voffseto, invvscaleo);
     }
     return x;
 }

References load_quantized_signed(), and store_quantized_signed().

◆ elementwise_arithm_op_scalar()

ScalarType arm_compute::cpu::elementwise_arithm_op_scalar	(	const ScalarType &	a,
		const ScalarType &	b
	)

inline

Definition at line 113 of file elementwise_list.h.

 {
     auto res = ScalarType(0);
 
     switch(op)
     {
         case ArithmeticOperation::MAX:
             res = std::max(a, b);
             break;
         case ArithmeticOperation::MIN:
             res = std::min(a, b);
             break;
         case ArithmeticOperation::SQUARED_DIFF:
         {
             res = (a - b) * (a - b);
             break;
         }
         case ArithmeticOperation::PRELU:
         {
             res = (a > 0 ? a : a * b);
             break;
         }
         case ArithmeticOperation::DIV:
         {
             res = a / b;
             if(std::is_integral<ScalarType>::value)
             {
                 res = (b == 0) ? 0 : res;
                 if(static_cast<int32_t>(a) % static_cast<int32_t>(b) != 0 && ((a < 0) != (b < 0)))
                 {
                     --res;
                 }
             }
             break;
         }
         case ArithmeticOperation::POWER:
         {
             res = std::pow(a, b);
             break;
         }
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
     return res;
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::DIV, arm_compute::MAX, arm_compute::MIN, arm_compute::POWER, arm_compute::PRELU, and arm_compute::SQUARED_DIFF.

◆ elementwise_comp_op() [1/2]

uint32x4x4_t arm_compute::cpu::elementwise_comp_op	(	const float32x4x4_t &	a,
		const float32x4x4_t &	b
	)

inline

Definition at line 148 of file elementwise_quantized_list.h.

 {
     uint32x4x4_t out =
     {
         {
             elementwise_comp_op<op, float32x4_t, uint32x4_t>(a.val[0], b.val[0]),
             elementwise_comp_op<op, float32x4_t, uint32x4_t>(a.val[1], b.val[1]),
             elementwise_comp_op<op, float32x4_t, uint32x4_t>(a.val[2], b.val[2]),
             elementwise_comp_op<op, float32x4_t, uint32x4_t>(a.val[3], b.val[3])
         }
     };
     return out;
 }

References arm_compute::test::validation::b.

◆ elementwise_comp_op() [2/2]

OutputVectorType arm_compute::cpu::elementwise_comp_op	(	const InputVectorType &	a,
		const InputVectorType &	b
	)

inline

Definition at line 311 of file elementwise_list.h.

 {
     OutputVectorType res = { 0, 0, 0, 0 };
 
     switch(op)
     {
         case ComparisonOperation::Equal:
             res = wrapper::vceq(a, b);
             break;
         case ComparisonOperation::NotEqual:
             res = wrapper::vnot(wrapper::vceq(a, b));
             break;
         case ComparisonOperation::Greater:
             res = wrapper::vcgt(a, b);
             break;
         case ComparisonOperation::GreaterEqual:
             res = wrapper::vcge(a, b);
             break;
         case ComparisonOperation::Less:
             res = wrapper::vcgt(b, a);
             break;
         case ComparisonOperation::LessEqual:
             res = wrapper::vcge(b, a);
             break;
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
 
     return res;
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::Equal, arm_compute::Greater, arm_compute::GreaterEqual, arm_compute::Less, arm_compute::LessEqual, arm_compute::NotEqual, arm_compute::wrapper::vceq(), arm_compute::wrapper::vcge(), arm_compute::wrapper::vcgt(), and arm_compute::wrapper::vnot().

◆ elementwise_comp_op_16()

void arm_compute::cpu::elementwise_comp_op_16	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 467 of file elementwise_list.h.

 {
     elementwise_op<InputScalarType, uint8_t, InputVectorType>(in1, in2, out, window,
                                                               &elementwise_comp_op_scalar<op, InputScalarType>,
                                                               &elementwise_comp_op_broadcast_16_loop<op, InputScalarType, InputVectorType>,
                                                               &elementwise_comp_op_16_loop<op, InputScalarType, InputVectorType>);
 }

◆ elementwise_comp_op_16_loop()

int arm_compute::cpu::elementwise_comp_op_16_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	input1_ptr,
		const InputScalarType *	input2_ptr,
		uint8_t *	output_ptr
	)

inline

Definition at line 414 of file elementwise_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a   = wrapper::vloadq(input1_ptr + x);
         const auto b   = wrapper::vloadq(input2_ptr + x);
         const auto res = elementwise_comp_op<op, InputVectorType, uint16x8_t>(a, b);
         wrapper::vstore(output_ptr + x, wrapper::vmovn(res));
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmovn(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_32()

void arm_compute::cpu::elementwise_comp_op_32	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 476 of file elementwise_list.h.

 {
     elementwise_op<InputScalarType, uint8_t, InputVectorType>(in1, in2, out, window,
                                                               &elementwise_comp_op_scalar<op, InputScalarType>,
                                                               &elementwise_comp_op_broadcast_32_loop<op, InputScalarType, InputVectorType>,
                                                               &elementwise_comp_op_32_loop<op, InputScalarType, InputVectorType>);
 }

◆ elementwise_comp_op_32_loop()

int arm_compute::cpu::elementwise_comp_op_32_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	input1_ptr,
		const InputScalarType *	input2_ptr,
		uint8_t *	output_ptr
	)

inline

Definition at line 429 of file elementwise_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         auto       a    = wrapper::vloadq(input1_ptr + x);
         auto       b    = wrapper::vloadq(input2_ptr + x);
         const auto res  = elementwise_comp_op<op, InputVectorType, uint32x4_t>(a, b);
         a               = wrapper::vloadq(input1_ptr + x + 4);
         b               = wrapper::vloadq(input2_ptr + x + 4);
         const auto res2 = elementwise_comp_op<op, InputVectorType, uint32x4_t>(a, b);
         wrapper::vstore(output_ptr + x, wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(res), wrapper::vmovn(res2))));
     }
     if(x <= window_end_x - 4)
     {
         const auto a   = wrapper::vloadq(input1_ptr + x);
         const auto b   = wrapper::vloadq(input2_ptr + x);
         const auto res = elementwise_comp_op<op, InputVectorType, uint32x4_t>(a, b);
         for(int i = 0; i < 4; i++)
         {
             *(output_ptr + x + i) = wrapper::vgetlane(res, i);
         }
         x = +4;
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vcombine(), arm_compute::wrapper::vgetlane(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmovn(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_8()

void arm_compute::cpu::elementwise_comp_op_8	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 458 of file elementwise_list.h.

 {
     elementwise_op<InputScalarType, uint8_t, InputVectorType>(in1, in2, out, window,
                                                               &elementwise_comp_op_scalar<op, InputScalarType>,
                                                               &elementwise_comp_op_broadcast_8_loop<op, InputScalarType, InputVectorType>,
                                                               &elementwise_comp_op_8_loop<op, InputScalarType, InputVectorType>);
 }

◆ elementwise_comp_op_8_loop()

int arm_compute::cpu::elementwise_comp_op_8_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	input1_ptr,
		const InputScalarType *	input2_ptr,
		uint8_t *	output_ptr
	)

inline

Definition at line 399 of file elementwise_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a   = wrapper::vloadq(input1_ptr + x);
         const auto b   = wrapper::vloadq(input2_ptr + x);
         const auto res = elementwise_comp_op<op, InputVectorType, uint8x16_t>(a, b);
         wrapper::vstore(output_ptr + x, res);
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_broadcast()

OutputVectorType arm_compute::cpu::elementwise_comp_op_broadcast	(	const InputVectorType &	a,
		const InputScalarType &	broadcast_value,
		const bool	reorder
	)

inline

Definition at line 343 of file elementwise_list.h.

 {
     InputVectorType broadcast_vector = wrapper::vdup_n(broadcast_value, wrapper::traits::vector_128_tag());
     return elementwise_comp_op<op, InputVectorType, OutputVectorType>(reorder ? broadcast_vector : a, reorder ? a : broadcast_vector);
 }

References arm_compute::wrapper::vdup_n().

◆ elementwise_comp_op_broadcast_16_loop()

int arm_compute::cpu::elementwise_comp_op_broadcast_16_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	non_broadcast_input_ptr,
		const InputScalarType &	broadcast_value,
		uint8_t *	output_ptr,
		const bool	reorder
	)

inline

Definition at line 363 of file elementwise_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint16x8_t>(wrapper::vloadq((non_broadcast_input_ptr + x)), broadcast_value, reorder);
         wrapper::vstore(output_ptr + x, wrapper::vmovn(a));
     }
     return x;
 }

References arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmovn(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_broadcast_32_loop()

int arm_compute::cpu::elementwise_comp_op_broadcast_32_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	non_broadcast_input_ptr,
		const InputScalarType &	broadcast_value,
		uint8_t *	output_ptr,
		const bool	reorder
	)

inline

Definition at line 376 of file elementwise_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint32x4_t>(wrapper::vloadq(non_broadcast_input_ptr + x), broadcast_value, reorder);
         const auto b = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint32x4_t>(wrapper::vloadq(non_broadcast_input_ptr + x + 4), broadcast_value, reorder);
         wrapper::vstore(output_ptr + x, wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(a), wrapper::vmovn(b))));
     }
     if(x <= window_end_x - 4)
     {
         const auto a = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint32x4_t>(wrapper::vloadq((non_broadcast_input_ptr + x)), broadcast_value, reorder);
         for(int i = 0; i < 4; i++)
         {
             *(output_ptr + x + i) = wrapper::vgetlane(a, i);
         }
         x = +4;
     }
     return x;
 }

References arm_compute::test::validation::b, arm_compute::wrapper::vcombine(), arm_compute::wrapper::vgetlane(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmovn(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_broadcast_8_loop()

int arm_compute::cpu::elementwise_comp_op_broadcast_8_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const InputScalarType *	non_broadcast_input_ptr,
		const InputScalarType &	broadcast_value,
		uint8_t *	output_ptr,
		const bool	reorder
	)

inline

Definition at line 350 of file elementwise_list.h.

 {
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const auto a = elementwise_comp_op_broadcast<op, InputScalarType, InputVectorType, uint8x16_t>(wrapper::vloadq((non_broadcast_input_ptr + x)), broadcast_value, reorder);
         wrapper::vstore(output_ptr + x, a);
     }
     return x;
 }

References arm_compute::wrapper::vloadq(), and arm_compute::wrapper::vstore().

◆ elementwise_comp_op_quantized()

void arm_compute::cpu::elementwise_comp_op_quantized	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 637 of file elementwise_quantized_list.h.

 {
     elementwise_op_quantized(in1, in2, out, window, &elementwise_comp_op_quantized_scalar<op>,
                              &elementwise_comp_op_quantized_broadcast_loop<op>,
                              &elementwise_comp_op_quantized_loop<op>);
 }

References elementwise_op_quantized().

◆ elementwise_comp_op_quantized_broadcast_loop()

int arm_compute::cpu::elementwise_comp_op_quantized_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const uint8_t *	non_broadcast_input_ptr,
		float32x4x4_t	broadcast_vector,
		uint8_t *	output_ptr,
		int32x4_t	voffset_non_broadcast,
		float32x4_t	vscale_non_broadcast,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo,
		bool	reorder
	)

inline

Definition at line 266 of file elementwise_quantized_list.h.

 {
     ARM_COMPUTE_UNUSED(voffseto, invvscaleo);
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af = load_quantized(non_broadcast_input_ptr + x, voffset_non_broadcast, vscale_non_broadcast);
         const uint32x4x4_t  rf = elementwise_comp_op<op>(reorder ? broadcast_vector : af, reorder ? af : broadcast_vector);
         store_quantized(output_ptr + x, rf);
     }
     return x;
 }

References ARM_COMPUTE_UNUSED, load_quantized(), and store_quantized().

◆ elementwise_comp_op_quantized_loop()

int arm_compute::cpu::elementwise_comp_op_quantized_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const uint8_t *	input1_ptr,
		const uint8_t *	input2_ptr,
		uint8_t *	output_ptr,
		int32x4_t	voffset1,
		int32x4_t	voffset2,
		float32x4_t	vscale1,
		float32x4_t	vscale2,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo
	)

inline

Definition at line 230 of file elementwise_quantized_list.h.

 {
     ARM_COMPUTE_UNUSED(voffseto, invvscaleo);
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af = load_quantized(input1_ptr + x, voffset1, vscale1);
         const float32x4x4_t bf = load_quantized(input2_ptr + x, voffset2, vscale2);
         const uint32x4x4_t  rf = elementwise_comp_op<op>(af, bf);
         store_quantized(output_ptr + x, rf);
     }
     return x;
 }

References ARM_COMPUTE_UNUSED, load_quantized(), and store_quantized().

◆ elementwise_comp_op_quantized_scalar()

uint8_t arm_compute::cpu::elementwise_comp_op_quantized_scalar	(	const float &	a,
		const float &	b,
		UniformQuantizationInfo	qinfo
	)

inline

Definition at line 141 of file elementwise_quantized_list.h.

 {
     ARM_COMPUTE_UNUSED(qinfo);
     return elementwise_comp_op_scalar<op>(a, b);
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, and arm_compute::test::validation::qinfo.

◆ elementwise_comp_op_quantized_signed()

void arm_compute::cpu::elementwise_comp_op_quantized_signed	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window
	)

Definition at line 645 of file elementwise_quantized_list.h.

 {
     elementwise_comp_quantized_signed(in1, in2, out, window, &elementwise_comp_op_quantized_scalar<op>,
                                       &elementwise_comp_op_quantized_signed_broadcast_loop<op>,
                                       &elementwise_comp_op_quantized_signed_loop<op>);
 }

References elementwise_comp_quantized_signed().

◆ elementwise_comp_op_quantized_signed_broadcast_loop()

int arm_compute::cpu::elementwise_comp_op_quantized_signed_broadcast_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const int8_t *	non_broadcast_input_ptr,
		float32x4x4_t	broadcast_vector,
		uint8_t *	output_ptr,
		int32x4_t	voffset_non_broadcast,
		float32x4_t	vscale_non_broadcast,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo,
		bool	reorder
	)

inline

Definition at line 283 of file elementwise_quantized_list.h.

 {
     ARM_COMPUTE_UNUSED(voffseto, invvscaleo);
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af = load_quantized_signed(non_broadcast_input_ptr + x, voffset_non_broadcast, vscale_non_broadcast);
         const uint32x4x4_t  rf = elementwise_comp_op<op>(reorder ? broadcast_vector : af, reorder ? af : broadcast_vector);
         store_quantized(output_ptr + x, rf);
     }
     return x;
 }

References ARM_COMPUTE_UNUSED, load_quantized_signed(), and store_quantized().

◆ elementwise_comp_op_quantized_signed_loop()

int arm_compute::cpu::elementwise_comp_op_quantized_signed_loop	(	int	window_start_x,
		int	window_end_x,
		int	window_step_x,
		const int8_t *	input1_ptr,
		const int8_t *	input2_ptr,
		uint8_t *	output_ptr,
		int32x4_t	voffset1,
		int32x4_t	voffset2,
		float32x4_t	vscale1,
		float32x4_t	vscale2,
		float32x4_t	voffseto,
		float32x4_t	invvscaleo
	)

inline

Definition at line 248 of file elementwise_quantized_list.h.

 {
     ARM_COMPUTE_UNUSED(voffseto, invvscaleo);
     int x = window_start_x;
     for(; x <= (window_end_x - window_step_x); x += window_step_x)
     {
         const float32x4x4_t af = load_quantized_signed(input1_ptr + x, voffset1, vscale1);
         const float32x4x4_t bf = load_quantized_signed(input2_ptr + x, voffset2, vscale2);
         const uint32x4x4_t  rf = elementwise_comp_op<op>(af, bf);
         store_quantized(output_ptr + x, rf);
     }
     return x;
 }

References ARM_COMPUTE_UNUSED, load_quantized_signed(), and store_quantized().

◆ elementwise_comp_op_scalar()

uint8_t arm_compute::cpu::elementwise_comp_op_scalar	(	const InputScalarType &	a,
		const InputScalarType &	b
	)

inline

Definition at line 280 of file elementwise_list.h.

 {
     bool res = false;
 
     switch(op)
     {
         case ComparisonOperation::Equal:
             res = (a == b);
             break;
         case ComparisonOperation::NotEqual:
             res = (a != b);
             break;
         case ComparisonOperation::Greater:
             res = (a > b);
             break;
         case ComparisonOperation::GreaterEqual:
             res = (a >= b);
             break;
         case ComparisonOperation::Less:
             res = (a < b);
             break;
         case ComparisonOperation::LessEqual:
             res = (a <= b);
             break;
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
     return res ? ~static_cast<uint8_t>(0) : static_cast<uint8_t>(0);
 }

References ARM_COMPUTE_ERROR, arm_compute::test::validation::b, arm_compute::Equal, arm_compute::Greater, arm_compute::GreaterEqual, arm_compute::Less, arm_compute::LessEqual, and arm_compute::NotEqual.

◆ elementwise_comp_quantized_signed()

void arm_compute::cpu::elementwise_comp_quantized_signed	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window,
		uint8_t(*)(const float &, const float &, UniformQuantizationInfo)	scalar_func,
		int()(int, int, int, const int8_t , float32x4x4_t, uint8_t *, int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool)	broadcast_func,
		int()(int, int, int, const int8_t , const int8_t , uint8_t , int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t)	neon_func
	)

Definition at line 407 of file elementwise_quantized_list.h.

 {
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
 
     const UniformQuantizationInfo output_qinfo = out->info()->quantization_info().uniform();
 
     const float32x4_t voffseto   = vdupq_n_f32(output_qinfo.offset);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / output_qinfo.scale);
 
     if(is_broadcast_across_x)
     {
         // Select the broadcast input on the X axis
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
 
         const UniformQuantizationInfo broadcast_qinfo     = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo = non_broadcast_tensor->info()->quantization_info().uniform();
 
         const int32x4_t   voffset_non_broadcast = vdupq_n_s32(non_broadcast_qinfo.offset);
         const float32x4_t vscale_non_broadcast  = vdupq_n_f32(non_broadcast_qinfo.scale);
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const int8_t *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<uint8_t *>(output.ptr());
 
             const int8_t        broadcast_value  = *reinterpret_cast<const int8_t *>(broadcast_input.ptr());
             const float32x4x4_t broadcast_vector = vdequantize(vdupq_n_s8(broadcast_value), broadcast_qinfo);
 
             int x = (*broadcast_func)(window_start_x, window_end_x, window_step_x, non_broadcast_input_ptr, broadcast_vector, output_ptr,
                                       voffset_non_broadcast, vscale_non_broadcast, voffseto, invvscaleo, !is_broadcast_input_2);
             for(; x < window_end_x; ++x)
             {
                 const float afs   = dequantize_qasymm8_signed(*(non_broadcast_input_ptr + x), non_broadcast_qinfo);
                 const float bfs   = dequantize_qasymm8_signed(broadcast_value, broadcast_qinfo);
                 *(output_ptr + x) = (*scalar_func)(!is_broadcast_input_2 ? bfs : afs, !is_broadcast_input_2 ? afs : bfs, output_qinfo);
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         const UniformQuantizationInfo input1_qinfo = in1->info()->quantization_info().uniform();
         const UniformQuantizationInfo input2_qinfo = in2->info()->quantization_info().uniform();
 
         // Input1 quantization info
         const int32x4_t   voffset1 = vdupq_n_s32(input1_qinfo.offset);
         const float32x4_t vscale1  = vdupq_n_f32(input1_qinfo.scale);
 
         // Input2 quantization info
         const int32x4_t   voffset2 = vdupq_n_s32(input2_qinfo.offset);
         const float32x4_t vscale2  = vdupq_n_f32(input2_qinfo.scale);
 
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const int8_t *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const int8_t *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<uint8_t *>(output.ptr());
 
             int x = (*neon_func)(window_start_x, window_end_x, window_step_x, input1_ptr, input2_ptr, output_ptr, voffset1, voffset2,
                                  vscale1, vscale2, voffseto, invvscaleo);
             for(; x < window_end_x; ++x)
             {
                 const float afs   = dequantize_qasymm8_signed(*(input1_ptr + x), input1_qinfo);
                 const float bfs   = dequantize_qasymm8_signed(*(input2_ptr + x), input2_qinfo);
                 *(output_ptr + x) = (*scalar_func)(afs, bfs, output_qinfo);
             }
         },
         input1, input2, output);
     }
 }

References arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), arm_compute::dequantize_qasymm8_signed(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), arm_compute::vdequantize(), Dimensions< T >::x(), and Window::x().

Referenced by elementwise_comp_op_quantized_signed().

◆ elementwise_op() [1/2]

void arm_compute::cpu::elementwise_op	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window,
		OutputScalarType(*)(const InputScalarType &, const InputScalarType &)	scalar_func,
		int()(int, int, int, const InputScalarType , const InputScalarType &, OutputScalarType *, const bool)	broadcast_func,
		int()(int, int, int, const InputScalarType , const InputScalarType , OutputScalarType )	neon_func
	)

Definition at line 36 of file elementwise_list.h.

 {
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = std::min(16 / static_cast<int>(sizeof(OutputScalarType)), 8);
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
 
     if(is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             auto                  output_ptr              = reinterpret_cast<OutputScalarType *>(output.ptr());
             const auto            non_broadcast_input_ptr = reinterpret_cast<const InputScalarType *>(non_broadcast_input.ptr());
             const InputScalarType broadcast_value         = *reinterpret_cast<const InputScalarType *>(broadcast_input.ptr());
 
             int x = (*broadcast_func)(window_start_x, window_end_x, window_step_x, non_broadcast_input_ptr, broadcast_value, output_ptr, !is_broadcast_input_2);
             for(; x < window_end_x; ++x)
             {
                 const auto a      = *(non_broadcast_input_ptr + x);
                 *(output_ptr + x) = (*scalar_func)(!is_broadcast_input_2 ? broadcast_value : a, !is_broadcast_input_2 ? a : broadcast_value);
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             auto       output_ptr = reinterpret_cast<OutputScalarType *>(output.ptr());
             const auto input1_ptr = reinterpret_cast<const InputScalarType *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const InputScalarType *>(input2.ptr());
 
             int x = (*neon_func)(window_start_x, window_end_x, window_step_x, input1_ptr, input2_ptr, output_ptr);
             for(; x < window_end_x; ++x)
             {
                 const auto a      = *(input1_ptr + x);
                 const auto b      = *(input2_ptr + x);
                 *(output_ptr + x) = (*scalar_func)(a, b);
             }
         },
         input1, input2, output);
     }
 }

References arm_compute::test::validation::b, Window::broadcast_if_dimension_le_one(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), Dimensions< T >::x(), and Window::x().

◆ elementwise_op() [2/2]

void arm_compute::cpu::elementwise_op	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window,
		ElementWiseUnary	op
	)

Definition at line 83 of file elementwise_unary_list.h.

 {
     const int  window_step_x  = 16 / sizeof(ScalarType);
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
 
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     Iterator input(in, win);
     Iterator output(out, win);
 
     execute_window_loop(win, [&](const Coordinates &)
     {
         auto       output_ptr = reinterpret_cast<ScalarType *>(output.ptr());
         const auto input_ptr  = reinterpret_cast<const ScalarType *>(input.ptr());
 
         int x = window_start_x;
         for(; x <= window_end_x - window_step_x; x += window_step_x)
         {
             wrapper::vstore(output_ptr + x, elementwise_op_imp<ScalarType>(op, wrapper::vloadq(input_ptr + x)));
         }
         for(; x < window_end_x; ++x)
         {
             *(output_ptr + x) = elementwise_op_scalar_imp(op, *(input_ptr + x));
         }
     },
     input, output);
 }

References Window::DimX, elementwise_op_scalar_imp(), Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::input, Iterator::ptr(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vstore(), and Window::x().

◆ elementwise_op_imp()

VectorType arm_compute::cpu::elementwise_op_imp	(	ElementWiseUnary	op,
		const VectorType &	a
	)

inline

Definition at line 59 of file elementwise_unary_list.h.

 {
     switch(op)
     {
         case ElementWiseUnary::RSQRT:
             return wrapper::vinvsqrt(a);
         case ElementWiseUnary::EXP:
             return wrapper::vexpq(a);
         case ElementWiseUnary::NEG:
             return wrapper::vneg(a);
         case ElementWiseUnary::LOG:
             return wrapper::vlog(a);
         case ElementWiseUnary::ABS:
             return wrapper::vabs(a);
         case ElementWiseUnary::ROUND:
             return wrapper::vround(a);
         case ElementWiseUnary::SIN:
             return wrapper::vsin(a);
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
 }

References arm_compute::ABS, ARM_COMPUTE_ERROR, arm_compute::EXP, arm_compute::LOG, arm_compute::NEG, arm_compute::ROUND, arm_compute::RSQRT, arm_compute::SIN, arm_compute::wrapper::vabs(), arm_compute::wrapper::vexpq(), arm_compute::wrapper::vinvsqrt(), arm_compute::wrapper::vlog(), arm_compute::wrapper::vneg(), arm_compute::wrapper::vround(), and arm_compute::wrapper::vsin().

◆ elementwise_op_quantized()

void arm_compute::cpu::elementwise_op_quantized	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window,
		uint8_t(*)(const float &, const float &, UniformQuantizationInfo)	scalar_func,
		int()(int, int, int, const uint8_t , float32x4x4_t, uint8_t *, int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool)	broadcast_func,
		int()(int, int, int, const uint8_t , const uint8_t , uint8_t , int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t)	neon_func
	)

Definition at line 299 of file elementwise_quantized_list.h.

 {
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
 
     const UniformQuantizationInfo output_qinfo = out->info()->quantization_info().uniform();
 
     // Output quantization info (add 0.5 to round toward the nearest integer - 0.5 rounds away from zero)
     const float32x4_t voffseto   = vdupq_n_f32(output_qinfo.offset + 0.5f);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / output_qinfo.scale);
 
     if(is_broadcast_across_x)
     {
         // Select the broadcast input on the X axis
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
 
         const UniformQuantizationInfo broadcast_qinfo     = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo = non_broadcast_tensor->info()->quantization_info().uniform();
 
         const int32x4_t   voffset_non_broadcast = vdupq_n_s32(non_broadcast_qinfo.offset);
         const float32x4_t vscale_non_broadcast  = vdupq_n_f32(non_broadcast_qinfo.scale);
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const uint8_t *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<uint8_t *>(output.ptr());
 
             const uint8_t       broadcast_value  = *reinterpret_cast<const uint8_t *>(broadcast_input.ptr());
             const float32x4x4_t broadcast_vector = vdequantize(vdupq_n_u8(broadcast_value), broadcast_qinfo);
 
             int x = (*broadcast_func)(window_start_x, window_end_x, window_step_x, non_broadcast_input_ptr, broadcast_vector, output_ptr,
                                       voffset_non_broadcast, vscale_non_broadcast, voffseto, invvscaleo, !is_broadcast_input_2);
             for(; x < window_end_x; ++x)
             {
                 const float afs   = dequantize_qasymm8(*(non_broadcast_input_ptr + x), non_broadcast_qinfo);
                 const float bfs   = dequantize_qasymm8(broadcast_value, broadcast_qinfo);
                 *(output_ptr + x) = (*scalar_func)(!is_broadcast_input_2 ? bfs : afs, !is_broadcast_input_2 ? afs : bfs, output_qinfo);
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         const UniformQuantizationInfo input1_qinfo = in1->info()->quantization_info().uniform();
         const UniformQuantizationInfo input2_qinfo = in2->info()->quantization_info().uniform();
 
         // Input1 quantization info
         const int32x4_t   voffset1 = vdupq_n_s32(input1_qinfo.offset);
         const float32x4_t vscale1  = vdupq_n_f32(input1_qinfo.scale);
 
         // Input2 quantization info
         const int32x4_t   voffset2 = vdupq_n_s32(input2_qinfo.offset);
         const float32x4_t vscale2  = vdupq_n_f32(input2_qinfo.scale);
 
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const uint8_t *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const uint8_t *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<uint8_t *>(output.ptr());
 
             int x = (*neon_func)(window_start_x, window_end_x, window_step_x, input1_ptr, input2_ptr, output_ptr, voffset1, voffset2,
                                  vscale1, vscale2, voffseto, invvscaleo);
             for(; x < window_end_x; ++x)
             {
                 const float afs   = dequantize_qasymm8(*(input1_ptr + x), input1_qinfo);
                 const float bfs   = dequantize_qasymm8(*(input2_ptr + x), input2_qinfo);
                 *(output_ptr + x) = (*scalar_func)(afs, bfs, output_qinfo);
             }
         },
         input1, input2, output);
     }
 }

References arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), arm_compute::dequantize_qasymm8(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), arm_compute::vdequantize(), Dimensions< T >::x(), and Window::x().

Referenced by elementwise_arithm_op_quantized(), and elementwise_comp_op_quantized().

◆ elementwise_op_quantized_signed()

void arm_compute::cpu::elementwise_op_quantized_signed	(	const ITensor *	in1,
		const ITensor *	in2,
		ITensor *	out,
		const Window &	window,
		int8_t(*)(const float &, const float &, UniformQuantizationInfo)	scalar_func,
		int()(int, int, int, const int8_t , float32x4x4_t, int8_t *, int32x4_t, float32x4_t, float32x4_t, float32x4_t, const bool)	broadcast_func,
		int()(int, int, int, const int8_t , const int8_t , int8_t , int32x4_t, int32x4_t, float32x4_t, float32x4_t, float32x4_t, float32x4_t)	neon_func
	)

Definition at line 514 of file elementwise_quantized_list.h.

 {
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(in1->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(in2->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = in1->info()->tensor_shape().x() != in2->info()->tensor_shape().x();
 
     const UniformQuantizationInfo output_qinfo = out->info()->quantization_info().uniform();
 
     const float32x4_t voffseto   = vdupq_n_f32(output_qinfo.offset);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / output_qinfo.scale);
 
     if(is_broadcast_across_x)
     {
         // Select the broadcast input on the X axis
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? in2 : in1;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? in2 : in1;
 
         const UniformQuantizationInfo broadcast_qinfo     = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo = non_broadcast_tensor->info()->quantization_info().uniform();
 
         const int32x4_t   voffset_non_broadcast = vdupq_n_s32(non_broadcast_qinfo.offset);
         const float32x4_t vscale_non_broadcast  = vdupq_n_f32(non_broadcast_qinfo.scale);
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(out, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const int8_t *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<int8_t *>(output.ptr());
 
             const int8_t        broadcast_value  = *reinterpret_cast<const int8_t *>(broadcast_input.ptr());
             const float32x4x4_t broadcast_vector = vdequantize(vdupq_n_s8(broadcast_value), broadcast_qinfo);
 
             int x = (*broadcast_func)(window_start_x, window_end_x, window_step_x, non_broadcast_input_ptr, broadcast_vector, output_ptr,
                                       voffset_non_broadcast, vscale_non_broadcast, voffseto, invvscaleo, !is_broadcast_input_2);
             for(; x < window_end_x; ++x)
             {
                 const float afs   = dequantize_qasymm8_signed(*(non_broadcast_input_ptr + x), non_broadcast_qinfo);
                 const float bfs   = dequantize_qasymm8_signed(broadcast_value, broadcast_qinfo);
                 *(output_ptr + x) = (*scalar_func)(!is_broadcast_input_2 ? bfs : afs, !is_broadcast_input_2 ? afs : bfs, output_qinfo);
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         const UniformQuantizationInfo input1_qinfo = in1->info()->quantization_info().uniform();
         const UniformQuantizationInfo input2_qinfo = in2->info()->quantization_info().uniform();
 
         // Input1 quantization info
         const int32x4_t   voffset1 = vdupq_n_s32(input1_qinfo.offset);
         const float32x4_t vscale1  = vdupq_n_f32(input1_qinfo.scale);
 
         // Input2 quantization info
         const int32x4_t   voffset2 = vdupq_n_s32(input2_qinfo.offset);
         const float32x4_t vscale2  = vdupq_n_f32(input2_qinfo.scale);
 
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(in1, input1_win);
         Iterator input2(in2, input2_win);
         Iterator output(out, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const int8_t *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const int8_t *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<int8_t *>(output.ptr());
 
             int x = (*neon_func)(window_start_x, window_end_x, window_step_x, input1_ptr, input2_ptr, output_ptr, voffset1, voffset2,
                                  vscale1, vscale2, voffseto, invvscaleo);
             for(; x < window_end_x; ++x)
             {
                 const float afs   = dequantize_qasymm8_signed(*(input1_ptr + x), input1_qinfo);
                 const float bfs   = dequantize_qasymm8_signed(*(input2_ptr + x), input2_qinfo);
                 *(output_ptr + x) = (*scalar_func)(afs, bfs, output_qinfo);
             }
         },
         input1, input2, output);
     }
 }

References arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), arm_compute::dequantize_qasymm8_signed(), Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), UniformQuantizationInfo::offset, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), arm_compute::vdequantize(), Dimensions< T >::x(), and Window::x().

Referenced by elementwise_arithm_op_quantized_signed().

◆ elementwise_op_scalar_imp()

ScalarType arm_compute::cpu::elementwise_op_scalar_imp	(	ElementWiseUnary	op,
		const ScalarType &	a
	)

inline

Definition at line 35 of file elementwise_unary_list.h.

 {
     switch(op)
     {
         case ElementWiseUnary::RSQRT:
             return 1 / sqrt(a);
         case ElementWiseUnary::EXP:
             return std::exp(a);
         case ElementWiseUnary::NEG:
             return -a;
         case ElementWiseUnary::LOG:
             return std::log(a);
         case ElementWiseUnary::ABS:
             return std::abs(a);
         case ElementWiseUnary::ROUND:
             return support::cpp11::nearbyint(a);
         case ElementWiseUnary::SIN:
             return std::sin(a);
         default:
             ARM_COMPUTE_ERROR("NOT_SUPPORTED!");
     }
 }

References arm_compute::ABS, ARM_COMPUTE_ERROR, arm_compute::EXP, arm_compute::LOG, arm_compute::support::cpp11::nearbyint(), arm_compute::NEG, arm_compute::ROUND, arm_compute::RSQRT, and arm_compute::SIN.

Referenced by elementwise_op().

◆ fp16_neon_activation()

void arm_compute::cpu::fp16_neon_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ fp16_neon_batch_normalization()

void arm_compute::cpu::fp16_neon_batch_normalization	(	ITensor *	src,
		ITensor *	dst,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ fp16_neon_floor()

void arm_compute::cpu::fp16_neon_floor	(	const void *	src,
		void *	dst,
		int	len
	)

◆ fp16_sve_activation()

void arm_compute::cpu::fp16_sve_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ fp16_sve_batch_normalization()

void arm_compute::cpu::fp16_sve_batch_normalization	(	ITensor *	src,
		ITensor *	dst,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ fp16_sve_scale()

void arm_compute::cpu::fp16_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

◆ fp32_neon_activation()

void fp32_neon_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 49 of file fp32.cpp.

 {
     /** SIMD vector tag type. */
     using ExactTagType = typename arm_compute::wrapper::traits::neon_bitvector_tag_t<float, wrapper::traits::BitWidth::W128>;
 
     constexpr int                                 window_step_x  = 4;
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
 
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
 
     // In case of non-aarch64, a small delta value is added to the input
     // to prevent NAN values caused by zeros in inputs to SQRT.
     // In case of aarh64, we call vsqrt directly, so we don't use delta.
 #ifndef __aarch64__
     const auto delta = wrapper::vdup_n(static_cast<float>(1e-24), ExactTagType {});
 #endif /* __aarch64__ */
     const auto const_1     = wrapper::vdup_n(static_cast<float>(1.f), ExactTagType {});
     const auto const_0     = wrapper::vdup_n(static_cast<float>(0.f), ExactTagType{});
     const auto const_6     = wrapper::vdup_n(static_cast<float>(6.f), ExactTagType{});
     const auto const_3     = wrapper::vdup_n(static_cast<float>(3.f), ExactTagType{});
     const auto const_inv_6 = wrapper::vdup_n(static_cast<float>(0.166666667f), ExactTagType{});
 
     constexpr float soft_relu_thresh  = 12.f;
     const auto      vsoft_relu_thresh = wrapper::vdup_n(static_cast<float>(soft_relu_thresh), ExactTagType{});
 
     const auto va = wrapper::vdup_n(static_cast<float>(act_info.a()), ExactTagType{});
     const auto vb = wrapper::vdup_n(static_cast<float>(act_info.b()), ExactTagType{});
     const auto a  = static_cast<float>(act_info.a());
     const auto b  = static_cast<float>(act_info.b());
     execute_window_loop(win_collapsed, [&](const Coordinates &)
     {
         const auto input_ptr  = reinterpret_cast<const float *>(input.ptr());
         const auto output_ptr = reinterpret_cast<float *>(output.ptr());
 
         wrapper::traits::neon_bitvector_t<float, wrapper::traits::BitWidth::W128> tmp;
 
         // Compute S elements per iteration
         int x = window_start_x;
         for(; x <= (window_end_x - window_step_x); x += window_step_x)
         {
             const auto vin = wrapper::vloadq(input_ptr + x);
             switch(act)
             {
                 case ActivationLayerInfo::ActivationFunction::ABS:
                     tmp = wrapper::vabs(vin);
                     break;
                 case ActivationLayerInfo::ActivationFunction::LINEAR:
                     tmp = wrapper::vmla(vb, va, vin);
                     break;
                 case ActivationLayerInfo::ActivationFunction::LOGISTIC:
                     tmp = wrapper::vinv(wrapper::vadd(const_1, wrapper::vexpq(wrapper::vneg(vin))));
                     break;
                 case ActivationLayerInfo::ActivationFunction::RELU:
                     tmp = wrapper::vmax(const_0, vin);
                     break;
                 case ActivationLayerInfo::ActivationFunction::BOUNDED_RELU:
                     tmp = wrapper::vmin(va, wrapper::vmax(const_0, vin));
                     break;
                 case ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU:
                     tmp = wrapper::vmin(va, wrapper::vmax(vb, vin));
                     break;
                 case ActivationLayerInfo::ActivationFunction::LEAKY_RELU:
                     tmp = wrapper::vbsl(wrapper::vcgt(vin, const_0), vin, wrapper::vmul(va, vin));
                     break;
                 case ActivationLayerInfo::ActivationFunction::SOFT_RELU:
                     tmp = wrapper::vbsl(wrapper::vcgt(vin, vsoft_relu_thresh), vin, wrapper::vlog(wrapper::vadd(const_1, wrapper::vexpq(vin))));
                     break;
                 case ActivationLayerInfo::ActivationFunction::ELU:
                     tmp = wrapper::vbsl(wrapper::vcge(vin, const_0), vin, wrapper::vmul(va, wrapper::vsub(wrapper::vexpq(vin), const_1)));
                     break;
                 case ActivationLayerInfo::ActivationFunction::SQRT:
 #ifdef __aarch64__
                     tmp = wrapper::vsqrt(vin);
 #else  /* __aarch64__ */
                     {
                         const auto bitmask = wrapper::vceq(vin, wrapper::vdup_n(0.f, ExactTagType{}));
                         tmp                 = wrapper::vinv(wrapper::vinvsqrt(wrapper::vadd(vin, mask_float_vector(delta, bitmask))));
                         tmp                 = mask_float_vector(tmp, wrapper::vnot(bitmask));
                     }
 #endif /* __aarch64__ */
                     break;
                 case ActivationLayerInfo::ActivationFunction::SQUARE:
                     tmp = wrapper::vmul(vin, vin);
                     break;
                 case ActivationLayerInfo::ActivationFunction::TANH:
                     tmp = wrapper::vmul(va, wrapper::vtanh(wrapper::vmul(vb, vin)));
                     break;
                 case ActivationLayerInfo::ActivationFunction::IDENTITY:
                     tmp = vin;
                     break;
                 case ActivationLayerInfo::ActivationFunction::HARD_SWISH:
                     tmp = wrapper::vmul(vin, wrapper::vmul(const_inv_6, wrapper::vmin(const_6, wrapper::vmax(const_0, wrapper::vadd(vin, const_3)))));
                     break;
                 default:
                     ARM_COMPUTE_ERROR("Unsupported activation function");
             }
             wrapper::vstore(output_ptr + x, tmp);
         }
 
         // Compute left-over elements
         for(; x < window_end_x; ++x)
         {
             const float in = *(reinterpret_cast<const float *>(input_ptr + x));
             float       tmp;
             switch(act)
             {
                 case ActivationLayerInfo::ActivationFunction::ABS:
                     tmp = std::abs(in);
                     break;
                 case ActivationLayerInfo::ActivationFunction::LINEAR:
                     tmp = a * in + b;
                     break;
                 case ActivationLayerInfo::ActivationFunction::LOGISTIC:
                     tmp = static_cast<float>(1) / (static_cast<float>(1) + std::exp(-in));
                     break;
                 case ActivationLayerInfo::ActivationFunction::RELU:
                     tmp = std::max<float>(static_cast<float>(0), in);
                     break;
                 case ActivationLayerInfo::ActivationFunction::BOUNDED_RELU:
                     tmp = std::min<float>(a, std::max(static_cast<float>(0), in));
                     break;
                 case ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU:
                     tmp = std::min<float>(a, std::max<float>(b, in));
                     break;
                 case ActivationLayerInfo::ActivationFunction::LEAKY_RELU:
                     tmp = (in > 0) ? in : a * in;
                     break;
                 case ActivationLayerInfo::ActivationFunction::SOFT_RELU:
                     tmp = (in > soft_relu_thresh) ? in : std::log(static_cast<float>(1) + std::exp(in));
                     break;
                 case ActivationLayerInfo::ActivationFunction::ELU:
                     tmp = (in >= 0) ? in : a * (std::exp(in) - 1);
                     break;
                 case ActivationLayerInfo::ActivationFunction::SQRT:
                     tmp = std::sqrt(in);
                     break;
                 case ActivationLayerInfo::ActivationFunction::SQUARE:
                     tmp = in * in;
                     break;
                 case ActivationLayerInfo::ActivationFunction::TANH:
                     tmp = a * std::tanh(b * in);
                     break;
                 case ActivationLayerInfo::ActivationFunction::IDENTITY:
                     tmp = in;
                     break;
                 case ActivationLayerInfo::ActivationFunction::HARD_SWISH:
                     tmp = in * ((std::min(std::max((in + 3), 0.0f), 6.0f)) * 0.166666667f);
                     break;
                 default:
                     ARM_COMPUTE_ERROR("Unsupported activation function");
             }
             *(output_ptr + x) = tmp;
         }
     },
     input, output);
 }

◆ fp32_neon_batch_normalization()

void fp32_neon_batch_normalization	(	ITensor *	src,
		ITensor *	dst,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 135 of file fp32.cpp.

 {
     if(act_info.enabled())
     {
         fused_map[act_info.activation()](src, dst, mean, var, beta, gamma, epsilon, act_info, window);
     }
     else
     {
         batch_normalization<detail::dummy<float, 4>>(src, dst, mean, var, beta, gamma, epsilon, act_info, window);
     }
 }

References ActivationLayerInfo::activation(), arm_compute::test::validation::dst, ActivationLayerInfo::enabled(), arm_compute::quantization::epsilon, and arm_compute::test::validation::src.

◆ fp32_neon_floor()

void fp32_neon_floor	(	const void *	src,
		void *	dst,
		int	len
	)

Definition at line 37 of file fp32.cpp.

 {
     ARM_COMPUTE_ASSERT_NOT_NULLPTR(src);
     ARM_COMPUTE_ASSERT_NOT_NULLPTR(dst);
     ARM_COMPUTE_ASSERT(len >= 0);
 
     auto psrc = static_cast<const float *>(src);
     auto pdst = static_cast<float *>(dst);
 
     for(; len >= step; len -= step)
     {
         vst1q_f32(pdst, vfloorq_f32(vld1q_f32(psrc)));
         psrc += step;
         pdst += step;
     }
 
     for(; len > 0; --len)
     {
         *pdst = std::floor(*psrc);
         ++pdst;
         ++psrc;
     }
 }

References ARM_COMPUTE_ASSERT, ARM_COMPUTE_ASSERT_NOT_NULLPTR, arm_compute::test::validation::dst, arm_compute::test::validation::src, step, and arm_compute::vfloorq_f32().

◆ fp32_sve_activation()

void arm_compute::cpu::fp32_sve_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ fp32_sve_batch_normalization()

void arm_compute::cpu::fp32_sve_batch_normalization	(	ITensor *	src,
		ITensor *	dst,
		const ITensor *	mean,
		const ITensor *	var,
		const ITensor *	beta,
		const ITensor *	gamma,
		float	epsilon,
		ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ fp32_sve_scale()

void arm_compute::cpu::fp32_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

◆ load_quantized()

float32x4x4_t arm_compute::cpu::load_quantized	(	const uint8_t *	input1_ptr,
		const int32x4_t &	offset,
		const float32x4_t &	scale
	)

Definition at line 33 of file elementwise_quantized_list.h.

 {
     qasymm8x16_t        x = vld1q_u8(input1_ptr);
     const float32x4x4_t out =
     {
         {
             vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_low_u8(x))))), offset)), scale),
             vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_low_u8(x))))), offset)), scale),
             vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_low_u16(vmovl_u8(vget_high_u8(x))))), offset)), scale),
             vmulq_f32(vcvtq_f32_s32(vsubq_s32(vreinterpretq_s32_u32(vmovl_u16(vget_high_u16(vmovl_u8(vget_high_u8(x))))), offset)), scale),
         }
     };
     return out;
 }

References offset(), and arm_compute::test::validation::scale.

Referenced by elementwise_arithm_op_quantized_broadcast_loop(), elementwise_arithm_op_quantized_loop(), elementwise_comp_op_quantized_broadcast_loop(), and elementwise_comp_op_quantized_loop().

◆ load_quantized_signed()

float32x4x4_t arm_compute::cpu::load_quantized_signed	(	const int8_t *	input1_ptr,
		const int32x4_t &	offset,
		const float32x4_t &	scale
	)

Definition at line 48 of file elementwise_quantized_list.h.

 {
     qasymm8x16_signed_t x = vld1q_s8(input1_ptr);
     const float32x4x4_t out =
     {
         {
             vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_low_s8(x)))), offset)), scale),
             vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_low_s8(x)))), offset)), scale),
             vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_low_s16(vmovl_s8(vget_high_s8(x)))), offset)), scale),
             vmulq_f32(vcvtq_f32_s32(vsubq_s32(vmovl_s16(vget_high_s16(vmovl_s8(vget_high_s8(x)))), offset)), scale),
         }
     };
     return out;
 }

References offset(), and arm_compute::test::validation::scale.

Referenced by elementwise_arithm_op_quantized_signed_broadcast_loop(), elementwise_arithm_op_quantized_singed_loop(), elementwise_comp_op_quantized_signed_broadcast_loop(), and elementwise_comp_op_quantized_signed_loop().

◆ nearest_neon_scale()

void arm_compute::cpu::nearest_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 51 of file list.h.

 {
     const size_t in_stride_c  = src->info()->dimension(0) + src->info()->padding().left + src->info()->padding().right;
     const size_t in_stride_w  = src->info()->dimension(1) + src->info()->padding().top + src->info()->padding().bottom;
     const size_t in_stride_wc = in_stride_w * in_stride_c;
     const size_t in_dim_h     = src->info()->dimension(2);
 
     // Compute the ratio between source height and destination height
     const auto hr             = scale_utils::calculate_resize_ratio(in_dim_h, dst->info()->dimension(2), align_corners);
     const auto window_start_x = static_cast<int32_t>(window.x().start());
     const auto window_end_x   = static_cast<int32_t>(window.x().end());
     const int  window_step_x  = 16 / sizeof(T);
 
     Window win(window);
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
     Iterator out(dst, win);
 
     const uint8_t     *in_ptr_start        = src->buffer() + src->info()->offset_first_element_in_bytes();
     const unsigned int in_stride_bytes_hwc = src->info()->strides_in_bytes()[3];
 
     execute_window_loop(win, [&](const Coordinates & id)
     {
         const int32_t offset     = *reinterpret_cast<const int32_t *>(offsets->ptr_to_element(Coordinates(id.y(), id.z()))) * in_stride_c;
         const auto    in_hi      = static_cast<int>(align_corners ? utils::rounding::round_half_away_from_zero((id.z() + sampling_offset) * hr) : std::floor((id.z() + sampling_offset) * hr));
         const int     offset_row = in_hi * in_stride_wc;
         int32_t       x          = window_start_x;
         const T      *in_ptr     = reinterpret_cast<const T *>(in_ptr_start + in_stride_bytes_hwc * id[3]);
 
         for(; x <= window_end_x - window_step_x; x += window_step_x)
         {
             wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x,
                             wrapper::vloadq(in_ptr + offset + offset_row + x));
         }
         for(; x < window_end_x; ++x)
         {
             *(reinterpret_cast<T *>(out.ptr()) + x) = *(in_ptr + offset + offset_row + x);
         }
     },
     out);
 }

References arm_compute::scale_utils::calculate_resize_ratio(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), offset(), Iterator::ptr(), ITensor::ptr_to_element(), arm_compute::utils::rounding::round_half_away_from_zero(), Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vstore(), and Window::x().

◆ neon_logits_1d_max()

void arm_compute::cpu::neon_logits_1d_max	(	const ITensor *	in,
		ITensor *	out,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 37 of file list.h.

 {
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
 
     constexpr int window_step_x  = 16 / sizeof(T);
     const auto    window_start_x = static_cast<int>(window.x().start());
     const auto    window_end_x   = static_cast<int>(window.x().end());
 
     Window win{ window };
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
     Iterator input(in, win);
     Iterator output(out, win);
 
     const int sum_stages = log2(window_step_x / 2);
     execute_window_loop(win, [&](const Coordinates &)
     {
         // Get pointers
         const auto in_ptr  = reinterpret_cast<const T *>(input.ptr());
         const auto out_ptr = reinterpret_cast<T *>(output.ptr());
 
         // Init max value
         auto vec_max = wrapper::vdup_n(support::cpp11::lowest<T>(), ExactTagType{});
         int  x       = window_start_x;
 
         for(; x <= (window_end_x - window_step_x); x += window_step_x)
         {
             const auto current_value = wrapper::vloadq(in_ptr + x);
             vec_max                  = wrapper::vmax(vec_max, current_value);
         }
         auto carry_max = wrapper::vpmax(wrapper::vgethigh(vec_max), wrapper::vgetlow(vec_max));
 
         for(int i = 0; i < sum_stages; ++i)
         {
             carry_max = wrapper::vpmax(carry_max, carry_max);
         }
         T max_val = wrapper::vgetlane(carry_max, 0);
 
         // Compute left-over elements
         for(; x < window_end_x; ++x)
         {
             max_val = *(in_ptr + x) > max_val ? *(in_ptr + x) : max_val;
         }
 
         *out_ptr = max_val;
     },
     input, output);
 }

References Window::DimX, Window::Dimension::end(), arm_compute::execute_window_loop(), arm_compute::test::validation::input, Iterator::ptr(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vgethigh(), arm_compute::wrapper::vgetlane(), arm_compute::wrapper::vgetlow(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmax(), arm_compute::wrapper::vpmax(), and Window::x().

◆ neon_softmax_logits_1d_float()

void arm_compute::cpu::neon_softmax_logits_1d_float	(	const ITensor *	in,
		const ITensor *	max,
		void *const	tmp,
		ITensor *	out,
		const float	beta,
		bool	is_log,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 260 of file list.h.

 {
     const int start_x     = in->info()->valid_region().anchor.x();
     const int input_width = in->info()->valid_region().shape.x();
 
     Iterator in_it(in, window);
     Iterator max_it(max, window);
     Iterator out_it(out, window);
 
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
 
     constexpr int vec_size   = 16 / sizeof(T);
     const int     sum_stages = log2(vec_size / 2);
 
     execute_window_loop(window, [&](const Coordinates &)
     {
         /* Get pointers */
         const auto in_ptr  = reinterpret_cast<const T *>(in_it.ptr()) + start_x;
         const auto out_ptr = reinterpret_cast<T *>(out_it.ptr()) + start_x;
         const auto tmp_ptr = reinterpret_cast<T *>(tmp);
 
         T sum{};
         T sum_inversed{};
 
         /* Compute exponentials and sum */
         {
             /* Get max value */
             const auto max_val = *reinterpret_cast<const T *>(max_it.ptr());
             const auto vec_max = wrapper::vdup_n(max_val, ExactTagType{});
 
             /* Init sum to zero */
             auto vec_sum = wrapper::vdup_n(static_cast<T>(0), ExactTagType{});
 
             /* Loop over row and compute exponentials and sum */
             int x = 0;
             for(; x <= (input_width - vec_size); x += vec_size)
             {
                 auto vec_elements = wrapper::vloadq(in_ptr + x);
                 vec_elements      = wrapper::vsub(vec_elements, vec_max);
                 if(is_log)
                 {
                     vec_elements = wrapper::vmul(vec_elements, wrapper::vdup_n(static_cast<T>(beta), ExactTagType{}));
                     vec_sum      = wrapper::vadd(vec_sum, wrapper::vexpq(vec_elements));
                 }
                 else
                 {
                     vec_elements = wrapper::vexpq(wrapper::vmul(vec_elements, wrapper::vdup_n(static_cast<T>(beta), ExactTagType{})));
                     vec_sum      = wrapper::vadd(vec_sum, vec_elements);
                 }
                 wrapper::vstore(tmp_ptr + x, vec_elements);
             }
 
             /* Reduce sum */
             auto sum_res = wrapper::vpadd(wrapper::vgethigh(vec_sum), wrapper::vgetlow(vec_sum));
             for(int i = 0; i < sum_stages; ++i)
             {
                 sum_res = wrapper::vpadd(sum_res, sum_res);
             }
             sum = wrapper::vgetlane(sum_res, 0);
 
             /* Run remaining elements */
             for(; x < input_width; ++x)
             {
                 T element{};
 
                 if(is_log)
                 {
                     element = (in_ptr[x] - max_val) * beta;
                     sum += std::exp(element);
                 }
                 else
                 {
                     element = std::exp((in_ptr[x] - max_val) * beta);
                     sum += element;
                 }
                 tmp_ptr[x] = element;
             }
 
             if(!is_log)
             {
                 sum_inversed = T(1) / sum;
             }
             else
             {
                 sum = static_cast<T>(std::log(sum));
             }
         }
 
         /* Normalize exponentials */
         {
             /* Loop over row and compute softmax */
             int x = 0;
             for(; x <= (input_width - vec_size); x += vec_size)
             {
                 auto vec_in           = wrapper::vloadq(tmp_ptr + x);
                 auto normalized_value = wrapper::vdup_n(static_cast<T>(0), ExactTagType{});
                 if(is_log)
                 {
                     normalized_value = wrapper::vsub(vec_in, wrapper::vdup_n(static_cast<T>(sum), ExactTagType{}));
                 }
                 else
                 {
                     normalized_value = wrapper::vmul(vec_in, wrapper::vdup_n(static_cast<T>(sum_inversed), ExactTagType{}));
                 }
                 wrapper::vstore(out_ptr + x, normalized_value);
             }
             /* Run remaining elements */
             for(; x < input_width; ++x)
             {
                 if(is_log)
                 {
                     out_ptr[x] = tmp_ptr[x] - sum;
                 }
                 else
                 {
                     out_ptr[x] = tmp_ptr[x] * sum_inversed;
                 }
             }
         }
     },
     in_it, max_it, out_it);
 }

◆ neon_softmax_logits_1d_quantized()

void arm_compute::cpu::neon_softmax_logits_1d_quantized	(	const ITensor *	in,
		const ITensor *	max,
		void *const	tmp,
		ITensor *	out,
		float	beta,
		bool	is_log,
		const Window &	window
	)

Definition at line 87 of file list.h.

 {
     static_assert(std::is_same<T, qasymm8_t>::value
                   || std::is_same<T, qasymm8_signed_t>::value,
                   "quantized type should be either qasymm8_t or qasymm8_signed_t.");
 
     const int start_x     = in->info()->valid_region().anchor.x();
     const int input_width = in->info()->valid_region().shape.x();
 
     const float scale_beta     = -beta * in->info()->quantization_info().uniform().scale;
     const auto  scale_beta_vec = vdupq_n_f32(scale_beta);
 
     Iterator      in_it(in, window);
     Iterator      max_it(max, window);
     Iterator      out_it(out, window);
     constexpr int vec_size = 16;
 
     execute_window_loop(window, [&](const Coordinates &)
     {
         /* Get pointers */
         const auto in_ptr  = reinterpret_cast<const T *>(in_it.ptr()) + start_x;
         const auto out_ptr = reinterpret_cast<T *>(out_it.ptr()) + start_x;
         const auto tmp_ptr = reinterpret_cast<float *>(tmp);
 
         float sum{};
         float sum_inversed{};
 
         /* Compute exponentials and sum */
         {
             /* Get max value */
             const auto max_val = *reinterpret_cast<const T *>(max_it.ptr());
             const auto vec_max = wrapper::vdup_n(max_val, wrapper::traits::vector_128_tag{});
 
             /* Init sum to zero */
             float32x4x4_t vec_sum =
             {
                 vdupq_n_f32(0.f),
                 vdupq_n_f32(0.f),
                 vdupq_n_f32(0.f),
                 vdupq_n_f32(0.f),
             };
 
             /* Loop over row and compute exponentials and sum */
             int x = 0;
             for(; x <= (input_width - vec_size); x += vec_size)
             {
                 auto vec_elements     = wrapper::vloadq(in_ptr + x);
                 vec_elements          = wrapper::vqsub(vec_max, vec_elements);
                 auto vec_elements_flt = convert_int_to_float<float32x4x4_t>(vec_elements);
 
                 if(is_log)
                 {
                     vec_elements_flt.val[0] = vmulq_f32(vec_elements_flt.val[0], scale_beta_vec);
                     vec_elements_flt.val[1] = vmulq_f32(vec_elements_flt.val[1], scale_beta_vec);
                     vec_elements_flt.val[2] = vmulq_f32(vec_elements_flt.val[2], scale_beta_vec);
                     vec_elements_flt.val[3] = vmulq_f32(vec_elements_flt.val[3], scale_beta_vec);
                     vec_sum.val[0]          = vaddq_f32(vec_sum.val[0], vexpq_f32(vec_elements_flt.val[0]));
                     vec_sum.val[1]          = vaddq_f32(vec_sum.val[1], vexpq_f32(vec_elements_flt.val[1]));
                     vec_sum.val[2]          = vaddq_f32(vec_sum.val[2], vexpq_f32(vec_elements_flt.val[2]));
                     vec_sum.val[3]          = vaddq_f32(vec_sum.val[3], vexpq_f32(vec_elements_flt.val[3]));
                 }
                 else
                 {
                     vec_elements_flt.val[0] = vexpq_f32(vmulq_f32(vec_elements_flt.val[0], scale_beta_vec));
                     vec_elements_flt.val[1] = vexpq_f32(vmulq_f32(vec_elements_flt.val[1], scale_beta_vec));
                     vec_elements_flt.val[2] = vexpq_f32(vmulq_f32(vec_elements_flt.val[2], scale_beta_vec));
                     vec_elements_flt.val[3] = vexpq_f32(vmulq_f32(vec_elements_flt.val[3], scale_beta_vec));
                     vec_sum.val[0]          = vaddq_f32(vec_sum.val[0], vec_elements_flt.val[0]);
                     vec_sum.val[1]          = vaddq_f32(vec_sum.val[1], vec_elements_flt.val[1]);
                     vec_sum.val[2]          = vaddq_f32(vec_sum.val[2], vec_elements_flt.val[2]);
                     vec_sum.val[3]          = vaddq_f32(vec_sum.val[3], vec_elements_flt.val[3]);
                 }
 
                 vst4q_f32(tmp_ptr + x, vec_elements_flt);
             }
 
             /* Reduce sum */
             const auto sum_16_byte = vaddq_f32(vaddq_f32(vec_sum.val[0], vec_sum.val[1]), vaddq_f32(vec_sum.val[2], vec_sum.val[3]));
             auto       sum_res     = vpadd_f32(vget_high_f32(sum_16_byte), vget_low_f32(sum_16_byte));
             sum_res                = vpadd_f32(sum_res, sum_res);
             sum                    = wrapper::vgetlane(sum_res, 0);
 
             /* Run remaining elements */
             for(; x < input_width; ++x)
             {
                 float element{};
                 if(is_log)
                 {
                     element = (max_val - in_ptr[x]) * scale_beta;
                     sum += std::exp(element);
                 }
                 else
                 {
                     element = std::exp((max_val - in_ptr[x]) * scale_beta);
                     sum += element;
                 }
 
                 tmp_ptr[x] = element;
             }
 
             if(!is_log)
             {
                 sum_inversed = 256.f / sum;
             }
             else
             {
                 sum = std::log(sum);
             }
         }
 
         /* Normalize exponentials */
         {
             constexpr bool is_qasymm8_signed = std::is_same<T, qasymm8_signed_t>::value;
             /* Loop over row and compute softmax */
             int x = 0;
             for(; x <= (input_width - vec_size); x += vec_size)
             {
                 using int_vec_type   = wrapper::traits::neon_vector_t<T, 16>;
                 float32x4x4_t vec_in = vld4q_f32(tmp_ptr + x);
                 int_vec_type  normalized_value{};
                 if(is_log)
                 {
                     const float32x4x4_t sub =
                     {
                         vsubq_f32(vec_in.val[0], vdupq_n_f32(sum)),
                         vsubq_f32(vec_in.val[1], vdupq_n_f32(sum)),
                         vsubq_f32(vec_in.val[2], vdupq_n_f32(sum)),
                         vsubq_f32(vec_in.val[3], vdupq_n_f32(sum)),
                     };
                     normalized_value = convert_float_to_int<float32x4x4_t, int_vec_type>(sub);
                 }
                 else
                 {
                     float32x4x4_t mul =
                     {
                         vmulq_f32(vec_in.val[0], vdupq_n_f32(sum_inversed)),
                         vmulq_f32(vec_in.val[1], vdupq_n_f32(sum_inversed)),
                         vmulq_f32(vec_in.val[2], vdupq_n_f32(sum_inversed)),
                         vmulq_f32(vec_in.val[3], vdupq_n_f32(sum_inversed)),
                     };
 
                     if(is_qasymm8_signed)
                     {
                         const auto offset_vec = wrapper::vdup_n(128.f, wrapper::traits::vector_128_tag{});
                         mul.val[0]            = wrapper::vsub(mul.val[0], offset_vec);
                         mul.val[1]            = wrapper::vsub(mul.val[1], offset_vec);
                         mul.val[2]            = wrapper::vsub(mul.val[2], offset_vec);
                         mul.val[3]            = wrapper::vsub(mul.val[3], offset_vec);
                     }
 
                     normalized_value = convert_float_to_int<float32x4x4_t, int_vec_type>(mul);
                 }
                 wrapper::vstore(out_ptr + x, normalized_value);
             }
             /* Run remaining elements */
             for(; x < input_width; ++x)
             {
                 if(is_log)
                 {
                     out_ptr[x] = utils::cast::saturate_cast<T>(tmp_ptr[x] - sum);
                 }
                 else
                 {
                     out_ptr[x] = utils::cast::saturate_cast<T>((tmp_ptr[x] * sum_inversed) - (is_qasymm8_signed ? 128.f : 0));
                 }
             }
         }
     },
     in_it, max_it, out_it);
 }

References ValidRegion::anchor, arm_compute::execute_window_loop(), ITensor::info(), input_width, Iterator::ptr(), ITensorInfo::quantization_info(), UniformQuantizationInfo::scale, ValidRegion::shape, QuantizationInfo::uniform(), ITensorInfo::valid_region(), arm_compute::wrapper::vdup_n(), arm_compute::vexpq_f32(), arm_compute::wrapper::vgetlane(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vqsub(), arm_compute::wrapper::vstore(), arm_compute::wrapper::vsub(), and Dimensions< T >::x().

◆ offset_no_padding()

uint32_t arm_compute::cpu::offset_no_padding	(	uint32_t	padded_offset,
		const Coordinates &	id,
		const ITensorInfo &	info,
		int	pool_stride_x,
		int	pool_stride_y,
		DataLayout	data_layout
	)

inline

Definition at line 62 of file list.h.

 {
     const int pad_left    = info.padding().left;
     const int pad_right   = info.padding().right;
     const int pad_top     = info.padding().top;
     const int pad_bottom  = info.padding().bottom;
     const int in_stride_y = static_cast<int>(info.strides_in_bytes().y());
     const int in_stride_w = static_cast<int>(info.strides_in_bytes()[3]);
     const int pad_horiz   = pad_left + pad_right;
     const int pad_vert    = pad_top + pad_bottom;
 
     if(data_layout == DataLayout::NCHW)
     {
         const uint32_t offset_base = padded_offset
                                      - sizeof(T) * pad_horiz * id.y() * pool_stride_y                                            /* subtract padding elems per row */
                                      - pad_top * sizeof(T)                                                                       /* top padding */
                                      - sizeof(T) * pad_horiz * info.tensor_shape()[1] * id.z() - pad_vert * in_stride_y * id.z() /* for each Z plane there are height*pad_right padding elems */
                                      - in_stride_w * id[3];
 
         return offset_base;
     }
     else
     {
         const uint32_t offset_base = padded_offset
                                      - sizeof(T) * pad_horiz * id.y() * pool_stride_x                          // subtract padding elems per row
                                      - pad_top * sizeof(T)                                                     // top padding
                                      - sizeof(T) * pad_horiz * info.tensor_shape()[1] * id.z() * pool_stride_y // for each Z plane there are width*pad_right padding elems
                                      - in_stride_w * id[3];
 
         return offset_base;
     }
 }

References arm_compute::test::validation::data_layout, arm_compute::test::validation::info, arm_compute::NCHW, and pool_stride_x.

◆ poolingMxN_fp16_neon_nhwc()

void arm_compute::cpu::poolingMxN_fp16_neon_nhwc	(	const ITensor *	src0,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	,
		const Window &	window_src,
		const Window &	window
	)

◆ poolingMxN_fp32_neon_nhwc()

void poolingMxN_fp32_neon_nhwc	(	const ITensor *	src,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	pool_info,
		const Window &	window_src,
		const Window &	window
	)

Definition at line 146 of file fp32.cpp.

 {
     if(pool_info.pool_size == Size2D(2, 2) && pool_info.pool_type == PoolingType::MAX && dst1)
     {
         pooling2_f32_maxpool_indices(src, dst0, dst1, pool_info, window_src, window);
     }
     else
     {
         const int window_start_x = window.x().start();
         const int window_end_x   = window.x().end();
         const int window_step_x  = 4;
 
         Window window_out = window;
         window_out.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator in(src, window_src);
         Iterator out(dst0, window_out);
 
         const int pool_size_x     = pool_info.is_global_pooling ? src->info()->tensor_shape().y() : pool_info.pool_size.width;
         const int pool_size_y     = pool_info.is_global_pooling ? src->info()->tensor_shape().z() : pool_info.pool_size.height;
         const int pool_pad_right  = pool_info.pad_stride_info.pad_right();
         const int pool_pad_top    = pool_info.pad_stride_info.pad_top();
         const int pool_pad_left   = pool_info.pad_stride_info.pad_left();
         const int pool_pad_bottom = pool_info.pad_stride_info.pad_bottom();
         int       pool_stride_x   = 0;
         int       pool_stride_y   = 0;
         std::tie(pool_stride_x, pool_stride_y) = pool_info.pad_stride_info.stride();
         const int upper_bound_w = src->info()->dimension(1) + (pool_info.exclude_padding ? 0 : pool_pad_right);
         const int upper_bound_h = src->info()->dimension(2) + (pool_info.exclude_padding ? 0 : pool_pad_bottom);
 
         float32x4_t vres;
 
         execute_window_loop(window_out, [&](const Coordinates & id)
         {
             const int idx_width    = id.y() * pool_stride_x;
             const int idx_height   = id.z() * pool_stride_y;
             const int pool_limit_y = pool_pad_top - idx_height;
             const int pool_limit_x = pool_pad_left - idx_width;
 
             const int pool_start_y = std::max(0, window_src.z().start() + pool_limit_y);
             const int pool_end_y   = std::min(pool_size_y, window_src.z().end() + pool_limit_y);
             const int pool_start_x = std::max(0, window_src.y().start() + pool_limit_x);
             const int pool_end_x   = std::min(pool_size_x, window_src.y().end() + pool_limit_x);
 
             int x_off = window_start_x;
             for(; x_off <= (window_end_x - window_step_x); x_off += window_step_x)
             {
                 if(pool_info.pool_type != PoolingType::MAX)
                 {
                     // Calculate scale
                     const float scale = calculate_avg_scale(pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w, upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x,
                                                             pool_stride_y);
                     const float32x4_t scale_v = vdupq_n_f32(scale);
 
                     // Perform pooling
                     vres = vdupq_n_f32(0.0f);
 
                     for(int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         for(int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const float32x4_t data = vld1q_f32(reinterpret_cast<const float *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                                (src->info()->strides_in_bytes().z())) + x_off);
 
                             // Get power of 2 in case of l2 pooling and accumulate
                             if(pool_info.pool_type == PoolingType::L2)
                             {
                                 vres = vmlaq_f32(vres, data, data);
                             }
                             else
                             {
                                 vres = vaddq_f32(vres, data);
                             }
                         }
                     }
                     // Divide by scale
                     vres = vmulq_f32(vres, scale_v);
                 }
                 else
                 {
                     vres = vdupq_n_f32(std::numeric_limits<float>::lowest());
                     for(int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         for(int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const float32x4_t data = vld1q_f32(reinterpret_cast<const float *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                                (src->info()->strides_in_bytes().z())) + x_off);
                             vres                   = vmaxq_f32(vres, data);
                         }
                     }
                 }
 
                 // Calculate square-root in case of l2 pooling
                 if(pool_info.pool_type == PoolingType::L2)
                 {
                     float32x4_t l2_res = { static_cast<float>(sqrt(vgetq_lane_f32(vres, 0))),
                                            static_cast<float>(sqrt(vgetq_lane_f32(vres, 1))),
                                            static_cast<float>(sqrt(vgetq_lane_f32(vres, 2))),
                                            static_cast<float>(sqrt(vgetq_lane_f32(vres, 3)))
                                          };
                     vres = l2_res;
                 }
 
                 // Store result
                 vst1q_f32(reinterpret_cast<float *>(out.ptr()) + x_off, vres);
             }
 
             // Left-overs loop
             for(; x_off < window_end_x; ++x_off)
             {
                 float res = 0.0f;
 
                 if(pool_info.pool_type != PoolingType::MAX)
                 {
                     // Calculate scale
                     const float scale = calculate_avg_scale(pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w, upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x,
                                                             pool_stride_y);
 
                     for(int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         for(int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const float data = *(reinterpret_cast<const float *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                  (src->info()->strides_in_bytes().z())) + x_off);
 
                             // Get power of 2 in case of l2 pooling and accumulate
                             if(pool_info.pool_type == PoolingType::L2)
                             {
                                 res += data * data;
                             }
                             else
                             {
                                 res += data;
                             }
                         }
                     }
 
                     // Divide by scale
                     res *= scale;
                 }
                 else
                 {
                     res = std::numeric_limits<float>::lowest();
                     for(int y = pool_start_y; y < pool_end_y; ++y)
                     {
                         for(int x = pool_start_x; x < pool_end_x; ++x)
                         {
                             const float data = *(reinterpret_cast<const float *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                  (src->info()->strides_in_bytes().z())) + x_off);
                             res              = std::max(res, data);
                         }
                     }
                 }
 
                 // Calculate square-root in case of l2 pooling
                 if(pool_info.pool_type == PoolingType::L2)
                 {
                     res = std::sqrt(res);
                 }
 
                 // Store result
                 *(reinterpret_cast<float *>(out.ptr()) + x_off) = res;
             }
         },
         in, out);
     }
 }

References calculate_avg_scale(), Window::DimX, Window::Dimension::end(), PoolingLayerInfo::exclude_padding, arm_compute::execute_window_loop(), Size2D::height, arm_compute::test::validation::idx_height, arm_compute::test::validation::idx_width, PoolingLayerInfo::is_global_pooling, arm_compute::L2, arm_compute::support::cpp11::lowest(), arm_compute::MAX, arm_compute::NHWC, PadStrideInfo::pad_bottom(), PadStrideInfo::pad_left(), PadStrideInfo::pad_right(), PoolingLayerInfo::pad_stride_info, PadStrideInfo::pad_top(), PoolingLayerInfo::pool_size, pool_stride_x, PoolingLayerInfo::pool_type, Iterator::ptr(), arm_compute::test::validation::scale, Window::set(), arm_compute::test::validation::src, Window::Dimension::start(), PadStrideInfo::stride(), Size2D::width, Window::x(), Window::y(), and Window::z().

◆ poolingMxN_q8_neon_nhwc()

void arm_compute::cpu::poolingMxN_q8_neon_nhwc	(	const ITensor *	src,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	pool_info,
		const Window &	window_src,
		const Window &	window
	)

Definition at line 182 of file quantized.h.

 {
     ARM_COMPUTE_UNUSED(dst1);
 
     const int window_start_x     = window.x().start();
     const int window_end_x       = window.x().end();
     const int window_step_x      = 16;
     const int window_half_step_x = window_step_x / 2;
 
     Window window_out = window;
     window_out.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     Iterator in(src, window_src);
     Iterator out(dst0, window_out);
 
     using q8x8_t  = typename wrapper::traits::neon_vector<T, 8>::type;
     using q8x16_t = typename wrapper::traits::neon_vector<T, 16>::type;
     using q16_t   = typename wrapper::traits::promote_t<T>;
     using q16x8_t = typename wrapper::traits::neon_vector<q16_t, 8>::type;
     using q32_t   = typename wrapper::traits::promote_t<q16_t>;
     using q32x4_t = typename wrapper::traits::neon_vector<q32_t, 4>::type;
 
     const int pool_size_x     = pool_info.is_global_pooling ? src->info()->tensor_shape().y() : pool_info.pool_size.width;
     const int pool_size_y     = pool_info.is_global_pooling ? src->info()->tensor_shape().z() : pool_info.pool_size.height;
     const int pool_pad_right  = pool_info.pad_stride_info.pad_right();
     const int pool_pad_top    = pool_info.pad_stride_info.pad_top();
     const int pool_pad_left   = pool_info.pad_stride_info.pad_left();
     const int pool_pad_bottom = pool_info.pad_stride_info.pad_bottom();
 
     int pool_stride_x = 0;
     int pool_stride_y = 0;
     std::tie(pool_stride_x, pool_stride_y) = pool_info.pad_stride_info.stride();
     const int upper_bound_w = src->info()->dimension(1) + (pool_info.exclude_padding ? 0 : pool_pad_right);
     const int upper_bound_h = src->info()->dimension(2) + (pool_info.exclude_padding ? 0 : pool_pad_bottom);
 
     const float32x4_t             half_scale_v = vdupq_n_f32(0.5f);
     const UniformQuantizationInfo src_qinfo    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo dst_qinfo    = dst0->info()->quantization_info().uniform();
 
     const float quant_rescale = dst_qinfo.scale / src_qinfo.scale;
     // "new_offset" doesn't have to consider the "half_scale_v" in its computation
     // With a requantization performed in a single step there won't be uncertainties introduced
     const int32_t new_offset = dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / quant_rescale);
 
     const float                   requant_scale  = dst_qinfo.scale / src_qinfo.scale;
     const int32_t                 requant_offset = dst_qinfo.offset - static_cast<int32_t>(static_cast<float>(src_qinfo.offset) / requant_scale);
     const UniformQuantizationInfo requant_qinfo  = UniformQuantizationInfo(requant_scale, requant_offset);
 
     execute_window_loop(window_out, [&](const Coordinates & id)
     {
         const int idx_width    = id.y() * pool_stride_x;
         const int idx_height   = id.z() * pool_stride_y;
         const int pool_limit_y = pool_pad_top - idx_height;
         const int pool_limit_x = pool_pad_left - idx_width;
 
         const int pool_start_y = std::max(0, window_src.z().start() + pool_limit_y);
         const int pool_end_y   = std::min(pool_size_y, window_src.z().end() + pool_limit_y);
         const int pool_start_x = std::max(0, window_src.y().start() + pool_limit_x);
         const int pool_end_x   = std::min(pool_size_x, window_src.y().end() + pool_limit_x);
 
         int x_off = window_start_x;
         for(; x_off <= (window_end_x - window_step_x); x_off += window_step_x)
         {
             if(pool_info.pool_type != PoolingType::MAX)
             {
                 q32x4_t vres1 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                 q32x4_t vres2 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                 q32x4_t vres3 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
                 q32x4_t vres4 = wrapper::vdup_n(static_cast<q32_t>(0.f), wrapper::traits::vector_128_tag{});
 
                 // Calculate scale
                 const float scale = calculate_avg_scale(pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w, upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x,
                                                         pool_stride_y);
 
                 // Perform pooling
                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const q8x16_t data = wrapper::vloadq(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                          (src->info()->strides_in_bytes().z())) + x_off);
 
                         const q16x8_t data_q16  = wrapper::vmovl(wrapper::vgetlow(data));
                         const q16x8_t data2_q16 = wrapper::vmovl(wrapper::vgethigh(data));
                         vres1                   = wrapper::vadd(vres1, wrapper::vmovl(wrapper::vgetlow(data_q16)));
                         vres2                   = wrapper::vadd(vres2, wrapper::vmovl(wrapper::vgethigh(data_q16)));
                         vres3                   = wrapper::vadd(vres3, wrapper::vmovl(wrapper::vgetlow(data2_q16)));
                         vres4                   = wrapper::vadd(vres4, wrapper::vmovl(wrapper::vgethigh(data2_q16)));
                     }
                 }
 
                 if(src_qinfo != dst_qinfo)
                 {
                     const float32x4x4_t vres =
                     {
                         {
                             vcvtq_f32_q32(vres1),
                             vcvtq_f32_q32(vres2),
                             vcvtq_f32_q32(vres3),
                             vcvtq_f32_q32(vres4),
                         }
                     };
                     const auto requantized_dst = vrequantize_pooling_with_scale<q8x16_t>(vres, quant_rescale, scale, new_offset);
                     // Store result
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, wrapper::vgetlow(requantized_dst));
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off + 8, wrapper::vgethigh(requantized_dst));
                 }
                 else
                 {
                     const float32x4_t scale_v = vdupq_n_f32(scale);
                     // Divide by scale and add 0.5f to round to nearest instead of rounding towards zero
                     vres1 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres1), scale_v));
                     vres2 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres2), scale_v));
                     vres3 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres3), scale_v));
                     vres4 = vcvtq_q32_f32<q32x4_t>(wrapper::vmla(half_scale_v, vcvtq_f32_q32(vres4), scale_v));
 
                     const q8x8_t res1 = wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(vres1), wrapper::vmovn(vres2)));
                     const q8x8_t res2 = wrapper::vmovn(wrapper::vcombine(wrapper::vmovn(vres3), wrapper::vmovn(vres4)));
                     // Store result
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, res1);
                     wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off + 8, res2);
                 }
             }
             else
             {
                 q8x16_t vres = wrapper::vdup_n(std::numeric_limits<T>::min(), wrapper::traits::vector_128_tag{});
 
                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const q8x16_t data = wrapper::vloadq(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                          (src->info()->strides_in_bytes().z())) + x_off);
                         vres               = wrapper::vmax(vres, data);
                     }
                 }
 
                 // Store result
                 wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off, (src_qinfo != dst_qinfo) ? vrequantize_pooling<q8x8_t, q8x16_t>(wrapper::vgetlow(vres), wrapper::vgethigh(vres),
                                 requant_qinfo) :
                                 vres);
             }
         }
 
         if(pool_info.pool_type == PoolingType::MAX)
         {
             for(; x_off <= (window_end_x - window_half_step_x); x_off += window_half_step_x)
             {
                 q8x8_t vres = wrapper::vdup_n(std::numeric_limits<T>::min(), wrapper::traits::vector_64_tag{});
                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const q8x8_t data = wrapper::vload(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                                        (src->info()->strides_in_bytes().z())) + x_off);
                         vres              = wrapper::vmax(vres, data);
                     }
                 }
 
                 // Store result
                 wrapper::vstore(reinterpret_cast<T *>(out.ptr()) + x_off,
                                 (src_qinfo != dst_qinfo) ? vrequantize_pooling<q8x8_t>(vres, requant_qinfo) : vres);
             }
         }
 
         // Left-overs loop
         for(; x_off < window_end_x; ++x_off)
         {
             if(pool_info.pool_type != PoolingType::MAX)
             {
                 q32_t res = static_cast<q32_t>(0.f);
 
                 // Calculate scale
                 const float scale = calculate_avg_scale(pool_info.exclude_padding, DataLayout::NHWC, id, pool_size_x, pool_size_y, upper_bound_w, upper_bound_h, pool_pad_left, pool_pad_top, pool_stride_x,
                                                         pool_stride_y);
 
                 // Perform pooling
                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const T data = *(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                      (src->info()->strides_in_bytes().z())) + x_off);
                         res += data;
                     }
                 }
 
                 if(src_qinfo != dst_qinfo)
                 {
                     const float res_f           = static_cast<float>(res);
                     const float new_scale       = quant_rescale / scale;
                     const auto  requantized_dst = quantize<T>(res_f, UniformQuantizationInfo(new_scale, new_offset));
 
                     // Store result
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = requantized_dst;
                 }
                 else
                 {
                     // Divide by scale and add 0.5f to round to nearest instead of rounding towards zero
                     res = static_cast<T>(0.5f + static_cast<float>(res) * scale);
 
                     // Store result
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = res;
                 }
             }
             else
             {
                 T res = std::numeric_limits<T>::min();
 
                 for(int y = pool_start_y; y < pool_end_y; ++y)
                 {
                     for(int x = pool_start_x; x < pool_end_x; ++x)
                     {
                         const T data = *(reinterpret_cast<const T *>(in.ptr() + (x - pool_pad_left) * static_cast<int>(src->info()->strides_in_bytes().y()) + (y - pool_pad_top) * static_cast<int>
                                                                      (src->info()->strides_in_bytes().z())) + x_off);
                         res          = std::max(res, data);
                     }
                 }
 
                 // Store result
                 if(src_qinfo != dst_qinfo)
                 {
                     const float res_f                           = static_cast<float>(res);
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = quantize<T>(res_f, requant_qinfo);
                 }
                 else
                 {
                     *(reinterpret_cast<T *>(out.ptr()) + x_off) = res;
                 }
             }
         }
 
     },
     in, out);
 }

◆ poolingMxN_qasymm8_neon_nhwc()

void poolingMxN_qasymm8_neon_nhwc	(	const ITensor *	src0,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	pool_info,
		const Window &	window_src,
		const Window &	window
	)

Definition at line 36 of file qasymm8.cpp.

 {
     poolingMxN_q8_neon_nhwc<uint8_t>(src, dst0, dst1, pool_info, window_src, window);
 }

References arm_compute::test::validation::src.

◆ poolingMxN_qasymm8_signed_neon_nhwc()

void poolingMxN_qasymm8_signed_neon_nhwc	(	const ITensor *	src0,
		ITensor *	dst0,
		ITensor *	dst1,
		PoolingLayerInfo &	pool_info,
		const Window &	window_src,
		const Window &	window
	)

Definition at line 36 of file qasymm8_signed.cpp.

 {
     poolingMxN_q8_neon_nhwc<int8_t>(src, dst0, dst1, pool_info, window_src, window);
 }

References arm_compute::test::validation::src.

◆ qasymm8_neon_activation()

void qasymm8_neon_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 39 of file qasymm8.cpp.

 {
     constexpr int                                 window_step_x  = 16;
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
 
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
 
     const UniformQuantizationInfo qi_in    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out   = dst->info()->quantization_info().uniform();
     const qasymm8x16_t            va       = vdupq_n_u8(quantize_qasymm8(act_info.a(), qi_in));
     const qasymm8x16_t            vb       = vdupq_n_u8(quantize_qasymm8(act_info.b(), qi_in));
     const qasymm8_t               a        = quantize_qasymm8(act_info.a(), qi_in);
     const qasymm8_t               b        = quantize_qasymm8(act_info.b(), qi_in);
     const qasymm8_t               const_0  = quantize_qasymm8(0.f, qi_in);
     const qasymm8x16_t            vconst_0 = vdupq_n_u8(const_0);
     const auto                    vconst_1 = vdupq_n_f32(1.f);
 #ifndef __aarch64__
     const auto vconst_0_f32 = vdupq_n_f32(0);
 #endif // __aarch64__
     const float32x4_t va_f32          = vdupq_n_f32(act_info.a());
     const float32x4_t vb_f32          = vdupq_n_f32(act_info.b());
     const float       a_f32           = act_info.a();
     const float       b_f32           = act_info.b();
     const auto        const_6_f32     = vdupq_n_f32(6.f);
     const auto        const_0_f32     = vdupq_n_f32(0.f);
     const auto        const_3_f32     = vdupq_n_f32(3.f);
     const auto        const_inv_6_f32 = vdupq_n_f32(0.166666667f);
 
     // Initialise scale/offset for re-quantization
     float       s  = qi_in.scale / qi_out.scale;
     float       o  = -qi_in.offset * s + qi_out.offset;
     float32x4_t vs = vdupq_n_f32(s);
     float32x4_t vo = vdupq_n_f32(o);
 
     execute_window_loop(win_collapsed, [&](const Coordinates &)
     {
         const auto input_ptr  = reinterpret_cast<const qasymm8_t *>(input.ptr());
         const auto output_ptr = reinterpret_cast<qasymm8_t *>(output.ptr());
 
         wrapper::traits::neon_bitvector_t<qasymm8_t, wrapper::traits::BitWidth::W128> tmp;
 
         // Compute S elements per iteration
         int x = window_start_x;
         for(; x <= (window_end_x - window_step_x); x += window_step_x)
         {
             const auto vin = wrapper::vloadq(input_ptr + x);
             if(act == ActivationLayerInfo::ActivationFunction::RELU)
             {
                 // Perform activation
                 tmp = vmaxq_u8(vconst_0, vin);
                 // Re-quantize to new output space
                 tmp = vmlaq_qasymm8(tmp, vs, vo);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
             {
                 // Perform activation
                 tmp = vminq_u8(va, vmaxq_u8(vconst_0, vin));
                 // Re-quantize to new output space
                 tmp = vmlaq_qasymm8(tmp, vs, vo);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
             {
                 // Perform activation
                 tmp = vminq_u8(va, vmaxq_u8(vb, vin));
                 // Re-quantize to new output space
                 tmp = vmlaq_qasymm8(tmp, vs, vo);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
             {
                 // De-quantize
                 const auto vin_deq = vdequantize(vin, qi_in);
                 // Perform activation
                 const float32x4x4_t tmp_dep =
                 {
                     {
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[0])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[1])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[2])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[3])))),
                     }
                 };
                 // Re-quantize to new output space
                 tmp = vquantize(tmp_dep, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::TANH)
             {
                 // De-quantize
                 const auto vin_deq = vdequantize(vin, qi_in);
                 // Perform activation
                 const float32x4x4_t tmp_dep =
                 {
                     {
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[0], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[1], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[2], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[3], vb_f32))),
                     }
                 };
                 // Re-quantize to new output space
                 tmp = vquantize(tmp_dep, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::HARD_SWISH)
             {
                 // De-quantize
                 const auto vin_deq = vdequantize(vin, qi_in);
                 // Perform activation
                 const float32x4x4_t tmp_dep =
                 {
                     {
                         wrapper::vmul(vin_deq.val[0], wrapper::vmul(const_inv_6_f32, wrapper::vmin(const_6_f32, wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[0], const_3_f32))))),
                         wrapper::vmul(vin_deq.val[1], wrapper::vmul(const_inv_6_f32, wrapper::vmin(const_6_f32, wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[1], const_3_f32))))),
                         wrapper::vmul(vin_deq.val[2], wrapper::vmul(const_inv_6_f32, wrapper::vmin(const_6_f32, wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[2], const_3_f32))))),
                         wrapper::vmul(vin_deq.val[3], wrapper::vmul(const_inv_6_f32, wrapper::vmin(const_6_f32, wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[3], const_3_f32))))),
                     }
                 };
                 // Re-quantize to new output space
                 tmp = vquantize(tmp_dep, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
             {
                 const auto vin_deq = vdequantize(vin, qi_in);
 
 #ifdef __aarch64__
                 const uint32x4x4_t pos_mask =
                 {
                     {
                         wrapper::vcgtz(vin_deq.val[0]),
                         wrapper::vcgtz(vin_deq.val[1]),
                         wrapper::vcgtz(vin_deq.val[2]),
                         wrapper::vcgtz(vin_deq.val[3]),
                     }
                 };
 #else  // __aarch64__
                 const uint32x4x4_t pos_mask =
                 {
                     {
                         wrapper::vcgt(vin_deq.val[0], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[1], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[2], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[3], vconst_0_f32),
                     }
                 };
 #endif // __aarch64__
 
                 const float32x4x4_t tmp_dep =
                 {
                     {
                         wrapper::vbsl(pos_mask.val[0], vin_deq.val[0], wrapper::vmul(va_f32, vin_deq.val[0])),
                         wrapper::vbsl(pos_mask.val[1], vin_deq.val[1], wrapper::vmul(va_f32, vin_deq.val[1])),
                         wrapper::vbsl(pos_mask.val[2], vin_deq.val[2], wrapper::vmul(va_f32, vin_deq.val[2])),
                         wrapper::vbsl(pos_mask.val[3], vin_deq.val[3], wrapper::vmul(va_f32, vin_deq.val[3])),
                     }
                 };
 
                 tmp = vquantize(tmp_dep, qi_out);
             }
             else
             {
                 ARM_COMPUTE_ERROR("Unsupported activation function");
             }
             wrapper::vstore(output_ptr + x, tmp);
         }
 
         // Compute left-over elements
         for(; x < window_end_x; ++x)
         {
             qasymm8_t in  = *(reinterpret_cast<const qasymm8_t *>(input_ptr + x));
             qasymm8_t tmp = 0;
             if(act == ActivationLayerInfo::ActivationFunction::RELU)
             {
                 tmp = std::max(const_0, in);
                 tmp = utility::clamp<int32_t, qasymm8_t>(tmp * s + o);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
             {
                 tmp = std::min(a, std::max(const_0, in));
                 tmp = utility::clamp<int32_t, qasymm8_t>(tmp * s + o);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
             {
                 tmp = std::min(a, std::max(b, in));
                 tmp = utility::clamp<int32_t, qasymm8_t>(tmp * s + o);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
             {
                 float tmp_f = dequantize_qasymm8(in, qi_in);
                 tmp_f       = 1.f / (1.f + std::exp(-tmp_f));
                 tmp         = quantize_qasymm8(tmp_f, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::TANH)
             {
                 float tmp_f = dequantize_qasymm8(in, qi_in);
                 tmp_f       = a_f32 * std::tanh(b_f32 * tmp_f);
                 tmp         = quantize_qasymm8(tmp_f, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::HARD_SWISH)
             {
                 float tmp_f = dequantize_qasymm8(in, qi_in);
                 tmp_f       = tmp_f * ((std::min(std::max((tmp_f + 3), 0.0f), 6.0f)) * 0.166666667f);
                 tmp         = quantize_qasymm8(tmp_f, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
             {
                 float tmp_f = dequantize_qasymm8(in, qi_in);
                 tmp_f       = tmp_f > 0 ? tmp_f : tmp_f * a_f32;
                 tmp         = quantize_qasymm8(tmp_f, qi_out);
             }
             else
             {
                 ARM_COMPUTE_ERROR("Unsupported activation function");
             }
             *(output_ptr + x) = tmp;
         }
     },
     input, output);
 }

◆ qasymm8_neon_scale()

void qasymm8_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 131 of file qasymm8.cpp.

 {
     if(policy == InterpolationPolicy::BILINEAR)
     {
         qasymm8_neon_scale_bilinear(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset, align_corners, window);
     }
     else if(policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         nearest_neon_scale<uint8_t>(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ qasymm8_signed_neon_activation()

void qasymm8_signed_neon_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 38 of file qasymm8_signed.cpp.

 {
     constexpr int                                 window_step_x  = 16;
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
 
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
 
     const UniformQuantizationInfo qi_in    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out   = dst->info()->quantization_info().uniform();
     const qasymm8x16_signed_t     va       = vdupq_n_s8(quantize_qasymm8_signed(act_info.a(), qi_in));
     const qasymm8x16_signed_t     vb       = vdupq_n_s8(quantize_qasymm8_signed(act_info.b(), qi_in));
     const qasymm8_signed_t        a        = quantize_qasymm8_signed(act_info.a(), qi_in);
     const qasymm8_signed_t        b        = quantize_qasymm8_signed(act_info.b(), qi_in);
     const qasymm8_signed_t        const_0  = quantize_qasymm8_signed(0.f, qi_in);
     const qasymm8x16_signed_t     vconst_0 = vdupq_n_s8(const_0);
     const auto                    vconst_1 = vdupq_n_f32(1.f);
 #ifndef __aarch64__
     const auto vconst_0_f32 = vdupq_n_f32(1.f);
 #endif // __aarch64__
     const float32x4_t va_f32          = vdupq_n_f32(act_info.a());
     const float32x4_t vb_f32          = vdupq_n_f32(act_info.b());
     const float       a_f32           = act_info.a();
     const float       b_f32           = act_info.b();
     const auto        const_6_f32     = vdupq_n_f32(6.f);
     const auto        const_0_f32     = vdupq_n_f32(0.f);
     const auto        const_3_f32     = vdupq_n_f32(3.f);
     const auto        const_inv_6_f32 = vdupq_n_f32(0.166666667f);
 
     // Initialise scale/offset for re-quantization
     float       s  = qi_in.scale / qi_out.scale;
     float       o  = -qi_in.offset * s + qi_out.offset;
     float32x4_t vs = vdupq_n_f32(s);
     float32x4_t vo = vdupq_n_f32(o);
 
     execute_window_loop(win_collapsed, [&](const Coordinates &)
     {
         const auto input_ptr  = reinterpret_cast<const qasymm8_signed_t *>(input.ptr());
         const auto output_ptr = reinterpret_cast<qasymm8_signed_t *>(output.ptr());
 
         wrapper::traits::neon_bitvector_t<qasymm8_signed_t, wrapper::traits::BitWidth::W128> tmp;
 
         // Compute S elements per iteration
         int x = window_start_x;
         for(; x <= (window_end_x - window_step_x); x += window_step_x)
         {
             const auto vin = wrapper::vloadq(input_ptr + x);
             if(act == ActivationLayerInfo::ActivationFunction::RELU)
             {
                 // Perform activation
                 tmp = vmaxq_s8(vconst_0, vin);
                 // Re-quantize to new output space
                 tmp = vmlaq_qasymm8_signed(tmp, vs, vo);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
             {
                 // Perform activation
                 tmp = vminq_s8(va, vmaxq_s8(vconst_0, vin));
                 // Re-quantize to new output space
                 tmp = vmlaq_qasymm8_signed(tmp, vs, vo);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
             {
                 // Perform activation
                 tmp = vminq_s8(va, vmaxq_s8(vb, vin));
                 // Re-quantize to new output space
                 tmp = vmlaq_qasymm8_signed(tmp, vs, vo);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
             {
                 // De-quantize
                 const auto vin_deq = vdequantize(vin, qi_in);
                 // Perform activation
                 const float32x4x4_t tmp_dep =
                 {
                     {
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[0])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[1])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[2])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[3])))),
                     }
                 };
                 // Re-quantize to new output space
                 tmp = vquantize_signed(tmp_dep, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::TANH)
             {
                 // De-quantize
                 const auto vin_deq = vdequantize(vin, qi_in);
                 // Perform activation
                 const float32x4x4_t tmp_dep =
                 {
                     {
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[0], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[1], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[2], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[3], vb_f32))),
                     }
                 };
                 // Re-quantize to new output space
                 tmp = vquantize_signed(tmp_dep, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::HARD_SWISH)
             {
                 // De-quantize
                 const auto vin_deq = vdequantize(vin, qi_in);
                 // Perform activation
                 const float32x4x4_t tmp_dep =
                 {
                     {
                         wrapper::vmul(vin_deq.val[0], wrapper::vmul(const_inv_6_f32, wrapper::vmin(const_6_f32, wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[0], const_3_f32))))),
                         wrapper::vmul(vin_deq.val[1], wrapper::vmul(const_inv_6_f32, wrapper::vmin(const_6_f32, wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[1], const_3_f32))))),
                         wrapper::vmul(vin_deq.val[2], wrapper::vmul(const_inv_6_f32, wrapper::vmin(const_6_f32, wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[2], const_3_f32))))),
                         wrapper::vmul(vin_deq.val[3], wrapper::vmul(const_inv_6_f32, wrapper::vmin(const_6_f32, wrapper::vmax(const_0_f32, wrapper::vadd(vin_deq.val[3], const_3_f32))))),
                     }
                 };
                 // Re-quantize to new output space
                 tmp = vquantize_signed(tmp_dep, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
             {
                 const auto vin_deq = vdequantize(vin, qi_in);
 
 #ifdef __aarch64__
                 const uint32x4x4_t pos_mask =
                 {
                     {
                         wrapper::vcgtz(vin_deq.val[0]),
                         wrapper::vcgtz(vin_deq.val[1]),
                         wrapper::vcgtz(vin_deq.val[2]),
                         wrapper::vcgtz(vin_deq.val[3]),
                     }
                 };
 #else  // __aarch64__
                 const uint32x4x4_t pos_mask =
                 {
                     {
                         wrapper::vcgt(vin_deq.val[0], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[1], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[2], vconst_0_f32),
                         wrapper::vcgt(vin_deq.val[3], vconst_0_f32),
                     }
                 };
 #endif // __aarch64__
 
                 const float32x4x4_t tmp_dep =
                 {
                     {
                         wrapper::vbsl(pos_mask.val[0], vin_deq.val[0], wrapper::vmul(va_f32, vin_deq.val[0])),
                         wrapper::vbsl(pos_mask.val[1], vin_deq.val[1], wrapper::vmul(va_f32, vin_deq.val[1])),
                         wrapper::vbsl(pos_mask.val[2], vin_deq.val[2], wrapper::vmul(va_f32, vin_deq.val[2])),
                         wrapper::vbsl(pos_mask.val[3], vin_deq.val[3], wrapper::vmul(va_f32, vin_deq.val[3])),
                     }
                 };
 
                 tmp = vquantize_signed(tmp_dep, qi_out);
             }
             else
             {
                 ARM_COMPUTE_ERROR("Unsupported activation function");
             }
             wrapper::vstore(output_ptr + x, tmp);
         }
 
         // Compute left-over elements
         for(; x < window_end_x; ++x)
         {
             qasymm8_signed_t in  = *(reinterpret_cast<const qasymm8_signed_t *>(input_ptr + x));
             qasymm8_signed_t tmp = 0;
             if(act == ActivationLayerInfo::ActivationFunction::RELU)
             {
                 tmp = std::max(const_0, in);
                 tmp = utility::clamp<int32_t, qasymm8_signed_t>(tmp * s + o);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::BOUNDED_RELU)
             {
                 tmp = std::min(a, std::max(const_0, in));
                 tmp = utility::clamp<int32_t, qasymm8_signed_t>(tmp * s + o);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LU_BOUNDED_RELU)
             {
                 tmp = std::min(a, std::max(b, in));
                 tmp = utility::clamp<int32_t, qasymm8_signed_t>(tmp * s + o);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
             {
                 float tmp_f = dequantize_qasymm8_signed(in, qi_in);
                 tmp_f       = 1.f / (1.f + std::exp(-tmp_f));
                 tmp         = quantize_qasymm8_signed(tmp_f, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::TANH)
             {
                 float tmp_f = dequantize_qasymm8_signed(in, qi_in);
                 tmp_f       = a_f32 * std::tanh(b_f32 * tmp_f);
                 tmp         = quantize_qasymm8_signed(tmp_f, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::HARD_SWISH)
             {
                 float tmp_f = dequantize_qasymm8_signed(in, qi_in);
                 tmp_f       = tmp_f * ((std::min(std::max((tmp_f + 3), 0.0f), 6.0f)) * 0.166666667f);
                 tmp         = quantize_qasymm8_signed(tmp_f, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::LEAKY_RELU)
             {
                 float tmp_f = dequantize_qasymm8_signed(in, qi_in);
                 tmp_f       = tmp_f > 0 ? tmp_f : tmp_f * a_f32;
                 tmp         = quantize_qasymm8_signed(tmp_f, qi_out);
             }
             else
             {
                 ARM_COMPUTE_ERROR("Unsupported activation function");
             }
             *(output_ptr + x) = tmp;
         }
     },
     input, output);
 }

◆ qasymm8_signed_neon_scale()

void qasymm8_signed_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 131 of file qasymm8_signed.cpp.

 {
     if(policy == InterpolationPolicy::BILINEAR)
     {
         qasymm8_signed_neon_scale_bilinear(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset, align_corners, window);
     }
     else if(policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         nearest_neon_scale<int8_t>(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ qasymm8_signed_sve_activation()

void arm_compute::cpu::qasymm8_signed_sve_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ qasymm8_signed_sve_scale()

void arm_compute::cpu::qasymm8_signed_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

◆ qasymm8_sve_activation()

void arm_compute::cpu::qasymm8_sve_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ qasymm8_sve_scale()

void arm_compute::cpu::qasymm8_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

◆ qsymm16_neon_activation()

void qsymm16_neon_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

Definition at line 40 of file qsymm16.cpp.

 {
     constexpr int                                 window_step_x  = 8;
     const auto                                    window_start_x = static_cast<int>(window.x().start());
     const auto                                    window_end_x   = static_cast<int>(window.x().end());
     const ActivationLayerInfo::ActivationFunction act            = act_info.activation();
 
     Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);
     win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     Iterator input(src, win_collapsed);
     Iterator output(dst, win_collapsed);
 
     const UniformQuantizationInfo qi_in    = src->info()->quantization_info().uniform();
     const UniformQuantizationInfo qi_out   = dst->info()->quantization_info().uniform();
     const auto                    vconst_1 = vdupq_n_f32(1.f);
     const float32x4_t             va_f32   = vdupq_n_f32(act_info.a());
     const float32x4_t             vb_f32   = vdupq_n_f32(act_info.b());
     const float                   a_f32    = act_info.a();
     const float                   b_f32    = act_info.b();
 
     execute_window_loop(win_collapsed, [&](const Coordinates &)
     {
         const auto input_ptr  = reinterpret_cast<const qsymm16_t *>(input.ptr());
         const auto output_ptr = reinterpret_cast<qsymm16_t *>(output.ptr());
 
         wrapper::traits::neon_bitvector_t<qsymm16_t, wrapper::traits::BitWidth::W128> tmp;
         ARM_COMPUTE_UNUSED(tmp);
 
         // Compute S elements per iteration
         int x = window_start_x;
         for(; x <= (window_end_x - window_step_x); x += window_step_x)
         {
             const auto vin = wrapper::vloadq(input_ptr + x);
             if(act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
             {
                 // De-quantize
                 const auto vin_deq = vdequantize_int16(vin, qi_in.scale);
                 // Perform activation
                 const float32x4x2_t tmp_dep =
                 {
                     {
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[0])))),
                         wrapper::vdiv(vconst_1, wrapper::vadd(vconst_1, wrapper::vexpq(wrapper::vneg(vin_deq.val[1])))),
                     }
                 };
                 // Re-quantize to new output space
                 tmp = vquantize_int16(tmp_dep, qi_out.scale);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::TANH)
             {
                 // De-quantize
                 const auto vin_deq = vdequantize_int16(vin, qi_in.scale);
                 // Perform activation
                 const float32x4x2_t tmp_dep =
                 {
                     {
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[0], vb_f32))),
                         wrapper::vmul(va_f32, wrapper::vtanh(wrapper::vmul(vin_deq.val[1], vb_f32))),
                     }
                 };
                 // Re-quantize to new output space
                 tmp = vquantize_int16(tmp_dep, qi_out.scale);
             }
             else
             {
                 ARM_COMPUTE_ERROR("Unsupported activation function");
             }
             wrapper::vstore(output_ptr + x, tmp);
         }
 
         // Compute left-over elements
         for(; x < window_end_x; ++x)
         {
             qsymm16_t in  = *(reinterpret_cast<const qsymm16_t *>(input_ptr + x));
             qsymm16_t tmp = 0;
             if(act == ActivationLayerInfo::ActivationFunction::LOGISTIC)
             {
                 float tmp_f = dequantize_qsymm16(in, qi_in.scale);
                 tmp_f       = 1.f / (1.f + std::exp(-tmp_f));
                 tmp         = quantize_qsymm16(tmp_f, qi_out);
             }
             else if(act == ActivationLayerInfo::ActivationFunction::TANH)
             {
                 float tmp_f = dequantize_qsymm16(in, qi_in.scale);
                 tmp_f       = a_f32 * std::tanh(b_f32 * tmp_f);
                 tmp         = quantize_qsymm16(tmp_f, qi_out);
             }
             else
             {
                 ARM_COMPUTE_ERROR("Unsupported activation function");
             }
             *(output_ptr + x) = tmp;
         }
     },
     input, output);
 }

◆ qsymm16_sve_activation()

void arm_compute::cpu::qsymm16_sve_activation	(	const ITensor *	src,
		ITensor *	dst,
		const ActivationLayerInfo &	act_info,
		const Window &	window
	)

◆ quantize() [1/2]

std::enable_if<std::is_same<T, int8_t>::value, int8_t>::type arm_compute::cpu::quantize	(	float	val,
		const UniformQuantizationInfo &	info
	)

inline

Definition at line 41 of file quantized.h.

 {
     return quantize_qasymm8_signed(val, info);
 }

References arm_compute::test::validation::info, and arm_compute::quantize_qasymm8_signed().

◆ quantize() [2/2]

std::enable_if<std::is_same<T, uint8_t>::value, uint8_t>::type arm_compute::cpu::quantize	(	float	val,
		const UniformQuantizationInfo &	info
	)

inline

Definition at line 48 of file quantized.h.

 {
     return quantize_qasymm8(val, info);
 }

References arm_compute::test::validation::info, and arm_compute::quantize_qasymm8().

◆ s16_neon_scale()

void arm_compute::cpu::s16_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 279 of file integer.cpp.

 {
     if(policy == InterpolationPolicy::BILINEAR)
     {
         s16_neon_scale_bilinear(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset, align_corners, window);
     }
     else if(policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         s16_neon_scale_nearest(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ s16_sve_scale()

void arm_compute::cpu::s16_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

◆ store_quantized() [1/3]

void arm_compute::cpu::store_quantized	(	uint8_t *	output_ptr,
		const uint32x4x4_t &	out
	)

Definition at line 63 of file elementwise_quantized_list.h.

 {
     const uint8x8_t pa = vqmovn_u16(vcombine_u16(vqmovn_u32(out.val[0]), vqmovn_u32(out.val[1])));
     const uint8x8_t pb = vqmovn_u16(vcombine_u16(vqmovn_u32(out.val[2]), vqmovn_u32(out.val[3])));
     vst1q_u8(output_ptr, vcombine_u8(pa, pb));
 }

Referenced by elementwise_arithm_op_quantized_broadcast_loop(), elementwise_arithm_op_quantized_loop(), elementwise_comp_op_quantized_broadcast_loop(), elementwise_comp_op_quantized_loop(), elementwise_comp_op_quantized_signed_broadcast_loop(), elementwise_comp_op_quantized_signed_loop(), and store_quantized().

◆ store_quantized() [2/3]

void arm_compute::cpu::store_quantized	(	uint8_t *	output_ptr,
		const int32x4x4_t &	out
	)

Definition at line 70 of file elementwise_quantized_list.h.

 {
     const uint8x8_t pa = vqmovun_s16(vcombine_s16(vqmovn_s32(out.val[0]), vqmovn_s32(out.val[1])));
     const uint8x8_t pb = vqmovun_s16(vcombine_s16(vqmovn_s32(out.val[2]), vqmovn_s32(out.val[3])));
     vst1q_u8(output_ptr, vcombine_u8(pa, pb));
 }

◆ store_quantized() [3/3]

void arm_compute::cpu::store_quantized	(	uint8_t *	output_ptr,
		const float32x4x4_t &	rf,
		const float32x4_t &	offset,
		const float32x4_t &	invscale
	)

Definition at line 77 of file elementwise_quantized_list.h.

 {
     int32x4x4_t out =
     {
         {
             vcvtq_s32_f32(vmlaq_f32(offset, rf.val[0], invscale)),
             vcvtq_s32_f32(vmlaq_f32(offset, rf.val[1], invscale)),
             vcvtq_s32_f32(vmlaq_f32(offset, rf.val[2], invscale)),
             vcvtq_s32_f32(vmlaq_f32(offset, rf.val[3], invscale)),
         }
     };
     store_quantized(output_ptr, out);
 }

References offset(), and store_quantized().

◆ store_quantized_signed() [1/2]

void arm_compute::cpu::store_quantized_signed	(	int8_t *	output_ptr,
		const int32x4x4_t &	out
	)

Definition at line 91 of file elementwise_quantized_list.h.

 {
     const int8x8_t pa = vqmovn_s16(vcombine_s16(vqmovn_s32(out.val[0]), vqmovn_s32(out.val[1])));
     const int8x8_t pb = vqmovn_s16(vcombine_s16(vqmovn_s32(out.val[2]), vqmovn_s32(out.val[3])));
     vst1q_s8(output_ptr, vcombine_s8(pa, pb));
 }

Referenced by elementwise_arithm_op_quantized_signed_broadcast_loop(), elementwise_arithm_op_quantized_singed_loop(), and store_quantized_signed().

◆ store_quantized_signed() [2/2]

void arm_compute::cpu::store_quantized_signed	(	int8_t *	output_ptr,
		const float32x4x4_t &	rf,
		const float32x4_t &	offset,
		const float32x4_t &	invscale
	)

Definition at line 98 of file elementwise_quantized_list.h.

 {
     int32x4x4_t out =
     {
         {
             vcvtq_s32_f32(vmlaq_f32(offset, rf.val[0], invscale)),
             vcvtq_s32_f32(vmlaq_f32(offset, rf.val[1], invscale)),
             vcvtq_s32_f32(vmlaq_f32(offset, rf.val[2], invscale)),
             vcvtq_s32_f32(vmlaq_f32(offset, rf.val[3], invscale)),
         }
     };
     store_quantized_signed(output_ptr, out);
 }

References offset(), and store_quantized_signed().

◆ sub_qasymm8_neon()

void sub_qasymm8_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 35 of file qasymm8.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
 
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
 
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
 
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / oq_info.scale);
     const float32x4_t voffseto   = vdupq_n_f32(oq_info.offset);
 
     if(is_broadcast_across_x)
     {
         const bool                    is_broadcast_input_2 = input2_win.x().step() == 0;
         Window                        broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window                        non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor                *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor                *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
         const UniformQuantizationInfo broadcast_qinfo      = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo  = non_broadcast_tensor->info()->quantization_info().uniform();
         const float32x4_t             vscale1              = is_broadcast_input_2 ? vdupq_n_f32(iq1_info.scale) : vdupq_n_f32(iq2_info.scale);
         const float32x4_t             vscale2              = is_broadcast_input_2 ? vdupq_n_f32(iq2_info.scale) : vdupq_n_f32(iq1_info.scale);
         const int32x4_t               voffset1             = is_broadcast_input_2 ? vdupq_n_s32(iq1_info.offset) : vdupq_n_s32(iq2_info.offset);
         const int32x4_t               voffset2             = is_broadcast_input_2 ? vdupq_n_s32(iq2_info.offset) : vdupq_n_s32(iq1_info.offset);
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const uint8_t *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<uint8_t *>(output.ptr());
 
             const auto broadcast_value     = *reinterpret_cast<const uint8_t *>(broadcast_input.ptr());
             const auto broadcast_value_vec = wrapper::vdup_n(static_cast<uint8_t>(broadcast_value), wrapper::traits::vector_128_tag{});
 
             const float32x4x4_t bf =
             {
                 {
                     vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgetlow(broadcast_value_vec))))), voffset2)), vscale2),
                     vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgetlow(broadcast_value_vec))))), voffset2)), vscale2),
                     vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgethigh(broadcast_value_vec))))), voffset2)), vscale2),
                     vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgethigh(broadcast_value_vec))))), voffset2)), vscale2),
                 }
             };
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto a = wrapper::vloadq(non_broadcast_input_ptr + x);
 
                 const float32x4x4_t af =
                 {
                     {
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgetlow(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgetlow(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgethigh(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgethigh(a))))), voffset1)), vscale1),
                     }
                 };
 
                 const int32x4x4_t rf =
                 {
                     {
 #ifdef __aarch64_
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[0], af.val[0]) : vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[1], af.val[1]) : vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[2], af.val[2]) : vsubq_f32(af.val[2], bf.val[2]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[3], af.val[3]) : vsubq_f32(af.val[3], bf.val[3]), invvscaleo)),
 #else  //__aarch64__
                         vcvtq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[0], af.val[0]) : vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[1], af.val[1]) : vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[2], af.val[2]) : vsubq_f32(af.val[2], bf.val[2]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[3], af.val[3]) : vsubq_f32(af.val[3], bf.val[3]), invvscaleo)),
 #endif //__aarch64__
                     }
                 };
 
                 const auto pa = vqmovun_s16(vcombine_s16(vqmovn_s32(rf.val[0]), vqmovn_s32(rf.val[1])));
                 const auto pb = vqmovun_s16(vcombine_s16(vqmovn_s32(rf.val[2]), vqmovn_s32(rf.val[3])));
                 wrapper::vstore(output_ptr + x, wrapper::vcombine(pa, pb));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>(*(non_broadcast_input_ptr + x) - non_broadcast_qinfo.offset) * non_broadcast_qinfo.scale;
                 const float bfs   = static_cast<int32_t>(broadcast_value - broadcast_qinfo.offset) * broadcast_qinfo.scale;
                 *(output_ptr + x) = quantize_qasymm8(is_broadcast_input_2 ? afs - bfs : bfs - afs, dst->info()->quantization_info());
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         const float32x4_t vscale1  = vdupq_n_f32(iq1_info.scale);
         const float32x4_t vscale2  = vdupq_n_f32(iq2_info.scale);
         const int32x4_t   voffset1 = vdupq_n_s32(iq1_info.offset);
         const int32x4_t   voffset2 = vdupq_n_s32(iq2_info.offset);
 
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const uint8_t *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const uint8_t *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<uint8_t *>(output.ptr());
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto a = wrapper::vloadq(input1_ptr + x);
                 const auto b = wrapper::vloadq(input2_ptr + x);
 
                 const float32x4x4_t af =
                 {
                     {
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgetlow(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgetlow(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgethigh(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgethigh(a))))), voffset1)), vscale1),
                     }
                 };
 
                 const float32x4x4_t bf =
                 {
                     {
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgetlow(b))))), voffset2)), vscale2),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgetlow(b))))), voffset2)), vscale2),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgethigh(b))))), voffset2)), vscale2),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgethigh(b))))), voffset2)), vscale2),
                     }
                 };
 
                 const int32x4x4_t rf =
                 {
                     {
 #ifdef __aarch64__
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[2], bf.val[2]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[3], bf.val[3]), invvscaleo)),
 #else  //__aarch64__
                         vcvtq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[2], bf.val[2]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[3], bf.val[3]), invvscaleo)),
 #endif //__aarch64__
                     }
                 };
 
                 const auto pa = vqmovun_s16(vcombine_s16(vqmovn_s32(rf.val[0]), vqmovn_s32(rf.val[1])));
                 const auto pb = vqmovun_s16(vcombine_s16(vqmovn_s32(rf.val[2]), vqmovn_s32(rf.val[3])));
                 wrapper::vstore(output_ptr + x, wrapper::vcombine(pa, pb));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs = static_cast<int32_t>((*(input1_ptr + x)) - iq1_info.offset) * iq1_info.scale;
                 const float bfs = static_cast<int32_t>((*(input2_ptr + x)) - iq2_info.offset) * iq2_info.scale;
 
                 *(output_ptr + x) = quantize_qasymm8((afs - bfs), dst->info()->quantization_info());
             }
         },
         input1, input2, output);
     }
 }

◆ sub_qasymm8_signed_neon()

void sub_qasymm8_signed_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 35 of file qasymm8_signed.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
 
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = 16;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
 
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
 
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / oq_info.scale);
     const float32x4_t voffseto   = vdupq_n_f32(oq_info.offset);
 
     if(is_broadcast_across_x)
     {
         const bool                    is_broadcast_input_2 = input2_win.x().step() == 0;
         Window                        broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window                        non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor                *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor                *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
         const UniformQuantizationInfo broadcast_qinfo      = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo  = non_broadcast_tensor->info()->quantization_info().uniform();
         const float32x4_t             vscale1              = is_broadcast_input_2 ? vdupq_n_f32(iq1_info.scale) : vdupq_n_f32(iq2_info.scale);
         const float32x4_t             vscale2              = is_broadcast_input_2 ? vdupq_n_f32(iq2_info.scale) : vdupq_n_f32(iq1_info.scale);
         const int32x4_t               voffset1             = is_broadcast_input_2 ? vdupq_n_s32(iq1_info.offset) : vdupq_n_s32(iq2_info.offset);
         const int32x4_t               voffset2             = is_broadcast_input_2 ? vdupq_n_s32(iq2_info.offset) : vdupq_n_s32(iq1_info.offset);
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const int8_t *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<int8_t *>(output.ptr());
 
             const auto broadcast_value     = *reinterpret_cast<const int8_t *>(broadcast_input.ptr());
             const auto broadcast_value_vec = wrapper::vdup_n(static_cast<int8_t>(broadcast_value), wrapper::traits::vector_128_tag{});
 
             const float32x4x4_t bf =
             {
                 {
                     vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgetlow(broadcast_value_vec))))), voffset2)), vscale2),
                     vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgetlow(broadcast_value_vec))))), voffset2)), vscale2),
                     vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgethigh(broadcast_value_vec))))), voffset2)), vscale2),
                     vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgethigh(broadcast_value_vec))))), voffset2)), vscale2),
                 }
             };
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto a = wrapper::vloadq(non_broadcast_input_ptr + x);
 
                 const float32x4x4_t af =
                 {
                     {
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgetlow(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgetlow(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgethigh(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgethigh(a))))), voffset1)), vscale1),
                     }
                 };
 
                 const int32x4x4_t rf =
                 {
                     {
 #ifdef __aarch64_
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[0], af.val[0]) : vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[1], af.val[1]) : vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[2], af.val[2]) : vsubq_f32(af.val[2], bf.val[2]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[3], af.val[3]) : vsubq_f32(af.val[3], bf.val[3]), invvscaleo)),
 #else  //__aarch64__
                         vcvtq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[0], af.val[0]) : vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[1], af.val[1]) : vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[2], af.val[2]) : vsubq_f32(af.val[2], bf.val[2]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, !is_broadcast_input_2 ? vsubq_f32(bf.val[3], af.val[3]) : vsubq_f32(af.val[3], bf.val[3]), invvscaleo)),
 #endif //__aarch64__
                     }
                 };
 
                 const auto pa = vqmovn_s16(vcombine_s16(vqmovn_s32(rf.val[0]), vqmovn_s32(rf.val[1])));
                 const auto pb = vqmovn_s16(vcombine_s16(vqmovn_s32(rf.val[2]), vqmovn_s32(rf.val[3])));
                 wrapper::vstore(output_ptr + x, wrapper::vcombine(pa, pb));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>(*(non_broadcast_input_ptr + x) - non_broadcast_qinfo.offset) * non_broadcast_qinfo.scale;
                 const float bfs   = static_cast<int32_t>(broadcast_value - broadcast_qinfo.offset) * broadcast_qinfo.scale;
                 *(output_ptr + x) = quantize_qasymm8_signed(is_broadcast_input_2 ? afs - bfs : bfs - afs, dst->info()->quantization_info());
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         const float32x4_t vscale1  = vdupq_n_f32(iq1_info.scale);
         const float32x4_t vscale2  = vdupq_n_f32(iq2_info.scale);
         const int32x4_t   voffset1 = vdupq_n_s32(iq1_info.offset);
         const int32x4_t   voffset2 = vdupq_n_s32(iq2_info.offset);
 
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const int8_t *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const int8_t *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<int8_t *>(output.ptr());
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto a = wrapper::vloadq(input1_ptr + x);
                 const auto b = wrapper::vloadq(input2_ptr + x);
 
                 const float32x4x4_t af =
                 {
                     {
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgetlow(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgetlow(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgethigh(a))))), voffset1)), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgethigh(a))))), voffset1)), vscale1),
                     }
                 };
 
                 const float32x4x4_t bf =
                 {
                     {
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgetlow(b))))), voffset2)), vscale2),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgetlow(b))))), voffset2)), vscale2),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgetlow(wrapper::vmovl(wrapper::vgethigh(b))))), voffset2)), vscale2),
                         vmulq_f32(vcvtq_f32_s32(vsubq_s32(wrapper::vreinterpret(wrapper::vmovl(wrapper::vgethigh(wrapper::vmovl(wrapper::vgethigh(b))))), voffset2)), vscale2),
                     }
                 };
 
                 const int32x4x4_t rf =
                 {
                     {
 #ifdef __aarch64__
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[2], bf.val[2]), invvscaleo)),
                         vcvtnq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[3], bf.val[3]), invvscaleo)),
 #else  //__aarch64__
                         vcvtq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[2], bf.val[2]), invvscaleo)),
                         vcvtq_s32_f32(vmlaq_f32(voffseto, vsubq_f32(af.val[3], bf.val[3]), invvscaleo)),
 #endif //__aarch64__
                     }
                 };
 
                 const auto pa = vqmovn_s16(vcombine_s16(vqmovn_s32(rf.val[0]), vqmovn_s32(rf.val[1])));
                 const auto pb = vqmovn_s16(vcombine_s16(vqmovn_s32(rf.val[2]), vqmovn_s32(rf.val[3])));
                 wrapper::vstore(output_ptr + x, wrapper::vcombine(pa, pb));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs = static_cast<int32_t>((*(input1_ptr + x)) - iq1_info.offset) * iq1_info.scale;
                 const float bfs = static_cast<int32_t>((*(input2_ptr + x)) - iq2_info.offset) * iq2_info.scale;
 
                 *(output_ptr + x) = quantize_qasymm8_signed((afs - bfs), dst->info()->quantization_info());
             }
         },
         input1, input2, output);
     }
 }

◆ sub_qsymm16_neon()

void sub_qsymm16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 35 of file qsymm16.cpp.

 {
     ARM_COMPUTE_UNUSED(policy);
 
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     const int  window_step_x         = 8;
     const auto window_start_x        = static_cast<int>(window.x().start());
     const auto window_end_x          = static_cast<int>(window.x().end());
     const bool is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
 
     const UniformQuantizationInfo iq1_info = src0->info()->quantization_info().uniform();
     const UniformQuantizationInfo iq2_info = src1->info()->quantization_info().uniform();
     const UniformQuantizationInfo oq_info  = dst->info()->quantization_info().uniform();
 
     const float32x4_t vscale1    = vdupq_n_f32(iq1_info.scale);
     const float32x4_t vscale2    = vdupq_n_f32(iq2_info.scale);
     const float32x4_t invvscaleo = vdupq_n_f32(1.f / oq_info.scale);
 
     if(is_broadcast_across_x)
     {
         const bool                    is_broadcast_input_2 = input2_win.x().step() == 0;
         Window                        broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window                        non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor                *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor                *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
         const UniformQuantizationInfo broadcast_qinfo      = broadcast_tensor->info()->quantization_info().uniform();
         const UniformQuantizationInfo non_broadcast_qinfo  = non_broadcast_tensor->info()->quantization_info().uniform();
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const int16_t *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<int16_t *>(output.ptr());
 
             const int16_t   broadcast_value     = *reinterpret_cast<const int16_t *>(broadcast_input.ptr());
             const int16x8_t broadcast_value_vec = vdupq_n_s16(broadcast_value);
 
             const float32x4x2_t bf =
             {
                 {
                     vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(broadcast_value_vec))), vscale2),
                     vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(broadcast_value_vec))), vscale2),
                 }
             };
             const float bfs = static_cast<int32_t>(broadcast_value) * broadcast_qinfo.scale;
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const int16x8_t     a = vld1q_s16(non_broadcast_input_ptr + x);
                 const float32x4x2_t af =
                 {
                     {
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(a))), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(a))), vscale1),
                     }
                 };
 
                 const int32x4x4_t rf =
                 {
                     {
 #ifdef __aarch64__
                         vcvtnq_s32_f32(vmulq_f32(is_broadcast_input_2 ? vsubq_f32(bf.val[0], af.val[0]) : vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtnq_s32_f32(vmulq_f32(is_broadcast_input_2 ? vsubq_f32(bf.val[1], af.val[1]) : vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
 #else  //__aarch64__
                         vcvtq_s32_f32(vmulq_f32(is_broadcast_input_2 ? vsubq_f32(bf.val[0], af.val[0]) : vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtq_s32_f32(vmulq_f32(is_broadcast_input_2 ? vsubq_f32(bf.val[1], af.val[1]) : vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
 #endif //__aarch64__
                     }
                 };
 
                 const int16x8_t pa = vcombine_s16(vqmovn_s32(rf.val[0]), vqmovn_s32(rf.val[1]));
                 vst1q_s16(output_ptr + x, pa);
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>(*(non_broadcast_input_ptr + x)) * non_broadcast_qinfo.scale;
                 *(output_ptr + x) = quantize_qsymm16(is_broadcast_input_2 ? (bfs - afs) : (afs - bfs), oq_info);
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const int16_t *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const int16_t *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<int16_t *>(output.ptr());
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const int16x8_t a = vld1q_s16(input1_ptr + x);
                 const int16x8_t b = vld1q_s16(input2_ptr + x);
 
                 const float32x4x2_t af =
                 {
                     {
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(a))), vscale1),
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(a))), vscale1),
                     }
                 };
 
                 const float32x4x2_t bf =
                 {
                     {
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_low_s16(b))), vscale2),
                         vmulq_f32(vcvtq_f32_s32(vmovl_s16(vget_high_s16(b))), vscale2),
                     }
                 };
 
                 const int32x4x2_t rf =
                 {
                     {
 #ifdef __aarch64__
                         vcvtnq_s32_f32(vmulq_f32(vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtnq_s32_f32(vmulq_f32(vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
 #else  //__aarch64__
                         vcvtq_s32_f32(vmulq_f32(vsubq_f32(af.val[0], bf.val[0]), invvscaleo)),
                         vcvtq_s32_f32(vmulq_f32(vsubq_f32(af.val[1], bf.val[1]), invvscaleo)),
 #endif //__aarch64__
                     }
                 };
 
                 const int16x8_t pa = vcombine_s16(vqmovn_s32(rf.val[0]), vqmovn_s32(rf.val[1]));
                 vst1q_s16(output_ptr + x, pa);
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const float afs   = static_cast<int32_t>((*(input1_ptr + x))) * iq1_info.scale;
                 const float bfs   = static_cast<int32_t>((*(input2_ptr + x))) * iq2_info.scale;
                 *(output_ptr + x) = quantize_qsymm16((afs - bfs), dst->info()->quantization_info());
             }
         },
         input1, input2, output);
     }
 }

References ARM_COMPUTE_UNUSED, arm_compute::test::validation::b, arm_compute::graph::bfs(), Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), ITensorInfo::quantization_info(), arm_compute::quantize_qsymm16(), UniformQuantizationInfo::scale, Window::set(), Window::Dimension::start(), Window::Dimension::step(), ITensorInfo::tensor_shape(), QuantizationInfo::uniform(), Dimensions< T >::x(), and Window::x().

◆ sub_s16_u8_s16_neon()

void sub_s16_u8_s16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 106 of file integer.cpp.

 {
     sub_s16_u8_s16_impl(src1, src0, dst, policy, window, false);
 }

References arm_compute::test::validation::dst.

◆ sub_same_neon()

void arm_compute::cpu::sub_same_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

SIMD vector tag type.

Definition at line 48 of file list.h.

 {
     /** SIMD vector tag type. */
     using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;
 
     bool is_sat = policy == ConvertPolicy::SATURATE;
 
     // Create input windows
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     Window win = window;
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     constexpr int window_step_x         = 16 / sizeof(T);
     const auto    window_start_x        = static_cast<int>(window.x().start());
     const auto    window_end_x          = static_cast<int>(window.x().end());
     const bool    is_broadcast_across_x = src0->info()->tensor_shape().x() != src1->info()->tensor_shape().x();
 
     Iterator input1(src0, window.broadcast_if_dimension_le_one(src0->info()->tensor_shape()));
     Iterator input2(src1, window.broadcast_if_dimension_le_one(src1->info()->tensor_shape()));
     Iterator output(dst, window);
 
     if(is_broadcast_across_x)
     {
         const bool     is_broadcast_input_2 = input2_win.x().step() == 0;
         Window         broadcast_win        = is_broadcast_input_2 ? input2_win : input1_win;
         Window         non_broadcast_win    = !is_broadcast_input_2 ? input2_win : input1_win;
         const ITensor *broadcast_tensor     = is_broadcast_input_2 ? src1 : src0;
         const ITensor *non_broadcast_tensor = !is_broadcast_input_2 ? src1 : src0;
 
         // Clear X Dimension on execution window as we handle manually
         non_broadcast_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator broadcast_input(broadcast_tensor, broadcast_win);
         Iterator non_broadcast_input(non_broadcast_tensor, non_broadcast_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto non_broadcast_input_ptr = reinterpret_cast<const T *>(non_broadcast_input.ptr());
             const auto output_ptr              = reinterpret_cast<T *>(output.ptr());
 
             const T    broadcast_value     = *reinterpret_cast<const T *>(broadcast_input.ptr());
             const auto broadcast_value_vec = wrapper::vdup_n(broadcast_value, ExactTagType{});
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto non_broadcast_v = wrapper::vloadq(non_broadcast_input_ptr + x);
                 auto       res             = is_sat ? wrapper::vqsub(broadcast_value_vec, non_broadcast_v) : wrapper::vsub(broadcast_value_vec, non_broadcast_v);
                 if(is_broadcast_input_2)
                 {
                     res = wrapper::vmul(res, wrapper::vdup_n(static_cast<T>(-1), ExactTagType{}));
                 }
                 wrapper::vstore(output_ptr + x, res);
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const auto non_broadcast_v = *(non_broadcast_input_ptr + x);
                 auto       res             = is_sat ? wrapper::sub_sat(broadcast_value, non_broadcast_v) : broadcast_value - non_broadcast_v;
                 if(is_broadcast_input_2)
                 {
                     res = static_cast<T>(-1) * res;
                 }
 
                 *(output_ptr + x) = res;
             }
         },
         broadcast_input, non_broadcast_input, output);
     }
     else
     {
         // Clear X Dimension on execution window as we handle manually
         input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
         input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
         Iterator input1(src0, input1_win);
         Iterator input2(src1, input2_win);
         Iterator output(dst, win);
 
         execute_window_loop(win, [&](const Coordinates &)
         {
             const auto input1_ptr = reinterpret_cast<const T *>(input1.ptr());
             const auto input2_ptr = reinterpret_cast<const T *>(input2.ptr());
             const auto output_ptr = reinterpret_cast<T *>(output.ptr());
 
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto val1 = wrapper::vloadq(input1_ptr + x);
                 const auto val2 = wrapper::vloadq(input2_ptr + x);
                 const auto res  = is_sat ? wrapper::vqsub(val1, val2) : wrapper::vsub(val1, val2);
                 wrapper::vstore(output_ptr + x, res);
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 const auto val1   = *(input1_ptr + x);
                 const auto val2   = *(input2_ptr + x);
                 *(output_ptr + x) = is_sat ? wrapper::sub_sat(val1, val2) : val1 - val2;
             }
         },
         input1, input2, output);
     }
 }

References Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), arm_compute::SATURATE, Window::set(), Window::Dimension::start(), Window::Dimension::step(), arm_compute::wrapper::sub_sat(), ITensorInfo::tensor_shape(), arm_compute::wrapper::vdup_n(), arm_compute::wrapper::vloadq(), arm_compute::wrapper::vmul(), arm_compute::wrapper::vqsub(), arm_compute::wrapper::vstore(), arm_compute::wrapper::vsub(), Dimensions< T >::x(), and Window::x().

◆ sub_u8_s16_s16_neon()

void sub_u8_s16_s16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 111 of file integer.cpp.

 {
     // Swap arguments
     sub_s16_u8_s16_impl(src1, src0, dst, policy, window, true);
 }

References arm_compute::test::validation::dst.

◆ sub_u8_u8_s16_neon()

void sub_u8_u8_s16_neon	(	const ITensor *	src0,
		const ITensor *	src1,
		ITensor *	dst,
		const ConvertPolicy &	policy,
		const Window &	window
	)

Definition at line 117 of file integer.cpp.

 {
     // Create input windows
     Window win        = window;
     Window input1_win = window.broadcast_if_dimension_le_one(src0->info()->tensor_shape());
     Window input2_win = window.broadcast_if_dimension_le_one(src1->info()->tensor_shape());
 
     // Clear X Dimension on execution window as we handle manually
     win.set(Window::DimX, Window::Dimension(0, 1, 1));
     input1_win.set(Window::DimX, Window::Dimension(0, 1, 1));
     input2_win.set(Window::DimX, Window::Dimension(0, 1, 1));
 
     Iterator input1(src0, input1_win);
     Iterator input2(src1, input2_win);
     Iterator output(dst, win);
 
     const int  window_step_x  = 8;
     const auto window_start_x = static_cast<int>(window.x().start());
     const auto window_end_x   = static_cast<int>(window.x().end());
 
     execute_window_loop(win, [&](const Coordinates &)
     {
         const auto input1_ptr = reinterpret_cast<const uint8_t *>(input1.ptr());
         const auto input2_ptr = reinterpret_cast<const uint8_t *>(input2.ptr());
         const auto output_ptr = reinterpret_cast<int16_t *>(output.ptr());
 
         if(policy == ConvertPolicy::WRAP)
         {
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin1 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input1_ptr + x)));
                 const auto vin2 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input2_ptr + x)));
                 wrapper::vstore(output_ptr + x, wrapper::vsub(vin1, vin2));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 *(output_ptr + x) = static_cast<int16_t>(*(input1_ptr + x)) - static_cast<int16_t>(*(input2_ptr + x));
             }
         }
         else
         {
             // Compute S elements per iteration
             int x = window_start_x;
             for(; x <= (window_end_x - window_step_x); x += window_step_x)
             {
                 const auto vin1 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input1_ptr + x)));
                 const auto vin2 = vreinterpretq_s16_u16(wrapper::vmovl(wrapper::vload(input2_ptr + x)));
                 wrapper::vstore(output_ptr + x, wrapper::vqsub(vin1, vin2));
             }
 
             // Compute left-over elements
             for(; x < window_end_x; ++x)
             {
                 *(output_ptr + x) = wrapper::sub_sat(static_cast<int16_t>(*(input1_ptr + x)),
                                                      static_cast<int16_t>(*(input2_ptr + x)));
             }
         }
     },
     input1, input2, output);
 }

References Window::broadcast_if_dimension_le_one(), Window::DimX, arm_compute::test::validation::dst, Window::Dimension::end(), arm_compute::execute_window_loop(), ITensor::info(), Iterator::ptr(), Window::set(), Window::Dimension::start(), arm_compute::wrapper::sub_sat(), ITensorInfo::tensor_shape(), arm_compute::wrapper::vload(), arm_compute::wrapper::vmovl(), arm_compute::wrapper::vqsub(), arm_compute::wrapper::vstore(), arm_compute::wrapper::vsub(), arm_compute::WRAP, and Window::x().

◆ u8_neon_scale()

void arm_compute::cpu::u8_neon_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

Definition at line 265 of file integer.cpp.

 {
     if(policy == InterpolationPolicy::BILINEAR)
     {
         u8_neon_scale_bilinear(src, dst, offsets, dx, dy, border_mode, constant_border_value, sampling_offset, align_corners, window);
     }
     else if(policy == InterpolationPolicy::NEAREST_NEIGHBOR)
     {
         u8_neon_scale_nearest(src, dst, offsets, sampling_offset, align_corners, window);
     }
 }

References arm_compute::BILINEAR, arm_compute::test::validation::dst, arm_compute::NEAREST_NEIGHBOR, and arm_compute::test::validation::src.

◆ u8_sve_scale()

void arm_compute::cpu::u8_sve_scale	(	const ITensor *	src,
		ITensor *	dst,
		const ITensor *	offsets,
		const ITensor *	dx,
		const ITensor *	dy,
		InterpolationPolicy	policy,
		BorderMode	border_mode,
		PixelValue	constant_border_value,
		float	sampling_offset,
		bool	align_corners,
		const Window &	window
	)

◆ vcvtq_f32_q32() [1/3]

float32x4_t arm_compute::cpu::vcvtq_f32_q32 ( T values )

inline

Referenced by poolingMxN_q8_neon_nhwc().

◆ vcvtq_f32_q32() [2/3]

float32x4_t arm_compute::cpu::vcvtq_f32_q32 ( uint32x4_t values )

inline

Definition at line 72 of file quantized.h.

 {
     return vcvtq_f32_u32(values);
 }

◆ vcvtq_f32_q32() [3/3]

float32x4_t arm_compute::cpu::vcvtq_f32_q32 ( int32x4_t values )

inline

Definition at line 78 of file quantized.h.

 {
     return vcvtq_f32_s32(values);
 }

◆ vcvtq_q32_f32() [1/3]

T arm_compute::cpu::vcvtq_q32_f32 ( float32x4_t values )

inline

Definition at line 57 of file quantized.h.

 {
     return vcvtq_u32_f32(values);
 }

◆ vcvtq_q32_f32() [2/3]

uint32x4_t arm_compute::cpu::vcvtq_q32_f32 ( float32x4_t values )

inline

Definition at line 57 of file quantized.h.

 {
     return vcvtq_u32_f32(values);
 }

◆ vcvtq_q32_f32() [3/3]

int32x4_t arm_compute::cpu::vcvtq_q32_f32 ( float32x4_t values )

inline

Definition at line 63 of file quantized.h.

 {
     return vcvtq_s32_f32(values);
 }

◆ vrequantize_pooling() [1/6]

Tout arm_compute::cpu::vrequantize_pooling	(	Tin	vec1,
		Tin	vec2,
		const UniformQuantizationInfo &	requant_qinfo
	)

inline

◆ vrequantize_pooling() [2/6]

uint8x16_t arm_compute::cpu::vrequantize_pooling	(	uint8x8_t	vec1,
		uint8x8_t	vec2,
		const UniformQuantizationInfo &	requant_qinfo
	)

inline

Definition at line 104 of file quantized.h.

 {
     const float32x4x4_t acc =
     {
         {
             vcvtq_f32_u32(vmovl_u16(vget_low_u16(vmovl_u8((vec1))))),
             vcvtq_f32_u32(vmovl_u16(vget_high_u16(vmovl_u8((vec1))))),
             vcvtq_f32_u32(vmovl_u16(vget_low_u16(vmovl_u8((vec2))))),
             vcvtq_f32_u32(vmovl_u16(vget_high_u16(vmovl_u8((vec2))))),
         }
     };
     return vquantize(acc, requant_qinfo);
 }

References arm_compute::vquantize().

◆ vrequantize_pooling() [3/6]

int8x16_t arm_compute::cpu::vrequantize_pooling	(	int8x8_t	vec1,
		int8x8_t	vec2,
		const UniformQuantizationInfo &	requant_qinfo
	)

inline

Definition at line 119 of file quantized.h.

 {
     const float32x4x4_t acc =
     {
         {
             vcvtq_f32_s32(vmovl_s16(vget_low_s16(vmovl_s8((vec1))))),
             vcvtq_f32_s32(vmovl_s16(vget_high_s16(vmovl_s8((vec1))))),
             vcvtq_f32_s32(vmovl_s16(vget_low_s16(vmovl_s8((vec2))))),
             vcvtq_f32_s32(vmovl_s16(vget_high_s16(vmovl_s8((vec2))))),
         }
     };
     return vquantize_signed(acc, requant_qinfo);
 }

References arm_compute::vquantize_signed().

◆ vrequantize_pooling() [4/6]

T arm_compute::cpu::vrequantize_pooling	(	T &	vec,
		const UniformQuantizationInfo &	requant_qinfo
	)

inline

◆ vrequantize_pooling() [5/6]

uint8x8_t arm_compute::cpu::vrequantize_pooling	(	uint8x8_t &	vec,
		const UniformQuantizationInfo &	requant_qinfo
	)

inline

Definition at line 137 of file quantized.h.

 {
     const float32x4x2_t acc =
     {
         {
             vcvtq_f32_u32(vmovl_u16(vget_low_u16(vmovl_u8((vec))))),
             vcvtq_f32_u32(vmovl_u16(vget_high_u16(vmovl_u8((vec))))),
         }
     };
     return vquantize(acc, requant_qinfo);
 }

References arm_compute::vquantize().

◆ vrequantize_pooling() [6/6]

int8x8_t arm_compute::cpu::vrequantize_pooling	(	int8x8_t &	vec,
		const UniformQuantizationInfo &	requant_qinfo
	)

inline

Definition at line 150 of file quantized.h.

 {
     const float32x4x2_t acc =
     {
         {
             vcvtq_f32_s32(vmovl_s16(vget_low_s16(vmovl_s8((vec))))),
             vcvtq_f32_s32(vmovl_s16(vget_high_s16(vmovl_s8((vec))))),
         }
     };
     return vquantize_signed(acc, requant_qinfo);
 }

References arm_compute::vquantize_signed().

◆ vrequantize_pooling_with_scale() [1/3]

Tout arm_compute::cpu::vrequantize_pooling_with_scale	(	const float32x4x4_t &	acc,
		const float	quant_rescale,
		const float	scale_pooling,
		const int32_t	new_offset
	)

inline

Definition at line 87 of file quantized.h.

 {
     const float new_scale = quant_rescale / scale_pooling;
     return vquantize(acc, UniformQuantizationInfo(new_scale, new_offset));
 }

References arm_compute::vquantize(), and arm_compute::vquantize_signed().

◆ vrequantize_pooling_with_scale() [2/3]

uint8x16_t arm_compute::cpu::vrequantize_pooling_with_scale	(	const float32x4x4_t &	acc,
		const float	quant_rescale,
		const float	scale_pooling,
		const int32_t	new_offset
	)

inline

Definition at line 87 of file quantized.h.

 {
     const float new_scale = quant_rescale / scale_pooling;
     return vquantize(acc, UniformQuantizationInfo(new_scale, new_offset));
 }

References arm_compute::vquantize().

◆ vrequantize_pooling_with_scale() [3/3]

int8x16_t arm_compute::cpu::vrequantize_pooling_with_scale	(	const float32x4x4_t &	acc,
		const float	quant_rescale,
		const float	scale_pooling,
		const int32_t	new_offset
	)

inline

Definition at line 94 of file quantized.h.

 {
     const float new_scale = quant_rescale / scale_pooling;
     return vquantize_signed(acc, UniformQuantizationInfo(new_scale, new_offset));
 }

References arm_compute::vquantize_signed().

Variable Documentation

◆ step

constexpr int step = 4

Definition at line 35 of file fp32.cpp.

Referenced by arm_compute::adjust_down(), arm_compute::adjust_up(), Window::collapse_if_possible(), CLRangeKernel::configure(), NERangeKernel::configure(), CLRange::configure(), NERange::configure(), arm_compute::convert_window_coord_to_position(), arm_compute::enqueue(), arm_compute::error_on_invalid_subwindow(), arm_compute::error_on_mismatching_windows(), arm_compute::error_on_window_dimensions_gte(), arm_compute::execute_window_loop(), fp32_neon_floor(), Dimensions< size_t >::increment(), arm_compute::test::framework::dataset::make(), arm_compute::num_of_elements_in_range(), arm_compute::test::validation::reference::range(), ClDirectConvolutionKernel::run_op(), Window::set_dimension_step(), WindowIterator< L >::set_step(), Window::shape(), TensorShape::shift_right(), Window::split_window(), NERangeKernel::validate(), CLRangeKernel::validate(), CLRange::validate(), NERange::validate(), and Window::validate().

Namespaces

Data Structures

Typedefs

Functions

Variables

Typedef Documentation

◆ CpuElementwiseMax

◆ CpuElementwiseMin

◆ CpuElementwiseSquaredDiff

◆ CpuLogSoftmax

◆ CpuPRelu

◆ CpuSoftmax

◆ ICpuKernel

◆ ICpuOperator

◆ KernelType

◆ NEEqual

◆ NEGreater

◆ NEGreaterEqual

◆ NELess

◆ NELessEqual

◆ NENotEqual

Function Documentation

◆ add_qasymm8_neon()

◆ add_qasymm8_signed_neon()

◆ add_qsymm16_neon()

◆ add_s16_u8_s16_neon()

◆ add_same_neon()

◆ add_u8_s16_s16_neon()

◆ add_u8_u8_s16_neon()

◆ bilinear_neon_scale()

◆ calculate_avg_scale()

◆ common_neon_scale()

◆ elementwise_arithm_op() [1/3]

◆ elementwise_arithm_op() [2/3]

◆ elementwise_arithm_op() [3/3]

◆ elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< float, 4 > >()

◆ elementwise_arithm_op< ArithmeticOperation::DIV, typename wrapper::traits::neon_vector< int32_t, 4 > >()

◆ elementwise_arithm_op< ArithmeticOperation::POWER, typename wrapper::traits::neon_vector< float, 4 > >()

◆ elementwise_arithm_op_broadcast()

◆ elementwise_arithm_op_broadcast_loop()

◆ elementwise_arithm_op_loop()

◆ elementwise_arithm_op_quantized()

◆ elementwise_arithm_op_quantized_broadcast_loop()

◆ elementwise_arithm_op_quantized_loop()

◆ elementwise_arithm_op_quantized_scalar()

◆ elementwise_arithm_op_quantized_signed()

◆ elementwise_arithm_op_quantized_signed_broadcast_loop()

◆ elementwise_arithm_op_quantized_signed_scalar()

◆ elementwise_arithm_op_quantized_singed_loop()

◆ elementwise_arithm_op_scalar()

◆ elementwise_comp_op() [1/2]

◆ elementwise_comp_op() [2/2]

◆ elementwise_comp_op_16()

◆ elementwise_comp_op_16_loop()

◆ elementwise_comp_op_32()

◆ elementwise_comp_op_32_loop()

◆ elementwise_comp_op_8()

◆ elementwise_comp_op_8_loop()

◆ elementwise_comp_op_broadcast()

◆ elementwise_comp_op_broadcast_16_loop()

◆ elementwise_comp_op_broadcast_32_loop()

◆ elementwise_comp_op_broadcast_8_loop()

◆ elementwise_comp_op_quantized()

◆ elementwise_comp_op_quantized_broadcast_loop()

◆ elementwise_comp_op_quantized_loop()

◆ elementwise_comp_op_quantized_scalar()

◆ elementwise_comp_op_quantized_signed()

◆ elementwise_comp_op_quantized_signed_broadcast_loop()

◆ elementwise_comp_op_quantized_signed_loop()

◆ elementwise_comp_op_scalar()

◆ elementwise_comp_quantized_signed()

◆ elementwise_op() [1/2]

◆ elementwise_op() [2/2]

◆ elementwise_op_imp()

◆ elementwise_op_quantized()

◆ elementwise_op_quantized_signed()

◆ elementwise_op_scalar_imp()

◆ fp16_neon_activation()

◆ fp16_neon_batch_normalization()

◆ fp16_neon_floor()