#include <gemv_pretransposed.hpp>

Collaboration diagram for GemvPretransposed< strategy, To, Tr, OutputStage >:

Public Member Functions
	GemvPretransposed (GemvPretransposed &)=delete

GemvPretransposed &	operator= (GemvPretransposed &)=delete

	GemvPretransposed (const GemmArgs &args, const OutputStage &os={})

ndrange_t	get_window_size () const override

void	execute (const ndcoord_t &work_range, const ndcoord_t &, int) override
	Main execute member fucntion. More...

bool	B_is_pretransposed () const override

bool	B_pretranspose_required () const override

size_t	get_B_pretransposed_array_size () const override

void	requantize_bias (void in_buffer, const To B, const int ldb, const int B_multi_stride) override

void	pretranspose_B_array (void buffer, const To B, const int ldb, const int B_multi_stride) override

void	set_pretransposed_B_data (void *buffer) override

GemmConfig	get_config () override

Public Member Functions inherited from GemmCommon< To, Tr >
virtual void	set_arrays (const To A, const int lda, const int A_batch_stride, const int A_multi_stride, const To B, const int ldb, const int B_multi_stride, Tr C, const int ldc, const int C_batch_stride, const int C_multi_stride, const Tr bias, const int bias_multi_stride)

void	set_arrays_generic (const void A, const int lda, const int A_batch_stride, const int A_multi_stride, const void B, const int ldb, const int B_multi_stride, void C, const int ldc, const int C_batch_stride, const int C_multi_stride, const void bias, const int bias_multi_stride) override

void	pretranspose_B_array_generic (void out, const void in, const int row_stride, const int multi_stride) override

virtual void	pretranspose_B_array_part (void out, const To in, const int row_stride, const int multi_stride, size_t, size_t)

void	pretranspose_B_array_part_generic (void out, const void in, const int row_stride, const int multi_stride, size_t start, size_t end) override

virtual void	set_indirect_parameters (size_t, const To const const *)

void	set_indirect_parameters_generic (size_t sz, const void const const *ptr) override

Public Member Functions inherited from IGemmCommon
virtual void	set_nthreads (int)

virtual bool	supports_dynamic_scheduling () const

virtual size_t	get_working_size () const

virtual void	set_working_space (void *)

virtual size_t	get_B_pretranspose_window_size () const

virtual void	set_quantized_bias (const int32_t *, size_t)

virtual void	set_convolution_parameters (ConvolutionParameters)

virtual	~IGemmCommon ()

Detailed Description

template<typename strategy, typename To, typename Tr, typename OutputStage = Nothing>
class arm_gemm::GemvPretransposed< strategy, To, Tr, OutputStage >

Definition at line 88 of file gemv_pretransposed.hpp.

Constructor & Destructor Documentation

◆ GemvPretransposed() [1/2]

GemvPretransposed ( GemvPretransposed< strategy, To, Tr, OutputStage > & )

delete

◆ GemvPretransposed() [2/2]

GemvPretransposed	(	const GemmArgs &	args,
		const OutputStage &	os = `{}`
	)

inline

Definition at line 119 of file gemv_pretransposed.hpp.

                                                                     {})
                       : _args(args),
                         _buffer_per_multi(roundup(args._Ksize, strategy::k_unroll()) * roundup(args._Nsize, strategy::out_width())),
                         _os(os) {
         /* For now don't do any blocking. TODO: figure out if we should. */
         if (strategy::supports_accumulate() && args._cfg && args._cfg->inner_block_size) {
             k_block = args._cfg->inner_block_size;
         } else {
             k_block = args._Ksize;
         }
  
         if (args._cfg && args._cfg->outer_block_size) {
             n_block = args._cfg->outer_block_size;
         } else {
             n_block = args._Nsize;
         }
     }

Member Function Documentation

◆ B_is_pretransposed()

bool B_is_pretransposed ( ) const

inlineoverridevirtual

Reimplemented from IGemmCommon.

Definition at line 191 of file gemv_pretransposed.hpp.

                                              {
         return true;
     }

◆ B_pretranspose_required()

bool B_pretranspose_required ( ) const

inlineoverridevirtual

Reimplemented from IGemmCommon.

Definition at line 195 of file gemv_pretransposed.hpp.

                                                   {
         /* Transpose is required if _B_pretransposed is still nullptr */
         return (_B_pretransposed == nullptr);
     }

◆ execute()

void execute	(	const ndcoord_t &	work_range,
		const ndcoord_t &	thread_locator,
		int	threadid
	)

inlineoverridevirtual

Main execute member fucntion.

Parameters

[in]	work_range	specifies the range of work we want to be computed, total range defined by get_window_size()
[in]	thread_locator	where are we inside of the thread space
[in]	threadid	a unique threadid

Implements IGemmCommon.

Definition at line 143 of file gemv_pretransposed.hpp.

                                                                                {
 #ifdef CYCLE_PROFILING
         profiler prof;
 #endif
         strategy strat(_args._ci);
  
         const auto start = work_range.get_position(0);
         const auto end   = work_range.get_position_end(0);
  
         /* Break the window values down into multis of interest... */
         const unsigned int window_per_multi = iceildiv(_args._Nsize, strategy::out_width());
         const unsigned int multi_0    = start / window_per_multi;
         const unsigned int multi_end  = end   / window_per_multi;
  
         /* ... and figure out where we start and end in the first and last multi. */
         const unsigned int n_0   = (start - (multi_0 * window_per_multi)) * strategy::out_width();
         const unsigned int n_max = (end - (multi_end * window_per_multi)) * strategy::out_width();
  
         static_assert(std::is_same<Tr, Tri>::value, "GemvPretransposed: Result types must be the same.");
  
         for (unsigned int multi=multi_0; multi<=multi_end; multi++) {
             const unsigned int n_start = (multi==multi_0) ? n_0 : 0;
             const unsigned int n_end = (multi==multi_end) ? n_max : _args._Nsize;
  
             if (n_end <= n_start)
                 continue;
  
             for (unsigned int k0=0; k0<_args._Ksize; k0+=k_block) {
                 unsigned int kmax = std::min(k0 + k_block, _args._Ksize);
  
                 for (unsigned int n=n_start; n<n_end; n+=n_block) {
                     unsigned int nmax = std::min(n + n_block, n_end);
 #ifdef CYCLE_PROFILING
                     auto p = prof.ScopedProfiler(PROFILE_KERNEL, (kmax-k0) * (nmax-n));
 #endif
                     run_gemv_kernel<OutputStage>::run(strat, this->_Aptr + (multi * this->_A_multi_stride) + k0,
                                  _B_pretransposed + (multi * _buffer_per_multi) + (n * roundup(_args._Ksize, strategy::k_unroll())) + (k0 * strategy::out_width()),
                                  this->_Cptr + (multi * this->_C_multi_stride) + n,
                                  (nmax - n), (kmax-k0),
                                  this->_bias ? this->_bias + (multi * this->_bias_multi_stride) + n : nullptr,
                                  _args._act, (k0 != 0),
                                  _os, col_bias, n + (_args._Nsize * multi));
                 }
             }
         }
     }

References GemmArgs::_act, GemmArgs::_ci, GemmArgs::_Ksize, GemmArgs::_Nsize, arm_compute::mlgo::parser::end(), NDCoordinate< N >::get_position(), NDCoordinate< N >::get_position_end(), arm_gemm::iceildiv(), arm_gemm::roundup(), arm_compute::test::validation::run(), and strategy.

◆ get_B_pretransposed_array_size()

size_t get_B_pretransposed_array_size ( ) const

inlineoverridevirtual

Reimplemented from IGemmCommon.

Definition at line 200 of file gemv_pretransposed.hpp.

                                                            {
         return _buffer_per_multi * _args._nmulti * sizeof(To) + get_col_sum_size();
     }

References GemmArgs::_nmulti.

◆ get_config()

GemmConfig get_config ( )

inlineoverridevirtual

Implements IGemmCommon.

Definition at line 238 of file gemv_pretransposed.hpp.

                                      {
         GemmConfig c;
  
         c.method = GemmMethod::GEMV_PRETRANSPOSED;
         c.inner_block_size = k_block;
         c.outer_block_size = n_block;
         c.filter = get_type_name<strategy>();
  
         return c;
     }

References GemmConfig::filter, arm_gemm::GEMV_PRETRANSPOSED, GemmConfig::inner_block_size, GemmConfig::method, and GemmConfig::outer_block_size.

◆ get_window_size()

ndrange_t get_window_size ( ) const

inlineoverridevirtual

Returns: an ndrange containing ranges of the compute space which can be broken up and parallelised over

Implements IGemmCommon.

Definition at line 138 of file gemv_pretransposed.hpp.

                                                {
         return { iceildiv(_args._Nsize, strategy::out_width()) * _args._nmulti };
     }

References GemmArgs::_nmulti, GemmArgs::_Nsize, and arm_gemm::iceildiv().

◆ operator=()

GemvPretransposed& operator= ( GemvPretransposed< strategy, To, Tr, OutputStage > & )

delete

◆ pretranspose_B_array()

void pretranspose_B_array	(	void *	buffer,
		const To *	B,
		const int	ldb,
		const int	B_multi_stride
	)

inlineoverridevirtual

Reimplemented from GemmCommon< To, Tr >.

Definition at line 218 of file gemv_pretransposed.hpp.

                                                                                                            {
         requantize_bias(buffer, B, ldb, B_multi_stride);
  
         // The actual transposed buffer goes after the column sums (if any)
         uintptr_t buffer_int = reinterpret_cast<uintptr_t>(buffer);
         Toi *B_buffer = reinterpret_cast<Toi *>(buffer_int + get_col_sum_size());
  
         strategy strat(_args._ci);
  
         for (unsigned int multi=0; multi<_args._nmulti; multi++) {
             strat.transforms.PrepareB(B_buffer + (multi * _buffer_per_multi), B + (multi * B_multi_stride), ldb, 0, _args._Nsize, 0, _args._Ksize);
         }
  
         _B_pretransposed = B_buffer;
     }

References GemmArgs::_ci, GemmArgs::_Ksize, GemmArgs::_nmulti, GemmArgs::_Nsize, GemvPretransposed< strategy, To, Tr, OutputStage >::requantize_bias(), and strategy.

◆ requantize_bias()

void requantize_bias	(	void *	in_buffer,
		const To *	B,
		const int	ldb,
		const int	B_multi_stride
	)

inlineoverridevirtual

Reimplemented from GemmCommon< To, Tr >.

Definition at line 204 of file gemv_pretransposed.hpp.

                                                                                                          {
         // Column sums go on the front of the pretransposed buffer in requantized cases.
         // We could optimize here in case we don't actually need to sum the columns, but this code is only run on setup.
         if (std::is_same<OutputStage, Requantize32>::value) {
             col_bias = reinterpret_cast<int32_t *>(in_buffer);
  
             Requantize32 *qp_ptr = reinterpret_cast<Requantize32 *>(&_os);
  
             for (unsigned int i=0; i<_args._nmulti; i++) {
                 compute_col_sums(*qp_ptr, _args._Nsize, _args._Ksize, B + (i * B_multi_stride), ldb, col_bias + (i * _args._Nsize), _args._Ksize, i, 0);
             }
         }
     }

References GemmArgs::_Ksize, GemmArgs::_nmulti, GemmArgs::_Nsize, and arm_gemm::compute_col_sums().

Referenced by GemvPretransposed< strategy, To, Tr, OutputStage >::pretranspose_B_array().

◆ set_pretransposed_B_data()

void set_pretransposed_B_data ( void * buffer )

inlineoverridevirtual

Reimplemented from IGemmCommon.

Definition at line 234 of file gemv_pretransposed.hpp.

                                                          {
         _B_pretransposed = reinterpret_cast<Toi *>(buffer);
     }

The documentation for this class was generated from the following file:

src/core/NEON/kernels/arm_gemm/gemv_pretransposed.hpp

Public Member Functions

Detailed Description

template<typename strategy, typename To, typename Tr, typename OutputStage = Nothing> class arm_gemm::GemvPretransposed< strategy, To, Tr, OutputStage >

Constructor & Destructor Documentation

◆ GemvPretransposed() [1/2]

◆ GemvPretransposed() [2/2]

Member Function Documentation

◆ B_is_pretransposed()

◆ B_pretranspose_required()

◆ execute()

◆ get_B_pretransposed_array_size()

◆ get_config()

◆ get_window_size()

◆ operator=()

◆ pretranspose_B_array()

◆ requantize_bias()

◆ set_pretransposed_B_data()

template<typename strategy, typename To, typename Tr, typename OutputStage = Nothing>
class arm_gemm::GemvPretransposed< strategy, To, Tr, OutputStage >