armnn/latest/_neon_backend_8cpp_source.html

 //

 // Copyright © 2017-2023 Arm Ltd and Contributors. All rights reserved.

 // SPDX-License-Identifier: MIT

 //


 #include "NeonBackend.hpp"

 #include "NeonBackendId.hpp"

 #include "NeonBackendModelContext.hpp"

 #include "NeonWorkloadFactory.hpp"

 #include "NeonLayerSupport.hpp"

 #include "NeonTensorHandleFactory.hpp"

 #include "NeonBackendOptimizationUtils.hpp"


 #include <armnn/BackendRegistry.hpp>

 #include <armnn/Descriptors.hpp>


 #include <aclCommon/ArmComputeSubgraphUtils.hpp>

 #include <aclCommon/ArmComputeUtils.hpp>

 #include <aclCommon/BaseMemoryManager.hpp>


 #include <armnn/backends/IBackendContext.hpp>

 #include <armnn/backends/IMemoryManager.hpp>


 #include <armnn/utility/PolymorphicDowncast.hpp>


 #include <neon/workloads/NeonAdditionWorkload.hpp>

 #include <neon/workloads/NeonBatchNormalizationWorkload.hpp>

 #include <neon/workloads/NeonConvolution2dWorkload.hpp>

 #include <neon/workloads/NeonDepthwiseConvolutionWorkload.hpp>

 #include <neon/workloads/NeonDivisionWorkload.hpp>

 #include <neon/workloads/NeonFullyConnectedWorkload.hpp>

 #include <neon/workloads/NeonFusedWorkload.hpp>

 #include <neon/workloads/NeonMultiplicationWorkload.hpp>

 #include <neon/workloads/NeonReduceWorkload.hpp>

 #include <neon/workloads/NeonSubtractionWorkload.hpp>

 #include <backendsCommon/DefaultAllocator.hpp>


 #include <Optimizer.hpp>


 #include <arm_compute/core/Types.h>

 #include <arm_compute/runtime/Allocator.h>


 namespace armnn

 {


 const BackendId& NeonBackend::GetIdStatic()

 {

     static const BackendId s_Id{NeonBackendId()};

     return s_Id;

 }


 IBackendInternal::IMemoryManagerUniquePtr NeonBackend::CreateMemoryManager() const

 {

     return std::make_unique<NeonMemoryManager>(std::make_unique<arm_compute::Allocator>(),

                                                BaseMemoryManager::MemoryAffinity::Offset);

 }


 IBackendInternal::IWorkloadFactoryPtr NeonBackend::CreateWorkloadFactory(

     const IBackendInternal::IMemoryManagerSharedPtr& memoryManager) const

 {

     return std::make_unique<NeonWorkloadFactory>(

         PolymorphicPointerDowncast<NeonMemoryManager>(memoryManager));

 }


 IBackendInternal::IWorkloadFactoryPtr NeonBackend::CreateWorkloadFactory(

     const IBackendInternal::IMemoryManagerSharedPtr& memoryManager, const ModelOptions& modelOptions) const

 {

     return std::make_unique<NeonWorkloadFactory>(

         PolymorphicPointerDowncast<NeonMemoryManager>(memoryManager), CreateBackendSpecificModelContext(modelOptions));

 }


 IBackendInternal::IWorkloadFactoryPtr NeonBackend::CreateWorkloadFactory(

     class TensorHandleFactoryRegistry& tensorHandleFactoryRegistry) const

 {

     auto memoryManager = std::make_shared<NeonMemoryManager>(std::make_unique<arm_compute::Allocator>(),

                                                              BaseMemoryManager::MemoryAffinity::Offset);


     tensorHandleFactoryRegistry.RegisterMemoryManager(memoryManager);


     auto factory = std::make_unique<NeonTensorHandleFactory>(memoryManager);

     // Register copy and import factory pair

     tensorHandleFactoryRegistry.RegisterCopyAndImportFactoryPair(factory->GetId(), factory->GetId());

     // Register the factory

     tensorHandleFactoryRegistry.RegisterFactory(std::move(factory));


     return std::make_unique<NeonWorkloadFactory>(

         PolymorphicPointerDowncast<NeonMemoryManager>(memoryManager));

 }


 IBackendInternal::IWorkloadFactoryPtr NeonBackend::CreateWorkloadFactory(

     TensorHandleFactoryRegistry& tensorHandleFactoryRegistry, const ModelOptions& modelOptions) const

 {

     auto memoryManager = std::make_shared<NeonMemoryManager>(std::make_unique<arm_compute::Allocator>(),

                                                              BaseMemoryManager::MemoryAffinity::Offset);


     tensorHandleFactoryRegistry.RegisterMemoryManager(memoryManager);


     auto factory = std::make_unique<NeonTensorHandleFactory>(memoryManager);

     // Register copy and import factory pair

     tensorHandleFactoryRegistry.RegisterCopyAndImportFactoryPair(factory->GetId(), factory->GetId());

     // Register the factory

     tensorHandleFactoryRegistry.RegisterFactory(std::move(factory));


     return std::make_unique<NeonWorkloadFactory>(

         PolymorphicPointerDowncast<NeonMemoryManager>(memoryManager), CreateBackendSpecificModelContext(modelOptions));

 }


 IBackendInternal::IBackendContextPtr NeonBackend::CreateBackendContext(const IRuntime::CreationOptions&) const

 {

     return IBackendContextPtr{};

 }


 IBackendInternal::IBackendProfilingContextPtr NeonBackend::CreateBackendProfilingContext(

     const IRuntime::CreationOptions&, IBackendProfilingPtr&)

 {

     return IBackendProfilingContextPtr{};

 }


 IBackendInternal::IBackendSpecificModelContextPtr NeonBackend::CreateBackendSpecificModelContext(

     const ModelOptions& modelOptions) const

 {

     return IBackendSpecificModelContextPtr{new NeonBackendModelContext{modelOptions}};

 }


 IBackendInternal::ILayerSupportSharedPtr NeonBackend::GetLayerSupport() const

 {

     static ILayerSupportSharedPtr layerSupport

         {

             new NeonLayerSupport(IBackendInternal::IBackendSpecificModelContextPtr{})

         };

     return layerSupport;

 }


 IBackendInternal::ILayerSupportSharedPtr NeonBackend::GetLayerSupport(const ModelOptions& modelOptions) const

 {

     static ILayerSupportSharedPtr layerSupport

         {

             new NeonLayerSupport(CreateBackendSpecificModelContext(modelOptions))

         };

     return layerSupport;

 }


 OptimizationViews NeonBackend::OptimizeSubgraphView(const SubgraphView& subgraph,

                                                     const ModelOptions& modelOptions) const

 {

     OptimizationViews optimizationViews(modelOptions);


     auto it = subgraph.end();

     std::map<LayerGuid, Layer*> untouched;


     while (it != subgraph.begin())

     {

         --it;

         Layer& base = *(PolymorphicDowncast<Layer*>(*it));

         untouched.insert({base.GetGuid(), &base});

     }


     it = subgraph.end();

     while (it != subgraph.begin())

     {

         --it;

         Layer& base = *(PolymorphicDowncast<Layer*>(*it));


         // Fuse activation into previous layer if supported by backend

         if ((base.GetType() == LayerType::DepthwiseConvolution2d || base.GetType() == LayerType::Convolution2d

              || base.GetType() == LayerType::BatchNormalization || base.GetType() == LayerType::FullyConnected

              || base.GetType() == LayerType::Addition || base.GetType() == LayerType::Multiplication

              || base.GetType() == LayerType::Subtraction || base.GetType() == LayerType::Division

              || base.GetType() == LayerType::ElementwiseBinary)

             && (base.GetAdditionalInformation<ActivationDescriptor>() == nullptr))

         {

             for (auto output = base.BeginOutputSlots(); output != base.EndOutputSlots(); ++output)

             {

                 if (output->GetNumConnections() == 1)

                 {

                     for (auto&& childInput : output->GetConnections())

                     {

                         if ((childInput->GetOwningLayer().GetType() == LayerType::Activation) &&

                             (checkDataTypeInputandOutput(childInput->GetOwningLayer())))

                         {

                             Layer& child = childInput->GetOwningLayer();


                             auto* activationLayer = PolymorphicDowncast<ActivationLayer*>(&child);

                             // Before we proceed make sure that this activation layer is in the subgraph. It could be

                             // the first layer in the next subgraph.

                             if (untouched.find(activationLayer->GetGuid()) == untouched.end())

                             {

                                 // We can't fuse a layer that's outside the subgraph.

                                 break;

                             }

                             const std::string name = std::string("fused-") + child.GetName() + std::string("-into-") +

                                                      base.GetName();


                             // Get params from activation layer

                             ActivationDescriptor activationDesc = activationLayer->GetParameters();


                             if (base.GetType() == LayerType::Convolution2d)

                             {

                                 Convolution2dLayer* baseLayer = PolymorphicDowncast<Convolution2dLayer*>(&base);


                                 Optional<TensorInfo> biases;


                                 if (baseLayer->GetParameters().m_BiasEnabled)

                                 {

                                     biases = baseLayer->GetInputSlot(2).GetConnectedOutputSlot()->GetTensorInfo();

                                 }


                                 arm_compute::Status status = NeonConvolution2dWorkloadValidate(

                                         baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         baseLayer->GetParameters(),

                                         baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                         biases,

                                         false,

                                         &activationDesc);


                                 if (status)

                                 {

                                     FuseConvolution2dLayer<Convolution2dLayer>(optimizationViews,

                                                                                baseLayer,

                                                                                activationLayer,

                                                                                activationDesc,

                                                                                name);

                                     untouched.erase(baseLayer->GetGuid());

                                     untouched.erase(activationLayer->GetGuid());

                                 }

                             }

                             else if (base.GetType() == LayerType::DepthwiseConvolution2d)

                             {

                                 DepthwiseConvolution2dLayer* baseLayer =

                                         PolymorphicDowncast<DepthwiseConvolution2dLayer*>(&base);


                                 Optional<TensorInfo> biases;


                                 if (baseLayer->GetParameters().m_BiasEnabled)

                                 {

                                     biases = baseLayer->GetInputSlot(2).GetConnectedOutputSlot()->GetTensorInfo();

                                 }


                                 arm_compute::Status status = NeonDepthwiseConvolutionWorkloadValidate(

                                         baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         baseLayer->GetParameters(),

                                         baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                         biases,

                                         &activationDesc);


                                 if (status)

                                 {

                                     FuseDepthwiseConvolution2dLayer<DepthwiseConvolution2dLayer>(optimizationViews,

                                                                                                  baseLayer,

                                                                                                  activationLayer,

                                                                                                  activationDesc,

                                                                                                  name);

                                     untouched.erase(baseLayer->GetGuid());

                                     untouched.erase(activationLayer->GetGuid());

                                 }

                             }

                             else if (base.GetType() == LayerType::FullyConnected)

                             {

                                 FullyConnectedLayer* baseLayer = PolymorphicDowncast<FullyConnectedLayer*>(&base);

                                 FullyConnectedDescriptor descriptor = baseLayer->GetParameters();


                                 // As bias is optional only try to get TensorInfo from input if bias is enabled.

                                 Optional<TensorInfo> biases;

                                 if (descriptor.m_BiasEnabled)

                                 {

                                     biases = baseLayer->GetInputSlot(2).GetConnectedOutputSlot()->GetTensorInfo();

                                 }


                                 arm_compute::Status status = NeonFullyConnectedWorkloadValidate(

                                         baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                         biases,

                                         baseLayer->GetParameters(),

                                         &activationDesc);


                                 if (status)

                                 {

                                     FuseFullyConnectedLayer<FullyConnectedLayer>(optimizationViews,

                                                                                  baseLayer,

                                                                                  activationLayer,

                                                                                  activationDesc,

                                                                                  name);

                                     untouched.erase(baseLayer->GetGuid());

                                     untouched.erase(activationLayer->GetGuid());

                                 }

                             }

                             else if (base.GetType() == LayerType::BatchNormalization)

                             {

                                 BatchNormalizationLayer* baseLayer =

                                         PolymorphicDowncast<BatchNormalizationLayer*>(&base);


                                 arm_compute::Status status = NeonBatchNormalizationValidate(

                                         baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         baseLayer->m_Mean->GetTensorInfo(),

                                         baseLayer->m_Variance->GetTensorInfo(),

                                         baseLayer->m_Beta->GetTensorInfo(),

                                         baseLayer->m_Gamma->GetTensorInfo(),

                                         baseLayer->GetParameters(),

                                         &activationDesc);


                                 if (status)

                                 {

                                     BatchNormalizationLayer* replacementLayer =

                                         FuseBatchNormalizationLayer<BatchNormalizationLayer>(optimizationViews,

                                                                                              baseLayer,

                                                                                              activationLayer,

                                                                                              activationDesc,

                                                                                              name);


                                     replacementLayer->m_Beta     = std::move(baseLayer->m_Beta);

                                     replacementLayer->m_Gamma    = std::move(baseLayer->m_Gamma);

                                     replacementLayer->m_Mean     = std::move(baseLayer->m_Mean);

                                     replacementLayer->m_Variance = std::move(baseLayer->m_Variance);

                                     untouched.erase(baseLayer->GetGuid());

                                     untouched.erase(activationLayer->GetGuid());

                                 }

                             }

                             else if (base.GetType() == LayerType::Addition)

                             {

                                 AdditionLayer* baseLayer = PolymorphicDowncast<AdditionLayer*>(&base);


                                 arm_compute::Status status = NeonAdditionWorkloadValidate(

                                         baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                         activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         &activationDesc);


                                 if (status)

                                 {

                                     FuseAdditionLayer<AdditionLayer>(optimizationViews,

                                                                      baseLayer,

                                                                      activationLayer,

                                                                      activationDesc,

                                                                      name);

                                     untouched.erase(baseLayer->GetGuid());

                                     untouched.erase(activationLayer->GetGuid());

                                 }

                             }

                             else if (base.GetType() == LayerType::Division)

                             {

                                 DivisionLayer* baseLayer = PolymorphicDowncast<DivisionLayer*>(&base);


                                 arm_compute::Status status = NeonDivisionWorkloadValidate(

                                         baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                         activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         &activationDesc);


                                 if (status)

                                 {

                                     FuseDivisionLayer<DivisionLayer>(optimizationViews,

                                                                      baseLayer,

                                                                      activationLayer,

                                                                      activationDesc,

                                                                      name);

                                     untouched.erase(baseLayer->GetGuid());

                                     untouched.erase(activationLayer->GetGuid());

                                 }

                             }

                             else if (base.GetType() == LayerType::Multiplication)

                             {

                                 MultiplicationLayer* baseLayer = PolymorphicDowncast<MultiplicationLayer*>(&base);


                                 arm_compute::Status status = NeonMultiplicationWorkloadValidate(

                                         baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                         activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         &activationDesc);


                                 if (status)

                                 {

                                     FuseMultiplicationLayer<MultiplicationLayer>(optimizationViews,

                                                                                  baseLayer,

                                                                                  activationLayer,

                                                                                  activationDesc,

                                                                                  name);

                                     untouched.erase(baseLayer->GetGuid());

                                     untouched.erase(activationLayer->GetGuid());

                                 }

                             }

                             else if (base.GetType() == LayerType::Subtraction)

                             {

                                 SubtractionLayer* baseLayer = PolymorphicDowncast<SubtractionLayer*>(&base);


                                 arm_compute::Status status = NeonSubtractionWorkloadValidate(

                                         baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                         activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                         &activationDesc);


                                 if (status)

                                 {

                                     FuseSubtractionLayer<SubtractionLayer>(optimizationViews,

                                                                            baseLayer,

                                                                            activationLayer,

                                                                            activationDesc,

                                                                            name);

                                     untouched.erase(baseLayer->GetGuid());

                                     untouched.erase(activationLayer->GetGuid());

                                 }

                             }

                             else if (base.GetType() == LayerType::ElementwiseBinary)

                             {

                                 ElementwiseBinaryLayer* baseLayer = PolymorphicDowncast<ElementwiseBinaryLayer*>(&base);


                                 if (baseLayer->GetParameters().m_Operation == BinaryOperation::Add)

                                 {

                                     arm_compute::Status status = NeonAdditionWorkloadValidate(

                                             baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                             baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                             activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                             &activationDesc);


                                     if (status)

                                     {

                                         FuseElementwiseBinaryLayer<ElementwiseBinaryLayer>(optimizationViews,

                                                                                            baseLayer,

                                                                                            activationLayer,

                                                                                            activationDesc,

                                                                                            BinaryOperation::Add,

                                                                                            name);

                                         untouched.erase(baseLayer->GetGuid());

                                         untouched.erase(activationLayer->GetGuid());

                                     }

                                 }

                                 else if (baseLayer->GetParameters().m_Operation == BinaryOperation::Div)

                                 {

                                     arm_compute::Status status = NeonDivisionWorkloadValidate(

                                             baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                             baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                             activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                             &activationDesc);


                                     if (status)

                                     {

                                         FuseElementwiseBinaryLayer<ElementwiseBinaryLayer>(optimizationViews,

                                                                                            baseLayer,

                                                                                            activationLayer,

                                                                                            activationDesc,

                                                                                            BinaryOperation::Div,

                                                                                            name);

                                         untouched.erase(baseLayer->GetGuid());

                                         untouched.erase(activationLayer->GetGuid());

                                     }

                                 }

                                 else if (baseLayer->GetParameters().m_Operation == BinaryOperation::Mul)

                                 {

                                     arm_compute::Status status = NeonMultiplicationWorkloadValidate(

                                             baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                             baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                             activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                             &activationDesc);


                                     if (status)

                                     {

                                         FuseElementwiseBinaryLayer<ElementwiseBinaryLayer>(optimizationViews,

                                                                                            baseLayer,

                                                                                            activationLayer,

                                                                                            activationDesc,

                                                                                            BinaryOperation::Mul,

                                                                                            name);

                                         untouched.erase(baseLayer->GetGuid());

                                         untouched.erase(activationLayer->GetGuid());

                                     }

                                 }

                                 else if (baseLayer->GetParameters().m_Operation == BinaryOperation::Sub)

                                 {

                                     arm_compute::Status status = NeonSubtractionWorkloadValidate(

                                             baseLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                             baseLayer->GetInputSlot(1).GetConnectedOutputSlot()->GetTensorInfo(),

                                             activationLayer->GetInputSlot(0).GetConnectedOutputSlot()->GetTensorInfo(),

                                             &activationDesc);


                                     if (status)

                                     {

                                         FuseElementwiseBinaryLayer<ElementwiseBinaryLayer>(optimizationViews,

                                                                                            baseLayer,

                                                                                            activationLayer,

                                                                                            activationDesc,

                                                                                            BinaryOperation::Sub,

                                                                                            name);

                                         untouched.erase(baseLayer->GetGuid());

                                         untouched.erase(activationLayer->GetGuid());

                                     }

                                 }

                                 // No fusion available for other BinaryOperations

                             }

                         }

                     }

                 }

             }

         }


         // Separate reduce layer with multiple axes into multiple reduce layers with 1 axis.

         if (base.GetType() == LayerType::Reduce)

         {

             ReduceLayer* baseLayer            = PolymorphicDowncast<ReduceLayer*>(&base);

             ReduceDescriptor reduceDescriptor = baseLayer->GetParameters();


             if (!reduceDescriptor.m_vAxis.empty() && reduceDescriptor.m_vAxis.size() > 1)

             {

                 // Add new layers to the graph and connect them.

                 std::vector<IConnectableLayer*> layers = ChainReduceLayers<ReduceLayer>(optimizationViews,

                                                                                         baseLayer,

                                                                                         reduceDescriptor);


                 // Replace existing baselayer with new subgraph.

                 ReplaceLayers<ReduceLayer>(optimizationViews, baseLayer, layers);

                 untouched.erase(baseLayer->GetGuid());

             }

         }


         // Remove Reshape where possible

         if (base.GetType() == LayerType::Reshape)

         {

             ReshapeLayer* baseLayer = PolymorphicDowncast<ReshapeLayer*>(&base);


             // Cannot remove a Reshape if it's connected to any layer that has an NCHW layout

             if (ConnectedToLayerWithNCHW(baseLayer))

             {

                 continue;

             }

             RemoveReshapeLayer(baseLayer, untouched, optimizationViews);

         }


         // Replace Add/Mul/Add where possible

         Layer* layerList[4] = {nullptr, nullptr, nullptr, nullptr};

         const std::vector<ActivationFunction> validActivates = { ActivationFunction::ReLu,

                                                                  ActivationFunction::BoundedReLu };

         if (IsLayerSequence<BinaryOperation>(base,

                                              BinaryOperation::Add, BinaryOperation::Mul, BinaryOperation::Add,

                                              layerList,

                                              true,  // handleValidActivates

                                              validActivates))

         {

             bool fuseReLu = false;

             unsigned int numInputs = 0;

             unsigned int numOutputs = 0;

             std::vector<TensorInfo> inputInfos;

             std::vector<TensorInfo> outputInfos;

             const ActivationDescriptor* activationDescriptor = nullptr;


             if (BuildAddMulAddTensorInfoLists<Layer>(layerList,

                                                      numInputs,

                                                      numOutputs,

                                                      inputInfos,

                                                      outputInfos,

                                                      activationDescriptor,

                                                      fuseReLu))

             {

                 // Create the new Add/Mul/Add layer and set the Relu activation function

                 FusedDescriptor fusedDescriptor(numInputs, numOutputs, FusedKernelType::AddMulAdd);

                 arm_compute::Status status = NeonFusedWorkloadValidate({inputInfos.begin(), inputInfos.end()},

                                                                        {outputInfos.begin(), outputInfos.end()},

                                                                        fusedDescriptor,

                                                                        activationDescriptor);

                 if (status)

                 {

                     std::string fusedName;

                     GetFusedName(layerList, fusedName);


                     IConnectableLayer* addMulAddLayer =

                             optimizationViews.GetINetwork()->AddFusedLayer(fusedDescriptor, fusedName.c_str());


                     if (fuseReLu)

                     {

                         FusedLayer* addMulAddFusedLayer = PolymorphicDowncast<FusedLayer*>(addMulAddLayer);

                         addMulAddFusedLayer->SetAdditionalInfoForObject(

                                 std::make_shared<ActivationDescriptor>(*activationDescriptor));

                     }


                     // Update the graph

                     std::vector<IConnectableLayer*> originalLayers;

                     for (unsigned int layerIdx = 0; layerIdx < 4; ++layerIdx)

                     {

                         if (layerList[layerIdx])

                         {

                             originalLayers.push_back(layerList[layerIdx]);

                         }

                     }


                     std::vector<SlotList> inputLayersSlotLists, outputLayersSlotLists;

                     BuildAddMulAddSlotLists<SlotList>(fuseReLu,

                                                       outputInfos.size() > 1,

                                                       inputLayersSlotLists,

                                                       outputLayersSlotLists);


                     ReplaceMultipleLayers<FusedLayer>(optimizationViews,

                                                       originalLayers,

                                                       PolymorphicDowncast<FusedLayer*>(addMulAddLayer),

                                                       inputLayersSlotLists,

                                                       outputLayersSlotLists);


                     // Remove unused layers

                     for (unsigned int layerIdx = 0; layerIdx < 4; ++layerIdx)

                     {

                         if (layerList[layerIdx])

                         {

                             untouched.erase(layerList[layerIdx]->GetGuid());

                         }

                     }

                 }

             }

         }

     }


     if (optimizationViews.GetSubstitutions().empty() && optimizationViews.GetDeletedSubgraphs().empty())

     {

         optimizationViews.AddUntouchedSubgraph(SubgraphView(subgraph));

     }

     else

     {

         ReportUntouchedLayers(optimizationViews, untouched);

     }


     return optimizationViews;

 }


 std::vector<ITensorHandleFactory::FactoryId> NeonBackend::GetHandleFactoryPreferences() const

 {

     return std::vector<ITensorHandleFactory::FactoryId>() = { NeonTensorHandleFactory::GetIdStatic() };

 }


 void NeonBackend::RegisterTensorHandleFactories(class TensorHandleFactoryRegistry& registry)

 {

     auto memoryManager = std::make_shared<NeonMemoryManager>(std::make_unique<arm_compute::Allocator>(),

                                                              BaseMemoryManager::MemoryAffinity::Offset);


     registry.RegisterMemoryManager(memoryManager);


     auto factory = std::make_unique<NeonTensorHandleFactory>(memoryManager);

     // Register copy and import factory pair

     registry.RegisterCopyAndImportFactoryPair(factory->GetId(), factory->GetId());

     // Register the factory

     registry.RegisterFactory(std::move(factory));

 }


 std::unique_ptr<ICustomAllocator> NeonBackend::GetDefaultAllocator() const

 {

     return std::make_unique<DefaultAllocator>();

 }


 } // namespace armnn

ArmComputeSubgraphUtils.hpp

ArmComputeUtils.hpp

BackendRegistry.hpp

BaseMemoryManager.hpp

DefaultAllocator.hpp

Descriptors.hpp

IBackendContext.hpp

IMemoryManager.hpp

NeonAdditionWorkload.hpp

NeonBackend.hpp

NeonBackendId.hpp

NeonBackendModelContext.hpp

NeonBackendOptimizationUtils.hpp

NeonBatchNormalizationWorkload.hpp

NeonConvolution2dWorkload.hpp

NeonDepthwiseConvolutionWorkload.hpp

NeonDivisionWorkload.hpp

NeonFullyConnectedWorkload.hpp

NeonFusedWorkload.hpp

NeonLayerSupport.hpp

NeonMultiplicationWorkload.hpp

NeonReduceWorkload.hpp

NeonSubtractionWorkload.hpp

NeonTensorHandleFactory.hpp

NeonWorkloadFactory.hpp

Optimizer.hpp

PolymorphicDowncast.hpp

armnn::AdditionLayer
This layer represents an addition operation.
Definition: AdditionLayer.hpp:14

armnn::BackendId
Definition: BackendId.hpp:76

armnn::BaseMemoryManager::MemoryAffinity::Offset
@ Offset

armnn::BatchNormalizationLayer
This layer represents a batch normalization operation.
Definition: BatchNormalizationLayer.hpp:16

armnn::BatchNormalizationLayer::m_Mean
std::shared_ptr< ConstTensorHandle > m_Mean
A unique pointer to store Mean values.
Definition: BatchNormalizationLayer.hpp:19

armnn::BatchNormalizationLayer::m_Gamma
std::shared_ptr< ConstTensorHandle > m_Gamma
A unique pointer to store Gamma values.
Definition: BatchNormalizationLayer.hpp:25

armnn::BatchNormalizationLayer::m_Beta
std::shared_ptr< ConstTensorHandle > m_Beta
A unique pointer to store Beta values.
Definition: BatchNormalizationLayer.hpp:23

armnn::BatchNormalizationLayer::m_Variance
std::shared_ptr< ConstTensorHandle > m_Variance
A unique pointer to store Variance values.
Definition: BatchNormalizationLayer.hpp:21

armnn::Convolution2dLayer
This layer represents a convolution 2d operation.
Definition: Convolution2dLayer.hpp:16

armnn::DepthwiseConvolution2dLayer
This layer represents a depthwise convolution 2d operation.
Definition: DepthwiseConvolution2dLayer.hpp:16

armnn::DivisionLayer
This layer represents a division operation.
Definition: DivisionLayer.hpp:15

armnn::ElementwiseBinaryLayer
This layer represents a elementwiseBinary operation.
Definition: ElementwiseBinaryLayer.hpp:15

armnn::FullyConnectedLayer
This layer represents a fully connected operation.
Definition: FullyConnectedLayer.hpp:16

armnn::FusedLayer
Definition: FusedLayer.hpp:20

armnn::IBackendInternal::ILayerSupportSharedPtr
std::shared_ptr< ILayerSupport > ILayerSupportSharedPtr
Definition: IBackendInternal.hpp:92

armnn::IBackendInternal::IMemoryManagerUniquePtr
std::unique_ptr< IMemoryManager > IMemoryManagerUniquePtr
Definition: IBackendInternal.hpp:96

armnn::IBackendInternal::IBackendProfilingPtr
std::unique_ptr< arm::pipe::IBackendProfiling > IBackendProfilingPtr
Definition: IBackendInternal.hpp:91

armnn::IBackendInternal::IBackendSpecificModelContextPtr
std::shared_ptr< IBackendModelContext > IBackendSpecificModelContextPtr
Definition: IBackendInternal.hpp:94

armnn::IBackendInternal::IMemoryManagerSharedPtr
std::shared_ptr< IMemoryManager > IMemoryManagerSharedPtr
Definition: IBackendInternal.hpp:97

armnn::IBackendInternal::IWorkloadFactoryPtr
std::unique_ptr< IWorkloadFactory > IWorkloadFactoryPtr
Definition: IBackendInternal.hpp:87

armnn::IBackendInternal::IBackendContextPtr
std::unique_ptr< IBackendContext > IBackendContextPtr
Definition: IBackendInternal.hpp:88

armnn::IBackendInternal::IBackendProfilingContextPtr
std::shared_ptr< arm::pipe::IBackendProfilingContext > IBackendProfilingContextPtr
This is the bridge between backend and backend profiling we'll keep it in the backend namespace.
Definition: IBackendInternal.hpp:90

armnn::IConnectableLayer
Interface for a layer that is connectable to other layers via InputSlots and OutputSlots.
Definition: INetwork.hpp:81

armnn::INetwork::AddFusedLayer
IConnectableLayer * AddFusedLayer(const FusedDescriptor &fusedDescriptor, const char *name=nullptr)
Adds a Fused layer to the network.
Definition: Network.cpp:338

armnn::InputSlot::GetConnectedOutputSlot
const OutputSlot * GetConnectedOutputSlot() const
Definition: Layer.hpp:56

armnn::Layer
Definition: Layer.hpp:231

armnn::Layer::EndOutputSlots
std::vector< OutputSlot >::iterator EndOutputSlots()
Definition: Layer.hpp:267

armnn::Layer::GetName
const char * GetName() const override
Returns the name of the layer.
Definition: Layer.hpp:332

armnn::Layer::BeginOutputSlots
std::vector< OutputSlot >::iterator BeginOutputSlots()
Definition: Layer.hpp:266

armnn::Layer::GetGuid
LayerGuid GetGuid() const final
Returns the unique id of the layer.
Definition: Layer.hpp:343

armnn::Layer::GetInputSlot
const InputSlot & GetInputSlot(unsigned int index) const override
Get a const input slot handle by slot index.
Definition: Layer.hpp:337

armnn::Layer::GetType
LayerType GetType() const override
Returns the armnn::LayerType of this layer.
Definition: Layer.hpp:286

armnn::Layer::SetAdditionalInfoForObject
void SetAdditionalInfoForObject(const AdditionalInfoObjectPtr &additionalInfo)
Definition: Layer.hpp:373

armnn::Layer::GetAdditionalInformation
std::shared_ptr< T > GetAdditionalInformation() const
Definition: Layer.hpp:368

armnn::LayerWithParameters::GetParameters
const Parameters & GetParameters() const override
If the layer has a descriptor return it.
Definition: LayerWithParameters.hpp:19

armnn::MultiplicationLayer
This layer represents a multiplication operation.
Definition: MultiplicationLayer.hpp:15

armnn::NeonBackend::GetIdStatic
static const BackendId & GetIdStatic()
Definition: NeonBackend.cpp:46

armnn::NeonBackend::CreateBackendSpecificModelContext
IBackendInternal::IBackendSpecificModelContextPtr CreateBackendSpecificModelContext(const ModelOptions &modelOptions) const override
Definition: NeonBackend.cpp:120

armnn::NeonBackend::OptimizeSubgraphView
OptimizationViews OptimizeSubgraphView(const SubgraphView &subgraph, const ModelOptions &modelOptions) const override
Definition: NeonBackend.cpp:144

armnn::NeonBackend::RegisterTensorHandleFactories
void RegisterTensorHandleFactories(class TensorHandleFactoryRegistry &registry) override
(Optional) Register TensorHandleFactories Either this method or CreateMemoryManager() and IWorkloadFa...
Definition: NeonBackend.cpp:629

armnn::NeonBackend::GetHandleFactoryPreferences
std::vector< ITensorHandleFactory::FactoryId > GetHandleFactoryPreferences() const override
(Optional) Returns a vector of supported TensorHandleFactory ids in preference order.
Definition: NeonBackend.cpp:624

armnn::NeonBackend::CreateBackendProfilingContext
IBackendInternal::IBackendProfilingContextPtr CreateBackendProfilingContext(const IRuntime::CreationOptions &, IBackendProfilingPtr &backendProfiling) override
Create context specifically used for profiling interaction from backends.
Definition: NeonBackend.cpp:114

armnn::NeonBackend::CreateBackendContext
IBackendInternal::IBackendContextPtr CreateBackendContext(const IRuntime::CreationOptions &) const override
Create the runtime context of the backend.
Definition: NeonBackend.cpp:109

armnn::NeonBackend::CreateWorkloadFactory
IWorkloadFactoryPtr CreateWorkloadFactory(const IBackendInternal::IMemoryManagerSharedPtr &memoryManager=nullptr) const override
Definition: NeonBackend.cpp:58

armnn::NeonBackend::GetLayerSupport
IBackendInternal::ILayerSupportSharedPtr GetLayerSupport() const override
Definition: NeonBackend.cpp:126

armnn::NeonBackend::CreateMemoryManager
IBackendInternal::IMemoryManagerUniquePtr CreateMemoryManager() const override
Definition: NeonBackend.cpp:52

armnn::NeonBackend::GetDefaultAllocator
std::unique_ptr< ICustomAllocator > GetDefaultAllocator() const override
Returns the default memory allocator for the backend.
Definition: NeonBackend.cpp:643

armnn::NeonBackendModelContext
The NeonBackendModelContext is used to pass in Neon specific backend ModelOptions.
Definition: NeonBackendModelContext.hpp:20

armnn::NeonLayerSupport
Definition: NeonLayerSupport.hpp:15

armnn::NeonTensorHandleFactory::GetIdStatic
static const FactoryId & GetIdStatic()
Definition: NeonTensorHandleFactory.cpp:89

armnn::OptimizationViews
Definition: OptimizationViews.hpp:18

armnn::OptimizationViews::AddUntouchedSubgraph
void AddUntouchedSubgraph(SubgraphView &&subgraph)
Definition: OptimizationViews.hpp:48

armnn::OptimizationViews::GetSubstitutions
const Substitutions & GetSubstitutions() const
Definition: OptimizationViews.hpp:58

armnn::OptimizationViews::GetDeletedSubgraphs
const Subgraphs & GetDeletedSubgraphs() const
Definition: OptimizationViews.hpp:61

armnn::OptimizationViews::GetINetwork
INetwork * GetINetwork()
Definition: OptimizationViews.hpp:69

armnn::Optional
Definition: Optional.hpp:271

armnn::OutputSlot::GetTensorInfo
const TensorInfo & GetTensorInfo() const override
Definition: Layer.cpp:100

armnn::ReduceLayer
This layer represents a reduction operation.
Definition: ReduceLayer.hpp:15

armnn::ReshapeLayer
This layer represents a reshape operation.
Definition: ReshapeLayer.hpp:16

armnn::SubgraphView
The SubgraphView class represents a subgraph of a Graph.
Definition: SubgraphView.hpp:32

armnn::SubgraphView::begin
IConnectableLayerIterator begin()
Definition: SubgraphView.cpp:286

armnn::SubgraphView::end
IConnectableLayerIterator end()
Definition: SubgraphView.cpp:291

armnn::SubtractionLayer
This layer represents a subtraction operation.
Definition: SubtractionLayer.hpp:15

armnn::TensorHandleFactoryRegistry
Definition: TensorHandleFactoryRegistry.hpp:24

armnn::TensorHandleFactoryRegistry::RegisterFactory
void RegisterFactory(std::unique_ptr< ITensorHandleFactory > allocator)
Register a TensorHandleFactory and transfer ownership.
Definition: TensorHandleFactoryRegistry.cpp:12

armnn::TensorHandleFactoryRegistry::RegisterMemoryManager
void RegisterMemoryManager(std::shared_ptr< IMemoryManager > memoryManger)
Register a memory manager with shared ownership.
Definition: TensorHandleFactoryRegistry.cpp:34

armnn::TensorHandleFactoryRegistry::RegisterCopyAndImportFactoryPair
void RegisterCopyAndImportFactoryPair(ITensorHandleFactory::FactoryId copyFactoryId, ITensorHandleFactory::FactoryId importFactoryId)
Register a pair of TensorHandleFactory Id for Memory Copy and TensorHandleFactory Id for Memory Impor...
Definition: TensorHandleFactoryRegistry.cpp:66

armnn
Copyright (c) 2021 ARM Limited and Contributors.
Definition: 01_00_quick_start.dox:7

armnn::GetFusedName
void GetFusedName(Layer *layerList[4], std::string &fusedName)
Definition: NeonBackendOptimizationUtils.hpp:71

armnn::NeonAdditionWorkloadValidate
arm_compute::Status NeonAdditionWorkloadValidate(const TensorInfo &input0, const TensorInfo &input1, const TensorInfo &output, const ActivationDescriptor *activationDescriptor)
Definition: NeonAdditionWorkload.cpp:20

armnn::NeonBackendId
constexpr const char * NeonBackendId()
Definition: NeonBackendId.hpp:10

armnn::NeonConvolution2dWorkloadValidate
arm_compute::Status NeonConvolution2dWorkloadValidate(const TensorInfo &input, const TensorInfo &output, const Convolution2dDescriptor &descriptor, const TensorInfo &weights, const Optional< TensorInfo > &biases, bool isFastMathEnabled, const ActivationDescriptor *activationDescriptor)
Definition: NeonConvolution2dWorkload.cpp:24

armnn::FusedKernelType::AddMulAdd
@ AddMulAdd

armnn::ActivationFunction::ReLu
@ ReLu

armnn::ActivationFunction::BoundedReLu
@ BoundedReLu
min(a, max(b, input)) ReLu1 & ReLu6.

armnn::LayerType::Multiplication
@ Multiplication

armnn::LayerType::Division
@ Division

armnn::LayerType::ElementwiseBinary
@ ElementwiseBinary

armnn::LayerType::Subtraction
@ Subtraction

armnn::LayerType::Addition
@ Addition

armnn::LayerType::Reshape
@ Reshape

armnn::LayerType::Activation
@ Activation

armnn::LayerType::FullyConnected
@ FullyConnected

armnn::LayerType::Convolution2d
@ Convolution2d

armnn::LayerType::BatchNormalization
@ BatchNormalization

armnn::LayerType::Reduce
@ Reduce

armnn::LayerType::DepthwiseConvolution2d
@ DepthwiseConvolution2d

armnn::ReportUntouchedLayers
void ReportUntouchedLayers(OptimizationViews &optimizationViews, std::map< LayerGuid, Layer * > untouched)
Definition: SubgraphUtils.hpp:220

armnn::ModelOptions
std::vector< BackendOptions > ModelOptions
Definition: BackendOptions.hpp:18

armnn::NeonDepthwiseConvolutionWorkloadValidate
arm_compute::Status NeonDepthwiseConvolutionWorkloadValidate(const TensorInfo &input, const TensorInfo &output, const DepthwiseConvolution2dDescriptor &descriptor, const TensorInfo &weights, const Optional< TensorInfo > &biases, const ActivationDescriptor *activationDescriptor)
Definition: NeonDepthwiseConvolutionWorkload.cpp:29

armnn::NeonDivisionWorkloadValidate
arm_compute::Status NeonDivisionWorkloadValidate(const TensorInfo &input0, const TensorInfo &input1, const TensorInfo &output, const ActivationDescriptor *activationDescriptor)
Definition: NeonDivisionWorkload.cpp:18

armnn::Status
Status
enumeration
Definition: Types.hpp:43

armnn::NeonSubtractionWorkloadValidate
arm_compute::Status NeonSubtractionWorkloadValidate(const TensorInfo &input0, const TensorInfo &input1, const TensorInfo &output, const ActivationDescriptor *activationDescriptor)
Definition: NeonSubtractionWorkload.cpp:22

armnn::NeonFusedWorkloadValidate
arm_compute::Status NeonFusedWorkloadValidate(const std::vector< std::reference_wrapper< TensorInfo >> &inputInfos, const std::vector< std::reference_wrapper< TensorInfo >> &outputInfos, const FusedDescriptor &fusedDescriptor, const ActivationDescriptor *activationDescriptor)
Definition: NeonFusedWorkload.cpp:22

armnn::NeonBatchNormalizationValidate
arm_compute::Status NeonBatchNormalizationValidate(const TensorInfo &input, const TensorInfo &output, const TensorInfo &mean, const TensorInfo &var, const TensorInfo &beta, const TensorInfo &gamma, const BatchNormalizationDescriptor &descriptor, const ActivationDescriptor *activationDescriptor)
Definition: NeonBatchNormalizationWorkload.cpp:24

armnn::BinaryOperation::Div
@ Div

armnn::BinaryOperation::Mul
@ Mul

armnn::BinaryOperation::Sub
@ Sub

armnn::BinaryOperation::Add
@ Add

armnn::ConnectedToLayerWithNCHW
bool ConnectedToLayerWithNCHW(Layer *baseLayer)
Checks if the Layer is connected to any Layer that has an NCHW layout.
Definition: SubgraphUtils.hpp:250

armnn::NeonMultiplicationWorkloadValidate
arm_compute::Status NeonMultiplicationWorkloadValidate(const TensorInfo &input0, const TensorInfo &input1, const TensorInfo &output, const ActivationDescriptor *activationDescriptor)
Definition: NeonMultiplicationWorkload.cpp:19

armnn::NeonFullyConnectedWorkloadValidate
arm_compute::Status NeonFullyConnectedWorkloadValidate(const TensorInfo &input, const TensorInfo &output, const TensorInfo &weights, const Optional< TensorInfo > &biases, const FullyConnectedDescriptor &descriptor, const ActivationDescriptor *activationDescriptor)
Definition: NeonFullyConnectedWorkload.cpp:24

armnn::RemoveReshapeLayer
void RemoveReshapeLayer(ReshapeLayer *baseLayer, std::map< LayerGuid, Layer * > &untouched, OptimizationViews &optimizationViews)
Definition: SubgraphUtils.hpp:293

armnn::ActivationDescriptor
An ActivationDescriptor for the ActivationLayer.
Definition: Descriptors.hpp:37

armnn::Convolution2dDescriptor::m_BiasEnabled
bool m_BiasEnabled
Enable/disable bias.
Definition: Descriptors.hpp:582

armnn::DepthwiseConvolution2dDescriptor::m_BiasEnabled
bool m_BiasEnabled
Enable/disable bias.
Definition: Descriptors.hpp:708

armnn::ElementwiseBinaryDescriptor::m_Operation
BinaryOperation m_Operation
Specifies the elementwiseBinary operation to execute.
Definition: Descriptors.hpp:125

armnn::FullyConnectedDescriptor
A FullyConnectedDescriptor for the FullyConnectedLayer.
Definition: Descriptors.hpp:508

armnn::FullyConnectedDescriptor::m_BiasEnabled
bool m_BiasEnabled
Enable/disable bias.
Definition: Descriptors.hpp:526

armnn::FusedDescriptor
A FusedDescriptor for the FusedLayer.
Definition: Descriptors.hpp:945

armnn::IRuntime::CreationOptions
Definition: IRuntime.hpp:71

armnn::ReduceDescriptor
A ReduceDescriptor for the REDUCE operators.
Definition: Descriptors.hpp:1539

armnn::ReduceDescriptor::m_vAxis
std::vector< uint32_t > m_vAxis
The indices of the dimensions to reduce.
Definition: Descriptors.hpp:1556