Blame - src/armnn/NetworkQuantizer.cpp - ml/armnn

blob: fd4486bc3186de6c1848b89c15c79a7aa4c086c7 [file] [log] [blame]

Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	1	//
				2	// Copyright © 2017 Arm Ltd. All rights reserved.
				3	// SPDX-License-Identifier: MIT
				4	//
				5
Matteo Martincigh	9a5f9f2	2019-10-31 11:02:47 +0000	[diff] [blame]	6	#include "NetworkQuantizer.hpp"
				7	#include "NetworkQuantizerUtils.hpp"
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	8	#include "Graph.hpp"
				9	#include "Layer.hpp"
				10	#include "Network.hpp"
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	11	#include "DynamicQuantizationStrategy.hpp"
				12	#include "StaticRangeStrategy.hpp"
				13	#include "QuantizerStrategy.hpp"
Matteo Martincigh	a8d572d	2019-02-07 17:51:09 +0000	[diff] [blame]	14	#include "OverrideInputRangeVisitor.hpp"
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	15
Matteo Martincigh	e011d20	2019-11-28 11:35:47 +0000	[diff] [blame]	16	#include <TensorIOUtils.hpp>
				17
Matteo Martincigh	9a5f9f2	2019-10-31 11:02:47 +0000	[diff] [blame]	18	#include <armnn/ILayerVisitor.hpp>
				19	#include <armnn/INetwork.hpp>
				20	#include <armnn/Tensor.hpp>
				21	#include <armnn/Types.hpp>
				22
Matteo Martincigh	e011d20	2019-11-28 11:35:47 +0000	[diff] [blame]	23	#include <armnnUtils/TensorUtils.hpp>
Jan Eilers	bb446e5	2020-04-02 13:56:54 +0100	[diff] [blame]	24	#include <armnn/utility/PolymorphicDowncast.hpp>
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	25
James Ward	6d9f5c5	2020-09-28 11:56:35 +0100	[diff] [blame]	26	#include <mapbox/variant.hpp>
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	27
Matteo Martincigh	9a5f9f2	2019-10-31 11:02:47 +0000	[diff] [blame]	28	#include <vector>
				29	#include <cmath>
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	30
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	31	namespace armnn
				32	{
				33
Finn Williams	f806c4d	2021-02-22 15:13:12 +0000	[diff] [blame]	34	using TContainer =
				35	mapbox::util::variant<std::vector<float>, std::vector<int>, std::vector<unsigned char>, std::vector<int8_t>>;
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	36
Nattapat Chaimanowong	7ac07f3	2019-03-20 11:51:14 +0000	[diff] [blame]	37	INetworkQuantizer* INetworkQuantizer::CreateRaw(INetwork* inputNetwork, const QuantizerOptions& options)
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	38	{
Nattapat Chaimanowong	7ac07f3	2019-03-20 11:51:14 +0000	[diff] [blame]	39	return new NetworkQuantizer(inputNetwork, options);
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	40	}
				41
Nattapat Chaimanowong	7ac07f3	2019-03-20 11:51:14 +0000	[diff] [blame]	42	INetworkQuantizerPtr INetworkQuantizer::Create(INetwork* inputNetwork, const QuantizerOptions& options)
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	43	{
Nattapat Chaimanowong	7ac07f3	2019-03-20 11:51:14 +0000	[diff] [blame]	44	return INetworkQuantizerPtr(CreateRaw(inputNetwork, options), &INetworkQuantizer::Destroy);
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	45	}
				46
				47	void INetworkQuantizer::Destroy(INetworkQuantizer *quantizer)
				48	{
Jan Eilers	bb446e5	2020-04-02 13:56:54 +0100	[diff] [blame]	49	delete PolymorphicDowncast<NetworkQuantizer*>(quantizer);
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	50	}
				51
Matteo Martincigh	a8d572d	2019-02-07 17:51:09 +0000	[diff] [blame]	52	void NetworkQuantizer::OverrideInputRange(LayerBindingId layerId, float min, float max)
				53	{
Francis Murtagh	3d2b4b2	2021-02-15 18:23:17 +0000	[diff] [blame]	54	const Graph& graph = m_InputNetwork->pNetworkImpl->GetGraph();
Matteo Martincigh	a8d572d	2019-02-07 17:51:09 +0000	[diff] [blame]	55	auto inputLayers = graph.GetInputLayers();
				56
				57	// Walk the input layers of the graph and override the quantization parameters of the one with the given id
Derek Lamberti	8a4ca10	2019-02-08 17:54:20 +0000	[diff] [blame]	58	OverrideInputRangeVisitor overrideInputRangeVisitor(m_Ranges, layerId, RangeTracker::MinMaxRange{min, max});
Matteo Martincigh	a8d572d	2019-02-07 17:51:09 +0000	[diff] [blame]	59	VisitLayers(inputLayers, overrideInputRangeVisitor);
				60	}
				61
Nina Drozd	59e15b0	2019-04-25 15:45:20 +0100	[diff] [blame]	62	void NetworkQuantizer::Refine(const InputTensors& inputTensors)
				63	{
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	64	// The first time Refine is called the m_Runtime and the DynamicQuantizationStrategy
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	65	// will not have been created. Need to get the environment set up, Runtime loaded,
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	66	// DynamicQuantizationStrategy created and run over the network to initialise itself
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	67	// and the RangeTracker the Debug callback registered and an initial inference
				68	// done to set up the first min/max values
				69	if (!m_Runtime)
				70	{
				71	m_RefineCount = 0;
				72	m_Ranges.SetDynamicMode(true);
Francis Murtagh	3d2b4b2	2021-02-15 18:23:17 +0000	[diff] [blame]	73	const Graph& cGraph = m_InputNetwork->pNetworkImpl->GetGraph().TopologicalSort();
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	74
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	75	// need to insert Debug layers in the DynamicQuantizationStrategy
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	76	Graph& graph = const_cast<Graph&>(cGraph);
				77
				78	// Initialize RangeTracker to the default values for each layer.
				79	// The default values are overwritten by the min/max that is
				80	// recorded during the first dataset min/max calibration. This
				81	// initialisation is only required for the first call of Refine().
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	82	m_DynamicQuantizationStrategy = DynamicQuantizationStrategy(m_Ranges, graph);
				83	ApplyStrategyToLayers(cGraph, m_DynamicQuantizationStrategy.value());
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	84
				85	IRuntime::CreationOptions options;
				86	m_Runtime = IRuntime::Create(options);
				87
				88	// Optimize network - debug already enabled for layers that require quantization
				89	OptimizerOptions optimizerOptions(false, false);
				90	std::vector<BackendId> backends = {"CpuRef"};
				91	IOptimizedNetworkPtr optimizedNet = Optimize(*m_InputNetwork,
				92	backends,
				93	m_Runtime->GetDeviceSpec(),
				94	optimizerOptions);
				95
				96	m_Runtime->LoadNetwork(m_NetworkId, std::move(optimizedNet));
				97
				98	// Debug callback function to refine min/max in RangeTracker
				99	auto rangeTrackerCallback = [&](LayerGuid guid, unsigned int slotIndex, ITensorHandle *tensorHandle) {
				100	// Get min/max pair from tensor data
				101	std::pair<float, float> minMax = armnnUtils::FindMinMax(tensorHandle);
				102
				103	// For first calibration dataset, set min/max range in RangeTracker to
				104	// min/max ranges gathered during inference
				105	if (m_RefineCount == 0)
				106	{
				107	m_Ranges.ResetMinMax(guid, slotIndex, minMax.first, minMax.second);
				108	}
				109	else
				110	{
				111	// For every other calibration dataset, only set min/max range if the
				112	// values gathered are less than / greater than originally recorded.
				113	m_Ranges.RefineMin(guid, slotIndex, minMax.first);
				114	m_Ranges.RefineMax(guid, slotIndex, minMax.second);
				115	}
				116	};
				117
				118	m_Runtime->RegisterDebugCallback(m_NetworkId, rangeTrackerCallback);
				119	}
				120
				121	// Create output tensor for EnqueueWorkload
				122	std::vector<armnn::BindingPointInfo> outputBindings;
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	123	auto outputLayers = m_DynamicQuantizationStrategy.value().GetOutputLayers();
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	124	std::vector<TContainer> outputVectors;
				125	for (auto outputLayerBindingId : outputLayers)
				126	{
				127	auto outputTensorInfo = m_Runtime->GetOutputTensorInfo(m_NetworkId, outputLayerBindingId);
				128	outputBindings.push_back(std::make_pair(outputLayerBindingId, outputTensorInfo));
				129	outputVectors.push_back(std::vector<float>(outputTensorInfo.GetNumElements(), 0));
				130	}
				131	OutputTensors outputTensors = armnnUtils::MakeOutputTensors<TContainer>(outputBindings, outputVectors);
				132
				133	// Execute EnqueueWorkload with calibration image
				134	m_Runtime->EnqueueWorkload(m_NetworkId, inputTensors, outputTensors);
				135	++m_RefineCount;
Nina Drozd	59e15b0	2019-04-25 15:45:20 +0100	[diff] [blame]	136	}
				137
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	138	INetworkPtr NetworkQuantizer::ExportNetwork()
				139	{
Francis Murtagh	3d2b4b2	2021-02-15 18:23:17 +0000	[diff] [blame]	140	const Graph& graph = m_InputNetwork->pNetworkImpl->GetGraph().TopologicalSort();
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	141
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	142	// Step 1) Walk the graph and populate default min/max values for
				143	// intermediate tensors, only if Runtime does not exist (created
				144	// if Refine has been called)
				145	if (!m_Runtime)
				146	{
				147	m_Ranges.SetDynamicMode(false);
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	148	StaticRangeStrategy rangeStrategy(m_Ranges);
				149	ApplyStrategyToLayers(graph, rangeStrategy);
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	150	}
				151	else
				152	{
				153	// Set min/max range of non-calibrated layers to parent layer's range
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	154	m_DynamicQuantizationStrategy.value().VisitNonCalibratedLayers();
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	155	// now tear down the runtime and the dynamic visitor.
				156	m_Runtime.reset(nullptr);
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	157	m_DynamicQuantizationStrategy = EmptyOptional();
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	158	m_RefineCount = 0;
				159	}
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	160
				161	// Step 2) Convert input InputNetwork to Quantized InputNetwork
Nattapat Chaimanowong	7ac07f3	2019-03-20 11:51:14 +0000	[diff] [blame]	162	std::unique_ptr<IQuantizationScheme> quantizationScheme;
				163	switch (m_Options.m_ActivationFormat)
				164	{
Derek Lamberti	f90c56d	2020-01-10 17:14:08 +0000	[diff] [blame]	165	case DataType::QAsymmU8:
Ryan OShea	9add120	2020-02-07 10:06:33 +0000	[diff] [blame]	166	quantizationScheme = std::make_unique<QAsymmU8QuantizationScheme>();
				167	break;
				168	case DataType::QAsymmS8:
				169	quantizationScheme = std::make_unique<QAsymmS8QuantizationScheme>();
Nattapat Chaimanowong	7ac07f3	2019-03-20 11:51:14 +0000	[diff] [blame]	170	break;
Finn Williams	fd27106	2019-12-04 14:27:27 +0000	[diff] [blame]	171	case DataType::QSymmS8:
				172	quantizationScheme = std::make_unique<QSymmS8QuantizationScheme>();
				173	break;
Derek Lamberti	f90c56d	2020-01-10 17:14:08 +0000	[diff] [blame]	174	case DataType::QSymmS16:
Nattapat Chaimanowong	7ac07f3	2019-03-20 11:51:14 +0000	[diff] [blame]	175	quantizationScheme = std::make_unique<QSymm16QuantizationScheme>();
				176	break;
				177	default:
				178	throw InvalidArgumentException("Unsupported quantization target");
				179	}
				180
Finn Williams	b454c5c	2021-02-09 15:56:23 +0000	[diff] [blame]	181	QuantizerStrategy quantizerVisitor(m_Ranges, quantizationScheme.get(), m_Options.m_PreserveType);
				182	ApplyStrategyToLayers(graph, quantizerVisitor);
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	183
Jim Flynn	f92dfce	2019-05-02 11:33:25 +0100	[diff] [blame]	184	// clear the ranges
				185	m_Ranges.Reset();
				186
Derek Lamberti	27d8307	2019-02-05 16:00:08 +0000	[diff] [blame]	187	return quantizerVisitor.RetrieveFinalNetwork();
				188	}
				189
Matteo Martincigh	a8d572d	2019-02-07 17:51:09 +0000	[diff] [blame]	190	} //namespace armn