Blame - src/runtime/NEON/functions/NEDepthwiseConvolutionLayer.cpp - ml/ComputeLibrary

2017-10-18 17:58:22 +0100

[diff] [blame]

{

}

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

48

void NEDepthwiseConvolutionLayer3x3::configure_generic(ITensor *input,

49

const ITensor *weights,

50

const ITensor *biases,

51

ITensor *output,

52

const PadStrideInfo &conv_info,

53

unsigned int depth_multiplier,

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

54

const ActivationLayerInfo &act_info,

55

const Size2D &dilation)

Michalis Spyrou

2017-10-18 17:58:22 +0100

[diff] [blame]

56

{

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

57

ARM_COMPUTE_UNUSED(act_info);

Michalis Spyrou

2017-10-18 17:58:22 +0100

[diff] [blame]

58

Georgios Pinitas

f72f936

2018-01-12 16:29:45 +0000

[diff] [blame]

59

PixelValue zero_value(0.f);

60

Georgios Pinitas

2018-09-12 20:11:34 +0100

[diff] [blame]

61

// Initialize the intermediate accumulator tensor in case of quantized input

62

if(_is_quantized)

63

{

64

TensorShape accum_shape = output->info()->tensor_shape();

65

DataLayout accum_layout = output->info()->data_layout();

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

66

if(!_is_nchw)

Georgios Pinitas

2018-09-12 20:11:34 +0100

[diff] [blame]

67

{

68

permute(accum_shape, PermutationVector(1U, 2U, 0U));

69

accum_layout = DataLayout::NCHW;

70

}

71

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

72

_memory_group.manage(&_accumulator);

Georgios Pinitas

2481d46

2019-02-19 18:47:46 +0000

[diff] [blame]

73

_accumulator.allocator()->init(TensorInfo(accum_shape, 1, DataType::S32, output->info()->quantization_info()));

Georgios Pinitas

2018-09-12 20:11:34 +0100

[diff] [blame]

74

_accumulator.info()->set_data_layout(accum_layout);

Georgios Pinitas

2019-05-21 13:32:43 +0100

[diff] [blame]

75

zero_value = PixelValue(static_cast<uint32_t>(input->info()->quantization_info().uniform().offset));

Georgios Pinitas

2018-09-12 20:11:34 +0100

[diff] [blame]

76

}

77

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

78

if(!_is_nchw)

Michalis Spyrou

2017-10-18 17:58:22 +0100

[diff] [blame]

79

{

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

80

_memory_group.manage(&_permuted_input);

81

_memory_group.manage(&_permuted_output);

Georgios Pinitas

2018-01-30 18:13:46 +0000

[diff] [blame]

82

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

83

// Configure the function to transform the input tensor from NHWC -> NCHW

84

_permute_input.configure(input, &_permuted_input, PermutationVector(1U, 2U, 0U));

85

_permuted_input.info()->set_data_layout(DataLayout::NCHW);

Georgios Pinitas

2018-01-30 18:13:46 +0000

[diff] [blame]

86

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

87

// Configure the function to transform the weights tensor from HWI -> IHW

88

_permute_weights.configure(weights, &_permuted_weights, PermutationVector(1U, 2U, 0U));

89

_permuted_weights.info()->set_data_layout(DataLayout::NCHW);

Pablo Tello

a28aebc

2019-06-03 14:59:48 +0100

[diff] [blame]

90

_permuted_output.info()->set_quantization_info(output->info()->quantization_info());

Georgios Pinitas

2018-01-30 18:13:46 +0000

[diff] [blame]

91

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

92

// Configure depthwise

93

_dwc_kernel.configure(&_permuted_input, &_permuted_weights, (_is_quantized) ? &_accumulator : &_permuted_output, conv_info, depth_multiplier, dilation);

Georgios Pinitas

2018-01-30 18:13:46 +0000

[diff] [blame]

94

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

95

// Configure border handler

96

_border_handler.configure(&_permuted_input, _dwc_kernel.border_size(), BorderMode::CONSTANT, zero_value);

97

98

// Allocate tensors

99

_permuted_input.allocator()->allocate();

Georgios Pinitas

f72f936

2018-01-12 16:29:45 +0000

[diff] [blame]

100

}

Georgios Pinitas

2018-01-30 18:13:46 +0000

[diff] [blame]

101

else

102

{

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

103

// Configure depthwise convolution kernel

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

104

_dwc_kernel.configure(input, weights, (_is_quantized) ? &_accumulator : output, conv_info, depth_multiplier, dilation);

Georgios Pinitas

9be0c5a

2018-02-19 12:46:29 +0000

[diff] [blame]

105

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

106

// Configure border handler

107

_border_handler.configure(input, _dwc_kernel.border_size(), BorderMode::CONSTANT, zero_value);

Michalis Spyrou

2017-10-18 17:58:22 +0100

[diff] [blame]

108

}

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

109

110

// Configure biases accumulation

111

if(_is_quantized)

112

{

Georgios Pinitas

2019-05-21 13:32:43 +0100

[diff] [blame]

113

const UniformQuantizationInfo iq_info = input->info()->quantization_info().uniform();

114

const UniformQuantizationInfo wq_info = weights->info()->quantization_info().uniform();

115

const UniformQuantizationInfo oq_info = (output->info()->total_size() == 0) ? iq_info : output->info()->quantization_info().uniform();

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

116

Georgios Pinitas

2019-05-21 13:32:43 +0100

[diff] [blame]

117

float multiplier = (iq_info.scale * wq_info.scale) / oq_info.scale;

Michalis Spyrou

a4f378d

2019-04-26 14:54:54 +0100

[diff] [blame]

118

int output_multiplier;

119

int output_shift;

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

120

quantization::calculate_quantized_multiplier_less_than_one(multiplier, &output_multiplier, &output_shift);

Georgios Pinitas

2019-05-21 13:32:43 +0100

[diff] [blame]

121

_output_stage_kernel.configure(&_accumulator, biases, _is_nchw ? output : &_permuted_output, output_multiplier, output_shift, oq_info.offset);

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

122

_accumulator.allocator()->allocate();

123

}

124

else if(_has_bias)

125

{

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

126

_output_stage_kernel.configure(_is_nchw ? output : &_permuted_output, biases);

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

127

}

128

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

129

// Permute output

130

if(!_is_nchw)

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

131

{

132

// Configure the function to transform the convoluted output to NHWC

133

_permute_output.configure(&_permuted_output, output, PermutationVector(2U, 0U, 1U));

134

_permuted_output.allocator()->allocate();

135

}

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

136

}

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

137

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

138

void NEDepthwiseConvolutionLayer3x3::configure_optimized(const ITensor *input,

139

const ITensor *weights,

140

const ITensor *biases,

141

ITensor *output,

142

const PadStrideInfo &conv_info,

143

unsigned int depth_multiplier,

144

const ActivationLayerInfo &act_info)

145

{

146

ActivationLayerInfo act_info_to_use = ActivationLayerInfo();

147

const bool is_relu = arm_compute::utils::info_helpers::is_relu(act_info);

148

const bool is_relu6 = arm_compute::utils::info_helpers::is_relu6(act_info);

149

_is_activationlayer_enabled = act_info.enabled() && !(is_relu || is_relu6);

150

if(!_is_activationlayer_enabled)

151

{

152

act_info_to_use = act_info;

}

if(_is_nchw)

{

_memory_group.manage(&_permuted_input);

158

_memory_group.manage(&_permuted_output);

159

160

// Configure the function to transform the input tensor from NCHW -> NHWC

161

_permute_input.configure(input, &_permuted_input, PermutationVector(2U, 0U, 1U));

162

_permuted_input.info()->set_data_layout(DataLayout::NHWC);

163

164

// Configure the function to transform the weights tensor from IHW -> HWI

165

_permute_weights.configure(weights, &_permuted_weights, PermutationVector(2U, 0U, 1U));

166

_permuted_weights.info()->set_data_layout(DataLayout::NHWC);

167

Pablo Tello

a28aebc

2019-06-03 14:59:48 +0100

[diff] [blame]

168

_permuted_output.info()->set_data_layout(DataLayout::NHWC);

169

_permuted_output.info()->set_quantization_info(output->info()->quantization_info());

170

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

171

// Configure optimized depthwise

172

_dwc_optimized_func.configure(&_permuted_input, &_permuted_weights, biases, &_permuted_output, conv_info, depth_multiplier, act_info_to_use);

173

174

// Configure the function to transform the convoluted output to ACL's native ordering format NCHW

175

_permuted_output.info()->set_data_layout(DataLayout::NHWC);

176

_permute_output.configure(&_permuted_output, output, PermutationVector(1U, 2U, 0U));

177

178

// Allocate tensors

179

_permuted_input.allocator()->allocate();

180

_permuted_output.allocator()->allocate();

}

else

{

_dwc_optimized_func.configure(input, weights, biases, output, conv_info, depth_multiplier, act_info_to_use);

}

}

void NEDepthwiseConvolutionLayer3x3::configure(ITensor *input,

189

const ITensor *weights,

190

const ITensor *biases,

191

ITensor *output, const PadStrideInfo &conv_info,

192

unsigned int depth_multiplier,

Usama Arif

2019-04-08 17:30:48 +0100

[diff] [blame]

193

const ActivationLayerInfo &act_info,

194

const Size2D &dilation)

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

195

{

Michele Di Giorgio

2019-07-17 15:59:32 +0100

[diff] [blame]

196

ARM_COMPUTE_ERROR_ON_NULLPTR(input, weights, output);

197

// Perform validation step

198

ARM_COMPUTE_ERROR_THROW_ON(NEDepthwiseConvolutionLayer3x3::validate(input->info(), weights->info(), (biases == nullptr) ? nullptr : biases->info(),

199

output->info(), conv_info, depth_multiplier, act_info, dilation));

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

200

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

201

_original_weights = weights;

202

_is_quantized = is_data_type_quantized_asymmetric(input->info()->data_type());

203

_has_bias = biases != nullptr;

204

_is_optimized = NEDepthwiseConvolutionAssemblyDispatch::is_optimized_supported(input->info(),

205

weights->info(),

206

conv_info,

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

207

depth_multiplier, dilation);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

208

_is_nchw = input->info()->data_layout() == DataLayout::NCHW;

209

_permute = _is_optimized == _is_nchw;

210

_is_prepared = false;

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

211

_is_activationlayer_enabled = act_info.enabled();

212

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

213

// Configure appropriate pipeline

214

if(_is_optimized)

215

{

216

configure_optimized(input, weights, biases, output, conv_info, depth_multiplier, act_info);

217

}

218

else

219

{

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

220

configure_generic(input, weights, biases, output, conv_info, depth_multiplier, act_info, dilation);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

221

}

222

223

// Configure activation

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

224

if(_is_activationlayer_enabled)

225

{

226

_activationlayer_function.configure(output, nullptr, act_info);

227

}

Michalis Spyrou

2017-10-18 17:58:22 +0100

[diff] [blame]

228

}

229

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

230

Status NEDepthwiseConvolutionLayer3x3::validate(const ITensorInfo *input,

231

const ITensorInfo *weights,

232

const ITensorInfo *biases,

233

const ITensorInfo *output,

234

const PadStrideInfo &conv_info,

235

unsigned int depth_multiplier,

Usama Arif

2019-04-08 17:30:48 +0100

[diff] [blame]

236

const ActivationLayerInfo &act_info,

237

const Size2D &dilation)

Abe Mbise

2018-05-31 16:48:41 +0100

[diff] [blame]

238

{

239

ARM_COMPUTE_RETURN_ERROR_ON_NULLPTR(input, weights, output);

Michele Di Giorgio

2019-07-17 15:59:32 +0100

[diff] [blame]

240

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(input, 1, DataType::QASYMM8, DataType::F16, DataType::F32);

241

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(input, weights);

Gian Marco Iodice

2018-09-07 15:32:14 +0100

[diff] [blame]

242

ARM_COMPUTE_RETURN_ERROR_ON(input->data_layout() == DataLayout::UNKNOWN);

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

243

ARM_COMPUTE_RETURN_ERROR_ON(dilation.x() < 1 || dilation.y() < 1);

244

const size_t idx_w = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::WIDTH);

245

const size_t idx_h = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::HEIGHT);

246

ARM_COMPUTE_RETURN_ERROR_ON(weights->dimension(idx_w) + (weights->dimension(idx_w) - 1) * (dilation.x() - 1) > input->dimension(idx_w) + conv_info.pad_left() + conv_info.pad_right());

247

ARM_COMPUTE_RETURN_ERROR_ON(weights->dimension(idx_h) + (weights->dimension(idx_h) - 1) * (dilation.y() - 1) > input->dimension(idx_h) + conv_info.pad_top() + conv_info.pad_bottom());

Abe Mbise

2018-05-31 16:48:41 +0100

[diff] [blame]

248

Giorgio Arena

66cbafb

2018-08-23 14:51:00 +0100

[diff] [blame]

249

if(biases != nullptr)

250

{

Gian Marco Iodice

2018-09-07 15:32:14 +0100

[diff] [blame]

251

const unsigned int channel_idx = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::CHANNEL);

Giorgio Arena

66cbafb

2018-08-23 14:51:00 +0100

[diff] [blame]

252

ARM_COMPUTE_RETURN_ERROR_ON(biases->num_dimensions() > 1);

Gian Marco Iodice

2018-09-07 15:32:14 +0100

[diff] [blame]

253

ARM_COMPUTE_RETURN_ERROR_ON(biases->dimension(0) != weights->dimension(channel_idx));

Giorgio Arena

66cbafb

2018-08-23 14:51:00 +0100

[diff] [blame]

254

}

255

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

256

if(!NEDepthwiseConvolutionAssemblyDispatch::is_optimized_supported(input, weights, conv_info, depth_multiplier, dilation))

Gian Marco Iodice

2018-09-07 15:32:14 +0100

[diff] [blame]

257

{

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

258

const bool is_quantized = is_data_type_quantized_asymmetric(input->data_type());

259

TensorInfo accumulator = TensorInfo(output->clone()->set_is_resizable(true).reset_padding().set_data_type(DataType::S32));

260

ARM_COMPUTE_RETURN_ON_ERROR(NEDepthwiseConvolutionLayer3x3Kernel::validate(input, weights, is_quantized ? &accumulator : output, conv_info, depth_multiplier));

261

262

if(is_quantized)

263

{

Michele Di Giorgio

2019-07-17 15:59:32 +0100

[diff] [blame]

264

const UniformQuantizationInfo iq_info = input->quantization_info().uniform();

265

const UniformQuantizationInfo wq_info = weights->quantization_info().uniform();

266

const UniformQuantizationInfo oq_info = output->quantization_info().uniform();

267

268

float multiplier = (iq_info.scale * wq_info.scale) / oq_info.scale;

269

int output_multiplier;

270

int output_shift;

271

ARM_COMPUTE_RETURN_ON_ERROR(quantization::calculate_quantized_multiplier_less_than_one(multiplier, &output_multiplier, &output_shift));

272

ARM_COMPUTE_RETURN_ON_ERROR(NEDirectConvolutionLayerOutputStageKernel::validate(&accumulator, biases, output, output_multiplier, output_shift, oq_info.offset));

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

}

}

else

{

ARM_COMPUTE_RETURN_ON_ERROR(NEDepthwiseConvolutionAssemblyDispatch::validate(input, weights, biases, output, conv_info, depth_multiplier));

Gian Marco Iodice

2018-09-07 15:32:14 +0100

[diff] [blame]

278

}

279

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

280

//Validate Activation Layer

281

if(act_info.enabled())

282

{

283

ARM_COMPUTE_RETURN_ON_ERROR(NEActivationLayer::validate(output, nullptr, act_info));

284

}

285

Gian Marco Iodice

2018-09-07 15:32:14 +0100

[diff] [blame]

286

return Status{};

Abe Mbise

2018-05-31 16:48:41 +0100

[diff] [blame]

287

}

288

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

289

void NEDepthwiseConvolutionLayer3x3::run_generic()

Michalis Spyrou

2017-10-18 17:58:22 +0100

[diff] [blame]

290

{

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

291

// Fill border

292

NEScheduler::get().schedule(&_border_handler, Window::DimX);

Georgios Pinitas

2018-01-30 18:13:46 +0000

[diff] [blame]

293

294

// Execute depthwise convolution

295

NEScheduler::get().schedule(&_dwc_kernel, Window::DimX);

296

Georgios Pinitas

2018-01-30 18:13:46 +0000

[diff] [blame]

297

// Add biases

Georgios Pinitas

f72f936

2018-01-12 16:29:45 +0000

[diff] [blame]

298

if(_has_bias || _is_quantized)

Michalis Spyrou

2017-10-18 17:58:22 +0100

[diff] [blame]

299

{

Michalis Spyrou

b91e34c

2017-12-20 15:50:55 +0000

[diff] [blame]

300

NEScheduler::get().schedule(&_output_stage_kernel, Window::DimX);

Michalis Spyrou

2017-10-18 17:58:22 +0100

[diff] [blame]

301

}

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

302

303

// Permute output

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

304

if(!_is_nchw)

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

305

{

306

_permute_output.run();

307

}

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

308

}

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

309

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

310

void NEDepthwiseConvolutionLayer3x3::run_optimized()

311

{

312

// Run assembly function

313

_dwc_optimized_func.run();

// Permute output

if(_is_nchw)

{

_permute_output.run();

}

}

void NEDepthwiseConvolutionLayer3x3::run()

{

prepare();

Georgios Pinitas

2019-04-02 17:27:03 +0100

[diff] [blame]

326

MemoryGroupResourceScope scope_mg(_memory_group);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

// Permute input

if(_permute)

{

_permute_input.run();

332

}

333

334

_is_optimized ? run_optimized() : run_generic();

335

336

// Run activation

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

337

if(_is_activationlayer_enabled)

338

{

339

_activationlayer_function.run();

340

}

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

341

}

342

343

void NEDepthwiseConvolutionLayer3x3::prepare()

{

if(!_is_prepared)

{

// Permute weights

if(_permute)

{

_permuted_weights.allocator()->allocate();

351

_permute_weights.run();

352

_original_weights->mark_as_unused();

353

}

354

355

// Prepare optimized function

356

if(_is_optimized)

357

{

358

_dwc_optimized_func.prepare();

359

if(!_permuted_weights.is_used())

360

{

361

_permuted_weights.allocator()->free();

}

}

_is_prepared = true;

}

Michalis Spyrou

2017-11-23 12:10:21 +0000

[diff] [blame]

367

}

368

Georgios Pinitas

30271c7

2019-06-24 14:56:34 +0100

[diff] [blame]

369

NEDepthwiseConvolutionLayerOptimized::NEDepthwiseConvolutionLayerOptimized(std::shared_ptr<IMemoryManager> memory_manager)

370

: _memory_group(memory_manager), _dwc_kernel(), _dwc_optimized_func(memory_manager), _output_stage_kernel(), _border_handler(), _permute_input(), _permute_weights(), _permute_output(),

371

_activationlayer_function(), _accumulator(), _permuted_input(), _permuted_weights(), _permuted_output(), _original_weights(nullptr), _has_bias(false), _is_quantized(false), _is_optimized(false),

372

_is_nchw(true), _permute(false), _is_activationlayer_enabled(false), _is_prepared(false)

{

}

void NEDepthwiseConvolutionLayerOptimized::configure_generic(ITensor *input,

377

const ITensor *weights,

378

const ITensor *biases,

379

ITensor *output,

380

const PadStrideInfo &conv_info,

381

unsigned int depth_multiplier,

382

const ActivationLayerInfo &act_info,

383

const Size2D &dilation)

384

{

385

ARM_COMPUTE_UNUSED(act_info);

386

387

PixelValue zero_value(0.f);

388

389

// Initialize the intermediate accumulator tensor in case of quantized input

390

if(_is_quantized)

391

{

392

TensorShape accum_shape = output->info()->tensor_shape();

393

DataLayout accum_layout = output->info()->data_layout();

394

if(!_is_nchw)

395

{

396

permute(accum_shape, PermutationVector(1U, 2U, 0U));

397

accum_layout = DataLayout::NCHW;

398

}

399

400

_memory_group.manage(&_accumulator);

401

_accumulator.allocator()->init(TensorInfo(accum_shape, 1, DataType::S32, output->info()->quantization_info()));

402

_accumulator.info()->set_data_layout(accum_layout);

403

zero_value = PixelValue(static_cast<uint32_t>(input->info()->quantization_info().uniform().offset));

}

if(!_is_nchw)

{

_memory_group.manage(&_permuted_input);

409

_memory_group.manage(&_permuted_output);

410

411

// Configure the function to transform the input tensor from NHWC -> NCHW

412

_permute_input.configure(input, &_permuted_input, PermutationVector(1U, 2U, 0U));

413

_permuted_input.info()->set_data_layout(DataLayout::NCHW);

414

415

// Configure the function to transform the weights tensor from HWI -> IHW

416

_permute_weights.configure(weights, &_permuted_weights, PermutationVector(1U, 2U, 0U));

417

_permuted_weights.info()->set_data_layout(DataLayout::NCHW);

418

_permuted_output.info()->set_quantization_info(output->info()->quantization_info());

419

420

// Configure depthwise

421

_dwc_kernel.configure(&_permuted_input, &_permuted_weights, (_is_quantized) ? &_accumulator : &_permuted_output, conv_info, depth_multiplier, dilation);

422

423

// Configure border handler

424

_border_handler.configure(&_permuted_input, _dwc_kernel.border_size(), BorderMode::CONSTANT, zero_value);

425

426

// Allocate tensors

427

_permuted_input.allocator()->allocate();

}

else

{

// Configure depthwise convolution kernel

432

_dwc_kernel.configure(input, weights, (_is_quantized) ? &_accumulator : output, conv_info, depth_multiplier, dilation);

433

434

// Configure border handler

435

_border_handler.configure(input, _dwc_kernel.border_size(), BorderMode::CONSTANT, zero_value);

436

}

437

438

// Configure biases accumulation

439

if(_is_quantized)

440

{

441

const UniformQuantizationInfo iq_info = input->info()->quantization_info().uniform();

442

const UniformQuantizationInfo wq_info = weights->info()->quantization_info().uniform();

443

const UniformQuantizationInfo oq_info = (output->info()->total_size() == 0) ? iq_info : output->info()->quantization_info().uniform();

444

445

float multiplier = (iq_info.scale * wq_info.scale) / oq_info.scale;

446

int output_multiplier;

447

int output_shift;

448

quantization::calculate_quantized_multiplier_less_than_one(multiplier, &output_multiplier, &output_shift);

449

_output_stage_kernel.configure(&_accumulator, biases, _is_nchw ? output : &_permuted_output, output_multiplier, output_shift, oq_info.offset);

450

_accumulator.allocator()->allocate();

}

else if(_has_bias)

{

_output_stage_kernel.configure(_is_nchw ? output : &_permuted_output, biases);

}

// Permute output

if(!_is_nchw)

{

// Configure the function to transform the convoluted output to NHWC

461

_permute_output.configure(&_permuted_output, output, PermutationVector(2U, 0U, 1U));

462

_permuted_output.allocator()->allocate();

}

}

void NEDepthwiseConvolutionLayerOptimized::configure_optimized(const ITensor *input,

467

const ITensor *weights,

468

const ITensor *biases,

469

ITensor *output,

470

const PadStrideInfo &conv_info,

471

unsigned int depth_multiplier,

472

const ActivationLayerInfo &act_info,

473

const Size2D &dilation)

474

{

475

ActivationLayerInfo act_info_to_use = ActivationLayerInfo();

476

const bool is_relu = arm_compute::utils::info_helpers::is_relu(act_info);

477

const bool is_relu6 = arm_compute::utils::info_helpers::is_relu6(act_info);

478

_is_activationlayer_enabled = act_info.enabled() && !(is_relu || is_relu6);

479

if(!_is_activationlayer_enabled)

480

{

481

act_info_to_use = act_info;

}

if(_is_nchw)

{

_memory_group.manage(&_permuted_input);

487

_memory_group.manage(&_permuted_output);

488

489

// Configure the function to transform the input tensor from NCHW -> NHWC

490

_permute_input.configure(input, &_permuted_input, PermutationVector(2U, 0U, 1U));

491

_permuted_input.info()->set_data_layout(DataLayout::NHWC);

492

493

// Configure the function to transform the weights tensor from IHW -> HWI

494

_permute_weights.configure(weights, &_permuted_weights, PermutationVector(2U, 0U, 1U));

495

_permuted_weights.info()->set_data_layout(DataLayout::NHWC);

496

497

_permuted_output.info()->set_data_layout(DataLayout::NHWC);

498

_permuted_output.info()->set_quantization_info(output->info()->quantization_info());

499

500

// Configure optimized depthwise

501

_dwc_optimized_func.configure(&_permuted_input, &_permuted_weights, biases, &_permuted_output, conv_info, depth_multiplier, act_info_to_use, dilation);

502

503

// Configure the function to transform the convoluted output to ACL's native ordering format NCHW

504

_permuted_output.info()->set_data_layout(DataLayout::NHWC);

505

_permute_output.configure(&_permuted_output, output, PermutationVector(1U, 2U, 0U));

506

507

// Allocate tensors

508

_permuted_input.allocator()->allocate();

509

_permuted_output.allocator()->allocate();

}

else

{

_dwc_optimized_func.configure(input, weights, biases, output, conv_info, depth_multiplier, act_info_to_use, dilation);

}

}

void NEDepthwiseConvolutionLayerOptimized::configure(ITensor *input,

518

const ITensor *weights,

519

const ITensor *biases,

520

ITensor *output, const PadStrideInfo &conv_info,

521

unsigned int depth_multiplier,

522

const ActivationLayerInfo &act_info,

523

const Size2D &dilation)

524

{

Michele Di Giorgio

2019-07-17 15:59:32 +0100

[diff] [blame]

525

ARM_COMPUTE_ERROR_ON_NULLPTR(input, weights, output);

526

// Perform validation step

527

ARM_COMPUTE_ERROR_THROW_ON(NEDepthwiseConvolutionLayerOptimized::validate(input->info(), weights->info(), (biases == nullptr) ? nullptr : biases->info(),

528

output->info(), conv_info, depth_multiplier, act_info, dilation));

Georgios Pinitas

30271c7

2019-06-24 14:56:34 +0100

[diff] [blame]

529

530

_original_weights = weights;

531

_is_quantized = is_data_type_quantized_asymmetric(input->info()->data_type());

532

_has_bias = biases != nullptr;

533

_is_optimized = NEDepthwiseConvolutionAssemblyDispatch::is_optimized_supported(input->info(),

weights->info(),

conv_info,

depth_multiplier,

dilation);

_is_nchw = input->info()->data_layout() == DataLayout::NCHW;

539

_permute = _is_optimized == _is_nchw;

540

_is_prepared = false;

541

_is_activationlayer_enabled = act_info.enabled();

542

543

// Configure appropriate pipeline

544

if(_is_optimized)

545

{

546

configure_optimized(input, weights, biases, output, conv_info, depth_multiplier, act_info, dilation);

}

else

{

configure_generic(input, weights, biases, output, conv_info, depth_multiplier, act_info, dilation);

551

}

552

553

// Configure activation

554

if(_is_activationlayer_enabled)

555

{

556

_activationlayer_function.configure(output, nullptr, act_info);

}

}

Status NEDepthwiseConvolutionLayerOptimized::validate(const ITensorInfo *input,

561

const ITensorInfo *weights,

562

const ITensorInfo *biases,

563

const ITensorInfo *output,

564

const PadStrideInfo &conv_info,

565

unsigned int depth_multiplier,

566

const ActivationLayerInfo &act_info,

567

const Size2D &dilation)

568

{

569

ARM_COMPUTE_RETURN_ERROR_ON_NULLPTR(input, weights, output);

Michele Di Giorgio

2019-07-17 15:59:32 +0100

[diff] [blame]

570

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(input, 1, DataType::QASYMM8, DataType::F16, DataType::F32);

571

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(input, weights);

Georgios Pinitas

30271c7

2019-06-24 14:56:34 +0100

[diff] [blame]

572

ARM_COMPUTE_RETURN_ERROR_ON(input->data_layout() == DataLayout::UNKNOWN);

573

ARM_COMPUTE_RETURN_ERROR_ON(dilation.x() < 1 || dilation.y() < 1);

574

const size_t idx_w = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::WIDTH);

575

const size_t idx_h = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::HEIGHT);

576

ARM_COMPUTE_RETURN_ERROR_ON(weights->dimension(idx_w) + (weights->dimension(idx_w) - 1) * (dilation.x() - 1) > input->dimension(idx_w) + conv_info.pad_left() + conv_info.pad_right());

577

ARM_COMPUTE_RETURN_ERROR_ON(weights->dimension(idx_h) + (weights->dimension(idx_h) - 1) * (dilation.y() - 1) > input->dimension(idx_h) + conv_info.pad_top() + conv_info.pad_bottom());

578

579

if(biases != nullptr)

580

{

581

const unsigned int channel_idx = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::CHANNEL);

582

ARM_COMPUTE_RETURN_ERROR_ON(biases->num_dimensions() > 1);

583

ARM_COMPUTE_RETURN_ERROR_ON(biases->dimension(0) != weights->dimension(channel_idx));

584

}

585

586

if(!NEDepthwiseConvolutionAssemblyDispatch::is_optimized_supported(input, weights, conv_info, depth_multiplier, dilation))

587

{

588

const bool is_quantized = is_data_type_quantized_asymmetric(input->data_type());

589

TensorInfo accumulator = TensorInfo(output->clone()->set_is_resizable(true).reset_padding().set_data_type(DataType::S32));

590

ARM_COMPUTE_RETURN_ON_ERROR(NEDepthwiseConvolutionLayer3x3Kernel::validate(input, weights, is_quantized ? &accumulator : output, conv_info, depth_multiplier, dilation));

if(is_quantized)

{

ARM_COMPUTE_RETURN_ON_ERROR(NEDirectConvolutionLayerOutputStageKernel::validate(&accumulator, biases, output));

}

}

else

{

ARM_COMPUTE_RETURN_ON_ERROR(NEDepthwiseConvolutionAssemblyDispatch::validate(input, weights, biases, output, conv_info, depth_multiplier, act_info, dilation));

600

}

601

602

//Validate Activation Layer

603

if(act_info.enabled())

604

{

605

ARM_COMPUTE_RETURN_ON_ERROR(NEActivationLayer::validate(output, nullptr, act_info));

}

return Status{};

}

void NEDepthwiseConvolutionLayerOptimized::run_generic()

612

{

613

// Fill border

614

NEScheduler::get().schedule(&_border_handler, Window::DimX);

615

616

// Execute depthwise convolution

617

NEScheduler::get().schedule(&_dwc_kernel, Window::DimX);

618

619

// Add biases

620

if(_has_bias || _is_quantized)

621

{

622

NEScheduler::get().schedule(&_output_stage_kernel, Window::DimX);

}

// Permute output

if(!_is_nchw)

{

_permute_output.run();

}

}

void NEDepthwiseConvolutionLayerOptimized::run_optimized()

633

{

634

// Run assembly function

635

_dwc_optimized_func.run();

// Permute output

if(_is_nchw)

{

_permute_output.run();

}

}

void NEDepthwiseConvolutionLayerOptimized::run()

{

prepare();

MemoryGroupResourceScope scope_mg(_memory_group);

// Permute input

if(_permute)

{

_permute_input.run();

654

}

655

656

_is_optimized ? run_optimized() : run_generic();

657

658

// Run activation

659

if(_is_activationlayer_enabled)

660

{

661

_activationlayer_function.run();

}

}

void NEDepthwiseConvolutionLayerOptimized::prepare()

{

if(!_is_prepared)

{

// Permute weights

if(_permute)

{

_permuted_weights.allocator()->allocate();

673

_permute_weights.run();

674

_original_weights->mark_as_unused();

675

}

676

677

// Prepare optimized function

678

if(_is_optimized)

679

{

680

_dwc_optimized_func.prepare();

681

if(!_permuted_weights.is_used())

682

{

683

_permuted_weights.allocator()->free();

}

}

_is_prepared = true;

}

}

Giorgio Arena

2017-11-23 11:45:24 +0000

[diff] [blame]

691

NEDepthwiseConvolutionLayer::NEDepthwiseConvolutionLayer()

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

692

: _im2col_kernel(), _weights_reshape_kernel(), _v2mm_kernel(), _depthwise_conv_kernel(), _vector_to_tensor_kernel(), _output_stage_kernel(), _fill_border(), _v2mm_input_fill_border(),

693

_v2mm_weights_fill_border(), _permute_input(), _permute_weights(), _permute_output(), _activationlayer_function(), _input_reshaped(), _weights_reshaped(), _v2mm_output(), _output_reshaped(),

694

_permuted_input(), _permuted_weights(), _permuted_output(), _is_prepared(false), _is_quantized(false), _is_nhwc(false), _is_activationlayer_enabled(false), _is_optimized(false),

695

_original_weights(nullptr)

Michalis Spyrou

2017-11-23 12:10:21 +0000

[diff] [blame]

{

}

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

699

void NEDepthwiseConvolutionLayer::configure(ITensor *input, const ITensor *weights, const ITensor *biases, ITensor *output, const PadStrideInfo &conv_info,

Usama Arif

2019-04-08 17:30:48 +0100

[diff] [blame]

700

unsigned int depth_multiplier, const ActivationLayerInfo &act_info, const Size2D &dilation)

Michalis Spyrou

2017-11-23 12:10:21 +0000

[diff] [blame]

701

{

Michele Di Giorgio

2019-07-17 15:59:32 +0100

[diff] [blame]

702

ARM_COMPUTE_ERROR_ON_NULLPTR(input, weights, output);

703

// Perform validation step

704

ARM_COMPUTE_ERROR_THROW_ON(NEDepthwiseConvolutionLayer::validate(input->info(), weights->info(), (biases == nullptr) ? nullptr : biases->info(),

705

output->info(), conv_info, depth_multiplier, act_info, dilation));

Michalis Spyrou

2017-11-23 12:10:21 +0000

[diff] [blame]

706

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

707

_is_nhwc = input->info()->data_layout() == DataLayout::NHWC;

708

_is_optimized = _is_nhwc && input->info()->data_type() == DataType::F32;

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

709

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

710

if(!_is_optimized)

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

711

{

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

712

ITensor *input_to_use = input;

713

const ITensor *weights_to_use = weights;

714

ITensor *output_to_use = output;

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

715

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

716

if(_is_nhwc)

717

{

718

_permute_input.configure(input, &_permuted_input, PermutationVector(1U, 2U, 0U));

719

_permuted_input.info()->set_data_layout(DataLayout::NCHW);

720

input_to_use = &_permuted_input;

721

722

_permute_weights.configure(weights, &_permuted_weights, PermutationVector(1U, 2U, 0U));

723

_permuted_weights.info()->set_data_layout(DataLayout::NCHW);

724

weights_to_use = &_permuted_weights;

725

}

726

727

const size_t weights_w = weights_to_use->info()->dimension(0);

728

const size_t weights_h = weights_to_use->info()->dimension(1);

729

const size_t weights_z = weights_to_use->info()->dimension(2);

730

731

_is_quantized = is_data_type_quantized_asymmetric(input->info()->data_type());

732

_is_prepared = false;

733

_original_weights = weights_to_use;

734

735

// Should bias be appended ?

736

bool append_bias = (biases != nullptr) && !_is_quantized;

737

738

// Calculate output shape

739

TensorShape output_shape = shape_calculator::compute_depthwise_convolution_shape(*input->info(), *weights->info(), conv_info, depth_multiplier, dilation);

740

741

// Output auto inizialitation if not yet initialized

742

auto_init_if_empty(*output->info(), input->info()->clone()->set_tensor_shape(output_shape));

743

ARM_COMPUTE_ERROR_ON_MISMATCHING_DIMENSIONS(output->info()->tensor_shape(), output_shape);

if(_is_nhwc)

{

permute(output_shape, PermutationVector(1U, 2U, 0U));

748

_permuted_output.allocator()->init(output->info()->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(output_shape));

749

_permuted_output.info()->set_data_layout(DataLayout::NCHW);

750

_permuted_output.info()->set_quantization_info(output->info()->quantization_info());

751

output_to_use = &_permuted_output;

752

}

753

754

// Output width and height

755

const unsigned int conv_w = output_shape.x();

756

const unsigned int conv_h = output_shape.y();

757

758

// Set up intermediate tensors

759

const size_t patch_size = weights_w * weights_h + (append_bias ? 1 : 0);

760

const size_t conv_size = conv_w * conv_h;

761

762

// Im2Col configuration

763

TensorShape shape_im2col = input_to_use->info()->tensor_shape();

764

shape_im2col.set(0, patch_size);

765

shape_im2col.set(1, conv_size);

766

shape_im2col.set(2, weights_z);

767

_input_reshaped.allocator()->init(input->info()->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(shape_im2col).set_data_layout(DataLayout::NCHW));

768

_im2col_kernel.configure(input_to_use, &_input_reshaped, Size2D(weights_w, weights_h), conv_info, append_bias, depth_multiplier, dilation);

769

770

// Weights reshape configuration

771

const TensorShape shape_weights_reshape(patch_size, weights_z);

772

_weights_reshaped.allocator()->init(weights->info()->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(shape_weights_reshape).set_data_layout(DataLayout::NCHW));

773

_weights_reshape_kernel.configure(weights_to_use, &_weights_reshaped, append_bias ? biases : nullptr);

774

775

// GEMV configuration

776

DataType v2mm_dt = (input->info()->data_type() == DataType::QASYMM8) ? DataType::S32 : input->info()->data_type();

777

TensorShape shape_v2mm_out = input_to_use->info()->tensor_shape();

778

shape_v2mm_out.set(0, conv_size * weights_z);

779

shape_v2mm_out.set(1, 1);

780

shape_v2mm_out.set(2, 1);

781

_v2mm_output.allocator()->init(input->info()->clone()->set_is_resizable(true).reset_padding().set_data_type(v2mm_dt).set_tensor_shape(shape_v2mm_out).set_data_layout(DataLayout::NCHW));

782

_v2mm_kernel.configure(&_input_reshaped, &_weights_reshaped, &_v2mm_output);

783

_output_reshaped.allocator()->init(_v2mm_output.info()->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(output_shape));

784

_vector_to_tensor_kernel.configure(&_v2mm_output, (_is_quantized) ? &_output_reshaped : output_to_use, conv_w, conv_h);

785

786

// Output staged configuration

787

if(_is_quantized)

788

{

789

const UniformQuantizationInfo iq_info = input->info()->quantization_info().uniform();

790

const UniformQuantizationInfo wq_info = weights->info()->quantization_info().uniform();

791

const UniformQuantizationInfo oq_info = output->info()->quantization_info().uniform();

792

793

float multiplier = (iq_info.scale * wq_info.scale) / oq_info.scale;

794

int output_multiplier;

795

int output_shift;

796

quantization::calculate_quantized_multiplier_less_than_one(multiplier, &output_multiplier, &output_shift);

797

_output_stage_kernel.configure(&_output_reshaped, biases, output_to_use, output_multiplier, output_shift, oq_info.offset);

798

_output_reshaped.allocator()->allocate();

}

if(_is_nhwc)

{

_permute_output.configure(&_permuted_output, output, PermutationVector(2U, 0U, 1U));

804

805

_permuted_input.allocator()->allocate();

806

_permuted_weights.allocator()->allocate();

807

_permuted_output.allocator()->allocate();

808

}

809

810

// Fill borders on inputs

811

PixelValue zero_in(static_cast<int32_t>(0));

812

PixelValue zero_w(static_cast<int32_t>(0));

813

if(_is_quantized)

814

{

815

zero_in = PixelValue(static_cast<int32_t>(input->info()->quantization_info().uniform().offset));

816

zero_w = PixelValue(static_cast<int32_t>(weights->info()->quantization_info().uniform().offset));

817

}

818

BorderSize border_size = _v2mm_kernel.border_size();

819

_v2mm_input_fill_border.configure(&_input_reshaped, border_size, BorderMode::CONSTANT, zero_in);

820

821

border_size.bottom = 0;

822

_v2mm_weights_fill_border.configure(&_weights_reshaped, border_size, BorderMode::CONSTANT, zero_w);

823

824

// Allocate intermediate tensors

825

_input_reshaped.allocator()->allocate();

826

_v2mm_output.allocator()->allocate();

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

827

}

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

828

else

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

829

{

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

830

// Configure kernel

831

_depthwise_conv_kernel.configure(input, weights, biases, output, conv_info, depth_multiplier, dilation);

832

833

// Fill input borders

834

_fill_border.configure(input, _depthwise_conv_kernel.border_size(), BorderMode::CONSTANT, PixelValue(static_cast<uint64_t>(0), input->info()->data_type()));

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

835

}

836

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

837

//Configure Activation Layer

838

_is_activationlayer_enabled = act_info.enabled();

839

840

if(_is_activationlayer_enabled)

841

{

842

_activationlayer_function.configure(output, nullptr, act_info);

843

}

Michalis Spyrou

2017-11-23 12:10:21 +0000

[diff] [blame]

844

}

845

Georgios Pinitas

1049020

2018-08-17 17:16:06 +0100

[diff] [blame]

846

Status NEDepthwiseConvolutionLayer::validate(const ITensorInfo *input, const ITensorInfo *weights, const ITensorInfo *biases, const ITensorInfo *output, const PadStrideInfo &conv_info,

Usama Arif

2019-04-08 17:30:48 +0100

[diff] [blame]

847

unsigned int depth_multiplier, const ActivationLayerInfo &act_info, const Size2D &dilation)

Abe Mbise

2018-05-31 16:48:41 +0100

[diff] [blame]

848

{

849

ARM_COMPUTE_RETURN_ERROR_ON_NULLPTR(input, weights, output);

Gian Marco Iodice

2018-09-07 15:32:14 +0100

[diff] [blame]

850

ARM_COMPUTE_RETURN_ERROR_ON(input->data_layout() == DataLayout::UNKNOWN);

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

851

ARM_COMPUTE_RETURN_ERROR_ON(dilation.x() < 1 || dilation.y() < 1);

Gian Marco Iodice

2018-09-07 15:32:14 +0100

[diff] [blame]

852

Michele Di Giorgio

2019-07-17 15:59:32 +0100

[diff] [blame]

853

const unsigned int width_idx = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::WIDTH);

854

const unsigned int height_idx = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::HEIGHT);

855

const unsigned int channel_idx = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::CHANNEL);

Abe Mbise

2018-05-31 16:48:41 +0100

[diff] [blame]

856

Usama Arif

2019-04-12 10:29:17 +0100

[diff] [blame]

857

ARM_COMPUTE_RETURN_ERROR_ON(weights->dimension(width_idx) + (weights->dimension(width_idx) - 1) * (dilation.x() - 1) > input->dimension(width_idx) + conv_info.pad_left() + conv_info.pad_right());

858

ARM_COMPUTE_RETURN_ERROR_ON(weights->dimension(height_idx) + (weights->dimension(height_idx) - 1) * (dilation.y() - 1) > input->dimension(height_idx) + conv_info.pad_top() + conv_info.pad_bottom());

Michele Di Giorgio

2019-07-17 15:59:32 +0100

[diff] [blame]

859

ARM_COMPUTE_RETURN_ERROR_ON((input->dimension(channel_idx) * depth_multiplier) != weights->dimension(channel_idx));

860

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

861

if(input->data_layout() != DataLayout::NHWC || input->data_type() != DataType::F32)

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

862

{

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

863

// Clone output to use auto init

864

auto output_clone = output->clone();

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

865

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

866

const ITensorInfo *input_to_use = input;

867

const ITensorInfo *weights_to_use = weights;

868

const ITensorInfo *output_to_use = output_clone.get();

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

869

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

870

TensorShape permuted_input_shape = input->tensor_shape();

871

TensorShape permuted_weights_shape = weights->tensor_shape();

872

TensorInfo permuted_input;

873

TensorInfo permuted_weights;

874

875

if(input->data_layout() == DataLayout::NHWC)

876

{

877

permute(permuted_input_shape, PermutationVector(1U, 2U, 0U));

878

permute(permuted_weights_shape, PermutationVector(1U, 2U, 0U));

879

880

permuted_input = TensorInfo(input->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(permuted_input_shape).set_data_layout(DataLayout::NCHW));

881

permuted_weights = TensorInfo(weights->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(permuted_weights_shape).set_data_layout(DataLayout::NCHW));

882

883

input_to_use = &permuted_input;

884

weights_to_use = &permuted_weights;

885

}

886

887

const bool is_quantized = is_data_type_quantized_asymmetric(input->data_type());

888

const bool append_bias = (biases != nullptr) && !is_quantized;

889

TensorShape output_shape = shape_calculator::compute_depthwise_convolution_shape(*input, *weights, conv_info, depth_multiplier, dilation);

890

const size_t weights_w = weights_to_use->dimension(0);

891

const size_t weights_h = weights_to_use->dimension(1);

892

const size_t weights_z = weights_to_use->dimension(2);

893

const unsigned int conv_w = output_shape[width_idx];

894

const unsigned int conv_h = output_shape[height_idx];

895

const size_t patch_size = weights_w * weights_h + (append_bias ? 1 : 0);

896

const size_t conv_size = conv_w * conv_h;

897

898

// Output auto inizialitation if not yet initialized

899

auto_init_if_empty(*output_clone, input->clone()->set_tensor_shape(output_shape));

900

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DIMENSIONS(output->tensor_shape(), output_shape);

901

902

TensorInfo permuted_output;

903

if(input->data_layout() == DataLayout::NHWC)

904

{

905

permute(output_shape, PermutationVector(1U, 2U, 0U));

906

permuted_output = TensorInfo(output_clone->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(output_shape).set_data_layout(DataLayout::NCHW));

907

output_to_use = &permuted_output;

908

}

909

910

// Im2Col configuration

911

TensorShape shape_im2col = input_to_use->tensor_shape();

912

shape_im2col.set(0, patch_size);

913

shape_im2col.set(1, conv_size);

914

shape_im2col.set(2, weights_z);

915

TensorInfo input_reshaped(input->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(shape_im2col).set_data_layout(DataLayout::NCHW));

916

ARM_COMPUTE_RETURN_ON_ERROR(NEDepthwiseIm2ColKernel::validate(input_to_use, &input_reshaped, Size2D(weights_w, weights_h), conv_info, append_bias, depth_multiplier, dilation));

917

918

// Weights reshape configuration

919

const TensorShape shape_weights_reshape(patch_size, weights_z);

920

TensorInfo weights_reshaped(weights->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(shape_weights_reshape).set_data_layout(DataLayout::NCHW));

921

ARM_COMPUTE_RETURN_ON_ERROR(NEDepthwiseWeightsReshapeKernel::validate(weights_to_use, &weights_reshaped, append_bias ? biases : nullptr));

922

923

// GEMV configuration

924

DataType v2mm_dt = (input->data_type() == DataType::QASYMM8) ? DataType::S32 : input->data_type();

925

TensorShape shape_v2mm_out = input_to_use->tensor_shape();

926

shape_v2mm_out.set(0, conv_size * weights_z);

927

shape_v2mm_out.set(1, 1);

928

shape_v2mm_out.set(2, 1);

929

TensorInfo v2mm_output(input->clone()->set_is_resizable(true).reset_padding().set_data_type(v2mm_dt).set_tensor_shape(shape_v2mm_out).set_data_layout(DataLayout::NCHW));

930

ARM_COMPUTE_RETURN_ON_ERROR(NEGEMMMatrixVectorMultiplyKernel::validate(&input_reshaped, &weights_reshaped, &v2mm_output));

931

932

TensorInfo output_reshaped(v2mm_output.clone()->set_is_resizable(true).reset_padding().set_tensor_shape(output_to_use->tensor_shape()));

933

ARM_COMPUTE_RETURN_ON_ERROR(NEDepthwiseVectorToTensorKernel::validate(&v2mm_output, (is_quantized) ? &output_reshaped : output_to_use, conv_w, conv_h));

if(is_quantized)

{

const UniformQuantizationInfo iq_info = input->quantization_info().uniform();

938

const UniformQuantizationInfo wq_info = weights->quantization_info().uniform();

939

const UniformQuantizationInfo oq_info = output->quantization_info().uniform();

940

941

float multiplier = (iq_info.scale * wq_info.scale) / oq_info.scale;

942

int output_multiplier;

943

int output_shift;

944

ARM_COMPUTE_RETURN_ON_ERROR(quantization::calculate_quantized_multiplier_less_than_one(multiplier, &output_multiplier, &output_shift));

945

ARM_COMPUTE_RETURN_ON_ERROR(NEDirectConvolutionLayerOutputStageKernel::validate(&output_reshaped, biases, output_to_use, output_multiplier, output_shift, oq_info.offset));

946

}

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

947

}

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

948

else

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

949

{

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

950

ARM_COMPUTE_RETURN_ON_ERROR(NEDepthwiseConvolutionLayerKernel::validate(input, weights, biases, output, conv_info, depth_multiplier, dilation));

Abe Mbise

2018-05-31 16:48:41 +0100

[diff] [blame]

951

}

952

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

953

// Validate Activation Layer

954

if(act_info.enabled())

955

{

956

ARM_COMPUTE_RETURN_ON_ERROR(NEActivationLayer::validate(output, nullptr, act_info));

957

}

958

Abe Mbise

2018-05-31 16:48:41 +0100

[diff] [blame]

return Status{};

}

Giorgio Arena

2017-11-23 11:45:24 +0000

[diff] [blame]

962

void NEDepthwiseConvolutionLayer::run()

Michalis Spyrou

2017-11-23 12:10:21 +0000

[diff] [blame]

963

{

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

964

if(!_is_optimized)

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

965

{

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

prepare();

if(_is_nhwc)

{

_permute_input.run();

971

}

972

973

NEScheduler::get().schedule(&_im2col_kernel, Window::DimX);

974

NEScheduler::get().schedule(&_v2mm_input_fill_border, Window::DimX);

975

NEScheduler::get().schedule(&_v2mm_kernel, Window::DimX);

976

NEScheduler::get().schedule(&_vector_to_tensor_kernel, Window::DimX);

977

if(_is_quantized)

978

{

979

NEScheduler::get().schedule(&_output_stage_kernel, Window::DimX);

}

if(_is_nhwc)

{

_permute_output.run();

985

}

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

986

}

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

987

else

Georgios Pinitas

d05dce4

2018-01-22 16:29:17 +0000

[diff] [blame]

988

{

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

989

NEScheduler::get().schedule(&_fill_border, Window::DimX);

990

NEScheduler::get().schedule(&_depthwise_conv_kernel, Window::DimY);

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

991

}

Georgios Pinitas

2018-10-22 16:17:20 +0100

[diff] [blame]

992

993

if(_is_activationlayer_enabled)

994

{

995

_activationlayer_function.run();

996

}

Anthony Barbier

fb8dda2

2018-01-30 09:27:05 +0000

[diff] [blame]

997

}

Georgios Pinitas

7221933

2018-06-05 14:56:06 +0100

[diff] [blame]

998

999

void NEDepthwiseConvolutionLayer::prepare()

1000

{

Giorgio Arena

2019-07-12 14:49:49 +0100

[diff] [blame^]

1001

if(!_is_prepared && !_is_optimized)

Georgios Pinitas

7221933

2018-06-05 14:56:06 +0100

[diff] [blame]

1002

{

1003

ARM_COMPUTE_ERROR_ON(!_original_weights->is_used());

1004

Giorgio Arena

2018-08-13 15:49:49 +0100

[diff] [blame]

1005

if(_is_nhwc)

1006

{

1007

_permute_weights.run();

1008

}

1009

Georgios Pinitas

7221933

2018-06-05 14:56:06 +0100

[diff] [blame]

1010

// Run reshape and mark original weights as unused

1011

_weights_reshaped.allocator()->allocate();

1012

NEScheduler::get().schedule(&_weights_reshape_kernel, Window::DimX);

1013

NEScheduler::get().schedule(&_v2mm_weights_fill_border, Window::DimX);

1014

_original_weights->mark_as_unused();

_is_prepared = true;

}

}

Georgios Pinitas