Blame - src/runtime/NEON/functions/assembly/NEDepthwiseConvolutionAssemblyDispatch.cpp - ml/ComputeLibrary

2019-06-24 14:56:34 +0100

[diff] [blame]

215

ActivationLayerInfo act_info,

216

const Size2D &dilation)

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

217

{

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

218

ARM_COMPUTE_UNUSED(dilation);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

219

const DataType data_type = input->info()->data_type();

220

const TensorShape shape = input->info()->tensor_shape();

221

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

222

const int n_batches = shape[3];

223

const int in_rows = shape.z();

224

const int in_cols = shape.y();

225

const int n_channels = shape.x();

226

const int dilation_factor = dilation.x();

227

const int padding_top = conv_info.pad_top();

228

const int padding_left = conv_info.pad_left();

229

const int padding_bottom = conv_info.pad_bottom();

230

const int padding_right = conv_info.pad_right();

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

231

Giuseppe Rossini

2019-11-06 14:57:49 +0000

[diff] [blame]

232

const bool is_uniform_quantized = (data_type == DataType::QASYMM8) && (weights->info()->data_type() == DataType::QASYMM8);

233

const bool is_perchannel_quantized = (data_type == DataType::QASYMM8) && (weights->info()->data_type() == DataType::QSYMM8_PER_CHANNEL);

234

Georgios Pinitas

2019-07-10 19:49:11 +0100

[diff] [blame]

235

const unsigned int stride_x = conv_info.stride().first;

236

const unsigned int kernel_size = weights->info()->tensor_shape().y();

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

237

238

// Map activation function

239

neon_convolution_kernels::ActivationFunction activation = neon_convolution_kernels::ActivationFunction::None;

240

if(arm_compute::utils::info_helpers::is_relu(act_info))

241

{

242

activation = neon_convolution_kernels::ActivationFunction::ReLU;

243

}

244

else if(arm_compute::utils::info_helpers::is_relu6(act_info))

245

{

246

activation = neon_convolution_kernels::ActivationFunction::ReLU6;

247

}

248

249

// Create quantized convolver

Giuseppe Rossini

2019-11-06 14:57:49 +0000

[diff] [blame]

250

if(is_uniform_quantized)

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

251

{

Georgios Pinitas

4c5469b

2019-05-21 13:32:43 +0100

[diff] [blame]

252

const UniformQuantizationInfo input_qinfo = input->info()->quantization_info().uniform();

253

const UniformQuantizationInfo weights_qinfo = weights->info()->quantization_info().uniform();

254

const UniformQuantizationInfo output_qinfo = output->info()->quantization_info().uniform();

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

255

256

// Check that quantization info are in the range [0, 255]

257

ARM_COMPUTE_ERROR_ON(input_qinfo.offset < 0 || input_qinfo.offset > 255);

258

ARM_COMPUTE_ERROR_ON(weights_qinfo.offset < 0 || weights_qinfo.offset > 255);

259

ARM_COMPUTE_ERROR_ON(output_qinfo.offset < 0 || output_qinfo.offset > 255);

260

const qasymm8::QAsymm8Params iqinfo{ static_cast<uint8_t>(input_qinfo.offset), input_qinfo.scale };

261

const qasymm8::QAsymm8Params wqinfo{ static_cast<uint8_t>(weights_qinfo.offset), weights_qinfo.scale };

262

const qasymm8::QAsymm8Params oqinfo{ static_cast<uint8_t>(output_qinfo.offset), output_qinfo.scale };

263

264

// Calculate rescale parameters

265

const float fmultipler = iqinfo.scale * wqinfo.scale / oqinfo.scale;

Michalis Spyrou

e7be8a0

2019-12-12 16:16:09 +0000

[diff] [blame]

266

int32_t qmultiplier = 0;

267

int32_t qshift = 0;

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

268

quantization::calculate_quantized_multiplier_less_than_one(fmultipler, &qmultiplier, &qshift);

269

qasymm8::QAsymm8RescaleParams rescale_params(qshift, qmultiplier, fmultipler);

270

Georgios Pinitas

2019-07-10 19:49:11 +0100

[diff] [blame]

271

return get_qasymm8_convolver(kernel_size, stride_x, n_batches, in_rows, in_cols, n_channels, dilation_factor, activation,

272

wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

273

}

Giuseppe Rossini

2019-11-06 14:57:49 +0000

[diff] [blame]

274

else if(is_perchannel_quantized)

275

{

276

const UniformQuantizationInfo input_qinfo = input->info()->quantization_info().uniform();

277

const QuantizationInfo weights_qinfo = weights->info()->quantization_info();

278

const UniformQuantizationInfo output_qinfo = output->info()->quantization_info().uniform();

279

280

// Check that quantization info are in the range [0, 255]

281

ARM_COMPUTE_ERROR_ON(input_qinfo.offset < 0 || input_qinfo.offset > 255);

282

ARM_COMPUTE_ERROR_ON(output_qinfo.offset < 0 || output_qinfo.offset > 255);

283

const qasymm8::QAsymm8Params iqinfo{ static_cast<uint8_t>(input_qinfo.offset), input_qinfo.scale };

284

const qsymm8::QSymm8PerChannelParams wqinfo{ weights_qinfo.scale() };

285

const qasymm8::QAsymm8Params oqinfo{ static_cast<uint8_t>(output_qinfo.offset), output_qinfo.scale };

286

287

// Calculate rescale parameters

Michalis Spyrou

e7be8a0

2019-12-12 16:16:09 +0000

[diff] [blame]

288

std::vector<float> fmultipliers;

289

std::vector<int32_t> qmultipliers;

290

std::vector<int32_t> qshifts;

Giuseppe Rossini

2019-11-06 14:57:49 +0000

[diff] [blame]

291

292

for(auto const s : wqinfo.scales)

293

{

294

const float fmultipler = iqinfo.scale * s / oqinfo.scale;

Michalis Spyrou

e7be8a0

2019-12-12 16:16:09 +0000

[diff] [blame]

295

int32_t qmultiplier = 0;

296

int32_t qshift = 0;

Giuseppe Rossini

2019-11-06 14:57:49 +0000

[diff] [blame]

297

quantization::calculate_quantized_multiplier_less_than_one(fmultipler, &qmultiplier, &qshift);

298

fmultipliers.push_back(fmultipler);

299

qmultipliers.push_back(qmultiplier);

300

qshifts.push_back(qshift);

301

}

302

303

qsymm8::QSymm8PerChannelRescaleParams rescale_params(qshifts, qmultipliers, fmultipliers);

304

305

return get_qsymm8_perchannel_convolver(kernel_size, stride_x, n_batches, in_rows, in_cols, n_channels, activation,

306

wqinfo, iqinfo, oqinfo, rescale_params, padding_top, padding_left, padding_bottom, padding_right);

307

}

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

308

else

309

{

310

// Create float convolver

311

switch(data_type)

312

{

313

#ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC

314

case DataType::F16:

315

{

Georgios Pinitas

2019-07-10 19:49:11 +0100

[diff] [blame]

316

return get_fp16_convolver(kernel_size, stride_x, n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

317

}

318

#endif // __ARM_FEATURE_FP16_VECTOR_ARITHMETIC

319

case DataType::F32:

320

{

Georgios Pinitas

2019-07-10 19:49:11 +0100

[diff] [blame]

321

return get_fp32_convolver(kernel_size, stride_x, n_batches, in_rows, in_cols, n_channels, dilation_factor, activation, padding_top, padding_left, padding_bottom, padding_right);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

}

default:

return nullptr;

}

}

}

} // namespace

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

330

struct NEDepthwiseConvolutionAssemblyDispatch::LocalImpl

331

{

332

std::unique_ptr<depthwise::IDepthwiseConvolution> _dwc_assembly_kernel{ nullptr };

333

NEDepthwiseConvolutionAssemblyKernelWrapper _dwc_acl_kernel{};

334

};

335

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

336

#ifndef DOXYGEN_SKIP_THIS

337

NEDepthwiseConvolutionAssemblyDispatch::NEDepthwiseConvolutionAssemblyDispatch(std::shared_ptr<arm_compute::IMemoryManager> memory_manager)

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

338

: _memory_group(std::move(memory_manager)), _input(nullptr), _weights(nullptr), _bias(nullptr), _output(nullptr), _packed_weights(), _workspace(), _is_prepared(false),

339

_pImpl(support::cpp14::make_unique<LocalImpl>())

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

340

{

341

}

342

#endif /* DOXYGEN_SKIP_THIS */

343

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

344

NEDepthwiseConvolutionAssemblyDispatch::~NEDepthwiseConvolutionAssemblyDispatch() = default;

345

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

346

void NEDepthwiseConvolutionAssemblyDispatch::configure(const ITensor *input,

347

const ITensor *weights,

348

const ITensor *bias,

349

ITensor *output,

350

const PadStrideInfo &conv_info,

351

unsigned int depth_multiplier,

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

352

const ActivationLayerInfo &act_info,

353

const Size2D &dilation)

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

354

{

355

ARM_COMPUTE_ERROR_ON_NULLPTR(input, weights, output);

356

ARM_COMPUTE_UNUSED(depth_multiplier);

357

ARM_COMPUTE_ERROR_THROW_ON(NEDepthwiseConvolutionAssemblyDispatch::validate(input->info(),

358

weights->info(),

359

bias != nullptr ? bias->info() : nullptr,

360

output->info(),

361

conv_info,

362

depth_multiplier,

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

363

act_info,

364

dilation));

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

365

366

// Output auto inizialitation if not yet initialized

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

367

const TensorShape output_shape = misc::shape_calculator::compute_depthwise_convolution_shape(*input->info(), *weights->info(), conv_info, depth_multiplier, dilation);

Pablo Tello

a28aebc

2019-06-03 14:59:48 +0100

[diff] [blame]

368

auto_init_if_empty(*output->info(), input->info()->clone()->set_is_resizable(true).reset_padding().set_tensor_shape(output_shape).set_quantization_info(output->info()->quantization_info()));

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

_input = input;

_weights = weights;

_bias = bias;

_output = output;

_is_prepared = false;

375

376

// Create convolver

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

377

_pImpl->_dwc_assembly_kernel = create_convolver(input, weights, output, conv_info, act_info, dilation);

378

ARM_COMPUTE_ERROR_ON(_pImpl->_dwc_assembly_kernel == nullptr);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

379

380

// Create assembly kernel wrapper

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

381

_pImpl->_dwc_acl_kernel.configure(_pImpl->_dwc_assembly_kernel.get());

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

382

383

constexpr size_t alignment = 128;

384

385

// Create workspace

386

const unsigned int num_threads = NEScheduler::get().num_threads();

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

387

const size_t workspace_size = _pImpl->_dwc_assembly_kernel->get_working_space_size(num_threads);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

388

ARM_COMPUTE_ERROR_ON_MSG(workspace_size == 0, "Workspace size cannot be 0 !");

389

_workspace.allocator()->init(TensorInfo(TensorShape{ workspace_size }, 1, DataType::S8), alignment);

390

_memory_group.manage(&_workspace);

391

_workspace.allocator()->allocate();

392

393

// Create packing tensor

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

394

const size_t pack_tensor_size = _pImpl->_dwc_assembly_kernel->get_packed_params_size();

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

395

ARM_COMPUTE_ERROR_ON_MSG(pack_tensor_size == 0, "Pack tensor size cannot be 0 !");

396

_packed_weights.allocator()->init(TensorInfo(TensorShape{ pack_tensor_size }, 1, DataType::S8), alignment);

397

}

398

399

Status NEDepthwiseConvolutionAssemblyDispatch::validate(const ITensorInfo *input,

400

const ITensorInfo *weights,

401

const ITensorInfo *bias,

402

const ITensorInfo *output,

403

const PadStrideInfo &conv_info,

404

unsigned int depth_multiplier,

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

405

const ActivationLayerInfo &act_info,

406

const Size2D &dilation)

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

407

{

408

ARM_COMPUTE_RETURN_ERROR_ON_CPU_F16_UNSUPPORTED(input);

409

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(input, 1, DataType::QASYMM8, DataType::F16, DataType::F32);

Giuseppe Rossini

2019-11-06 14:57:49 +0000

[diff] [blame]

410

if(weights->data_type() != DataType::QSYMM8_PER_CHANNEL)

411

{

412

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(input, weights);

413

}

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

414

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_LAYOUT(input, weights);

415

Georgios Pinitas

2019-07-10 19:49:11 +0100

[diff] [blame]

416

// Validate convolver

417

ARM_COMPUTE_RETURN_ERROR_ON(!is_optimized_supported(input, weights, conv_info, depth_multiplier, dilation));

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

418

Georgios Pinitas

2019-07-10 19:49:11 +0100

[diff] [blame]

419

// Validate activation

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

420

const bool is_relu = arm_compute::utils::info_helpers::is_relu(act_info);

421

const bool is_relu6 = arm_compute::utils::info_helpers::is_relu6(act_info);

422

ARM_COMPUTE_RETURN_ERROR_ON(act_info.enabled() && !(is_relu || is_relu6));

// Check bias

if(bias != nullptr)

{

Georgios Pinitas

2019-07-10 19:49:11 +0100

[diff] [blame]

427

unsigned int channel_idx = get_data_layout_dimension_index(input->data_layout(), DataLayoutDimension::CHANNEL);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

428

ARM_COMPUTE_RETURN_ERROR_ON(bias->num_dimensions() > 1);

429

ARM_COMPUTE_RETURN_ERROR_ON(bias->dimension(0) != weights->dimension(channel_idx));

}

// Check output

if(output->total_size() != 0)

434

{

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

435

const TensorShape output_shape = misc::shape_calculator::compute_depthwise_convolution_shape(*input, *weights, conv_info, depth_multiplier, dilation);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

436

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DIMENSIONS(output->tensor_shape(), output_shape);

437

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(input, output);

438

}

439

Michele Di Giorgio

f29d1b7

2019-10-29 10:58:13 +0000

[diff] [blame]

440

// The uniform quantization case will only have 1 scale value in the weights quantization info

441

const UniformQuantizationInfo input_qinfo = input->quantization_info().uniform();

442

const QuantizationInfo weights_qinfo = weights->quantization_info();

443

const UniformQuantizationInfo output_qinfo = output->quantization_info().uniform();

444

for(auto const s : weights_qinfo.scale())

445

{

446

const float fmultipler = input_qinfo.scale * s / output_qinfo.scale;

447

ARM_COMPUTE_RETURN_ERROR_ON(fmultipler > 1.f);

448

}

449

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

return Status{};

}

bool NEDepthwiseConvolutionAssemblyDispatch::is_optimized_supported(const ITensorInfo *input,

454

const ITensorInfo *weights,

455

PadStrideInfo conv_info,

Usama Arif

881f2de

2019-04-12 10:29:17 +0100

[diff] [blame]

456

unsigned int depth_multiplier,

457

const Size2D &dilation)

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

458

{

459

ARM_COMPUTE_ERROR_ON_NULLPTR(input, weights);

460

461

// Reshape input shape if in NHWC format

462

const DataLayout data_layout = input->data_layout();

463

TensorShape in_shape{ input->tensor_shape() };

464

if(data_layout == DataLayout::NHWC)

465

{

466

in_shape.set(Window::DimX, input->tensor_shape().y());

467

in_shape.set(Window::DimY, input->tensor_shape().z());

468

in_shape.set(Window::DimZ, input->tensor_shape().x());

469

}

470

471

// Check data type

Michele Di Giorgio

13ec5f0

2020-01-02 12:11:13 +0000

[diff] [blame]

472

// TODO (COMPMID-3004): Add assembly optimized routine for QASYMM8_SIGNED NEDepthwiseConvolutionLayer

473

const DataType input_type = input->data_type();

474

const bool is_input_type_valid = is_data_type_float(input_type) || input_type == DataType::QASYMM8;

475

const DataType weights_type = weights->data_type();

476

const bool is_weights_type_valid = is_data_type_float(weights_type) || weights_type == DataType::QASYMM8 || weights_type == DataType::QASYMM8_SIGNED

477

|| weights_type == DataType::QSYMM8_PER_CHANNEL;

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

478

479

// Check weighs size

Georgios Pinitas

2019-07-10 19:49:11 +0100

[diff] [blame]

480

std::set<unsigned int> supported_kernel_sizes = { 3, 5 };

481

const unsigned int width_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::WIDTH);

482

const unsigned int height_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::HEIGHT);

483

const unsigned int kernel_w = weights->dimension(width_idx);

484

const unsigned int kernel_h = weights->dimension(height_idx);

485

bool weights_supported = (kernel_w == kernel_h) && (supported_kernel_sizes.count(kernel_w) != 0);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

486

487

// Check for supported strides

488

const auto &strides = conv_info.stride();

489

bool supported_strides = (strides.first == strides.second) && ((strides.first == 1) || (strides.first == 2));

490

491

// Check for supported padding

Georgios Pinitas

2019-07-10 19:49:11 +0100

[diff] [blame]

492

const auto pad_top = conv_info.pad_top();

493

const auto pad_right = conv_info.pad_right();

494

const auto pad_bottom = conv_info.pad_bottom();

495

const auto pad_left = conv_info.pad_left();

496

PadStrideInfo same_pad = calculate_same_pad(in_shape, TensorShape(kernel_w, kernel_h), conv_info, DataLayout::NCHW, dilation);

497

bool is_same_padding = (pad_top == same_pad.pad_top()) && (pad_right == same_pad.pad_right()) && (pad_bottom == same_pad.pad_bottom()) && (pad_left == same_pad.pad_left());

498

bool is_valid_padding = (pad_top == 0) && (pad_right == 0) && (pad_bottom == 0) && (pad_left == 0);

499

bool supported_padding = is_same_padding || is_valid_padding;

500

// TODO(COMPMID-2464): Enable once dilated conv with stride 2 is supported

Giuseppe Rossini

2019-11-06 14:57:49 +0000

[diff] [blame]

501

bool is_dilation_supported = ((dilation == Size2D(1U, 1U)) || ((dilation.x() == dilation.y()) && strides.first == 1));

502

Michele Di Giorgio

13ec5f0

2020-01-02 12:11:13 +0000

[diff] [blame]

503

if(weights_type == DataType::QSYMM8_PER_CHANNEL)

Giuseppe Rossini

2019-11-06 14:57:49 +0000

[diff] [blame]

504

{

505

is_dilation_supported = is_dilation_supported && (dilation == Size2D(1U, 1U));

506

}

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

507

Michele Di Giorgio

13ec5f0

2020-01-02 12:11:13 +0000

[diff] [blame]

508

return is_input_type_valid && is_weights_type_valid && weights_supported && supported_strides && supported_padding && (depth_multiplier == 1) && is_dilation_supported;

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

509

}

510

511

void NEDepthwiseConvolutionAssemblyDispatch::run()

512

{

513

// Prepare assembly kernel

514

prepare();

515

Georgios Pinitas

da953f2

2019-04-02 17:27:03 +0100

[diff] [blame]

516

MemoryGroupResourceScope scope_mg(_memory_group);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

517

518

// Setup inputs/outputs

519

ARM_COMPUTE_ERROR_ON(_workspace.buffer() == nullptr);

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

520

_pImpl->_dwc_assembly_kernel->set_working_space(static_cast<void *>(_workspace.buffer()));

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

521

522

ARM_COMPUTE_ERROR_ON(_input->buffer() == nullptr);

523

const int input_element_size = _input->info()->element_size();

524

const int input_batch_stride = _input->info()->strides_in_bytes()[3] / input_element_size;

525

const int input_row_stride = _input->info()->strides_in_bytes().z() / input_element_size;

526

const int input_col_stride = _input->info()->strides_in_bytes().y() / input_element_size;

527

const void *input_ptr = _input->buffer() + _input->info()->offset_first_element_in_bytes();

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

528

_pImpl->_dwc_assembly_kernel->set_input(input_ptr, input_batch_stride, input_row_stride, input_col_stride);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

529

530

ARM_COMPUTE_ERROR_ON(_output->buffer() == nullptr);

531

const int output_element_size = _output->info()->element_size();

532

const int output_batch_stride = _output->info()->strides_in_bytes()[3] / output_element_size;

533

const int output_row_stride = _output->info()->strides_in_bytes().z() / output_element_size;

534

const int output_col_stride = _output->info()->strides_in_bytes().y() / output_element_size;

535

void *output_ptr = _output->buffer() + _output->info()->offset_first_element_in_bytes();

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

536

_pImpl->_dwc_assembly_kernel->set_output(output_ptr, output_batch_stride, output_row_stride, output_col_stride);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

537

538

// Schedule assembly kernel

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

539

NEScheduler::get().schedule(&_pImpl->_dwc_acl_kernel, Window::DimX);

Georgios Pinitas

2019-03-11 14:03:23 +0000

[diff] [blame]

540

}

541

542

void NEDepthwiseConvolutionAssemblyDispatch::prepare()

{

if(!_is_prepared)

{

_packed_weights.allocator()->allocate();

547

ARM_COMPUTE_ERROR_ON(_packed_weights.buffer() == nullptr);

548

549

// Pack weights and bias

550

const int weights_element_size = _weights->info()->element_size();

551

const int weights_row_stride = _weights->info()->strides_in_bytes().z() / weights_element_size;

552

const int weights_col_stride = _weights->info()->strides_in_bytes().y() / weights_element_size;

Georgios Pinitas

2019-06-24 14:56:34 +0100

[diff] [blame]

553

_pImpl->_dwc_assembly_kernel->pack_params(_packed_weights.buffer(),

554

_weights->buffer() + _weights->info()->offset_first_element_in_bytes(),

555

weights_row_stride,

556

weights_col_stride,

557

(_bias != nullptr) ? _bias->buffer() : nullptr);

558

_pImpl->_dwc_assembly_kernel->set_packed_params_buffer(_packed_weights.buffer());

Georgios Pinitas