Blame - src/core/NEON/kernels/NEDirectConvolutionLayerKernel.cpp - ml/ComputeLibrary

2018-07-04 09:34:00 +0100

[diff] [blame]

238

const int input_stride_x = input->info()->strides_in_bytes().x();

239

const int input_stride_y = input->info()->strides_in_bytes().y();

240

const int input_stride_z = input->info()->strides_in_bytes().z();

241

const int output_stride_y = output->info()->strides_in_bytes().y();

242

const int output_stride_z = output->info()->strides_in_bytes().z();

243

const int kernel_stride_z = weights->info()->strides_in_bytes().z();

244

const int kernel_stride_w = weights->info()->strides_in_bytes()[3];

245

const int output_w = output->info()->dimension(0);

246

const int output_h = output->info()->dimension(1);

247

const int range_z = window.z().end() - window.z().start();

248

const int kernel_depth = weights->info()->dimension(Window::DimZ);

249

const unsigned int conv_stride_y = std::get<1>(conv_info.stride());

250

const unsigned int conv_pad_left = conv_info.pad_left();

251

const unsigned int conv_pad_top = conv_info.pad_top();

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

252

253

// setup output window for the iterator

254

Window window_out = window;

255

window_out.set(Window::DimX, Window::Dimension(0, output->info()->dimension(Window::DimX), output->info()->dimension(Window::DimX)));

256

window_out.set(Window::DimY, Window::Dimension(0, output->info()->dimension(Window::DimY), output->info()->dimension(Window::DimY)));

257

window_out.set(Window::DimZ, Window::Dimension(window.z().start(), window.z().end(), range_z));

258

259

// setup input window for the iterator

260

Window window_in = window;

261

// we just want execute_window_loop to iterate over the higher dimensions (>3), so we set the first 3 dimensions to 0

262

window_in.set(Window::DimX, Window::Dimension(0, 0, 0));

263

window_in.set(Window::DimY, Window::Dimension(0, 0, 0));

264

window_in.set(Window::DimZ, Window::Dimension(0, 0, 0));

265

Pablo Tello

f87cc7f

2017-07-26 10:28:40 +0100

[diff] [blame]

266

Window window_k = calculate_max_window(*weights->info(), Steps(1u));

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

267

Iterator out(output, window_out);

268

Iterator in(input, window_in);

269

Iterator k(weights, window_k);

270

271

const uint8_t *k_ptr = k.ptr();

272

273

execute_window_loop(window_out, [&](const Coordinates & id)

274

{

275

/*

276

For a detailed explanation on how the algorithm works refer to template <> class convolver_3x3<1>

277

*/

Georgios Pinitas

2018-02-19 13:58:22 +0000

[diff] [blame]

278

const uint8_t *input_ptr = in.ptr() - conv_pad_left * input_stride_x - conv_pad_top * input_stride_y;

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

279

uint8_t *out_ptr = out.ptr();

280

int ih = 0;

281

int oh = 0;

282

for(int oz = 0; oz < range_z; ++oz)

283

{

284

auto p_out_base = out_ptr + oz * output_stride_z;

285

// Step 1

286

{

287

const auto k_val = reinterpret_cast<const T1 *>(k_ptr + 0 * kernel_stride_z + (id.z() + oz) * kernel_stride_w);

288

const auto vk = internal_vdupq_n(*k_val);

289

for(ih = 0, oh = 0; oh < output_h; ++oh, ih += conv_stride_y)

290

{

291

const int offset_xy = ih * input_stride_y;

292

auto in_val = reinterpret_cast<const T1 *>(input_ptr + (0 * input_stride_z + offset_xy));

293

auto p_out = reinterpret_cast<T2 *>(p_out_base + oh * output_stride_y);

294

for(int ow = 0; ow < output_w; ow += num_elems_written_per_iteration, in_val += num_elems_read_per_iteration, p_out += num_elems_written_per_iteration)

295

{

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

296

internal_vst1q(p_out, internal_vmull(vk, internal_vld1q<stridex>(in_val)));

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

297

}

298

}

299

}

Pablo Tello

c09314a

2017-09-21 13:59:14 +0100

[diff] [blame]

300

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

301

// Step 2

302

for(int p = 1; p < kernel_depth; ++p)

303

{

304

const auto k_val = reinterpret_cast<const T1 *>(k_ptr + p * kernel_stride_z + (id.z() + oz) * kernel_stride_w);

305

const auto vk = internal_vdupq_n(*k_val);

306

for(ih = 0, oh = 0; oh < output_h; ++oh, ih += conv_stride_y)

307

{

308

const int offset_xy = ih * input_stride_y;

309

auto in_val = reinterpret_cast<const T1 *>(input_ptr + p * input_stride_z + offset_xy);

310

auto p_out = reinterpret_cast<T2 *>(p_out_base + oh * output_stride_y);

311

for(int ow = 0; ow < output_w; ow += num_elems_written_per_iteration, in_val += num_elems_read_per_iteration, p_out += num_elems_written_per_iteration)

312

{

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

313

internal_vst1q(p_out, internal_vmlal(internal_vld1q<1>(p_out), vk, internal_vld1q<stridex>(in_val)));

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

}

}

}

}

},

in, out);

}

};

Ioan-Cristian Szabo

2017-11-13 13:34:08 +0000

[diff] [blame]

323

#ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC

Pablo Tello

2017-07-06 16:43:14 +0100

[diff] [blame]

324

325

template <unsigned int stridex>

326

void accumulate_results(float16_t *buffer, const float16x8x2_t &values);

327

328

template <>

329

void accumulate_results<1>(float16_t *buffer, const float16x8x2_t &values)

330

{

331

vst1q_f16(buffer, vaddq_f16(vld1q_f16(buffer), values.val[0]));

332

vst1q_f16(buffer + 8, vaddq_f16(vld1q_f16(buffer + 8), values.val[1]));

}

template <>

void accumulate_results<2>(float16_t *buffer, const float16x8x2_t &values)

337

{

338

vst1q_f16(buffer, vaddq_f16(vld1q_f16(buffer), values.val[0]));

}

template <>

void accumulate_results<3>(float16_t *buffer, const float16x8x2_t &values)

343

{

344

vst1_f16(buffer, vadd_f16(vld1_f16(buffer), vget_low_f16(values.val[0])));

345

}

346

Ioan-Cristian Szabo

2017-11-13 13:34:08 +0000

[diff] [blame]

347

#endif /* __ARM_FEATURE_FP16_VECTOR_ARITHMETIC */

Pablo Tello

2017-07-06 16:43:14 +0100

[diff] [blame]

348

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

349

template <unsigned int stridex>

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

350

float32x4x2_t convolve_5x5(const float *in_0, const float *in_1, const float *in_2, const float *in_3, const float *in_4,

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

351

const float *m0, const float *m1, const float *m2, const float *m3, const float *m4);

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

352

353

inline float32x4x3_t load_matrix_hi(const float *const m0, const float *const m1, const float *const m2)

354

{

355

const float32x4x3_t m00 =

{

{

vld1q_dup_f32(m0),

vld1q_dup_f32(m1),

vld1q_dup_f32(m2)

}

};

return m00;

}

inline float32x4x2_t load_matrix_lo(const float *const m3, const float *const m4)

367

{

368

const float32x4x2_t m00 =

{

{

vld1q_dup_f32(m3),

vld1q_dup_f32(m4)

}

};

return m00;

}

inline float32x4x3_t load_input(const float *const in)

379

{

380

const float32x4x3_t vin =

{

{

vld1q_f32(in),

vld1q_f32(in + 4),

vld1q_f32(in + 8)

}

};

return vin;

}

template <>

inline float32x4x2_t convolve_5x5<1>(const float *in_0, const float *in_1, const float *in_2, const float *in_3, const float *in_4,

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

393

const float *m0, const float *m1, const float *m2, const float *m3, const float *m4)

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

394

{

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

395

const float32x4x3_t vin0 = load_input(in_0);

396

const float32x4x3_t vin1 = load_input(in_1);

397

const float32x4x3_t vin2 = load_input(in_2);

398

const float32x4x3_t vin3 = load_input(in_3);

399

const float32x4x3_t vin4 = load_input(in_4);

400

const float32x4x3_t m00 = load_matrix_hi(m0, 1 + m0, 2 + m0);

401

const float32x4x2_t m01 = load_matrix_lo(3 + m0, 4 + m0);

402

const float32x4x3_t m10 = load_matrix_hi(m1, 1 + m1, 2 + m1);

403

const float32x4x2_t m11 = load_matrix_lo(3 + m1, 4 + m1);

404

const float32x4x3_t m20 = load_matrix_hi(m2, 1 + m2, 2 + m2);

405

const float32x4x2_t m21 = load_matrix_lo(3 + m2, 4 + m2);

406

const float32x4x3_t m30 = load_matrix_hi(m3, 1 + m3, 2 + m3);

407

const float32x4x2_t m31 = load_matrix_lo(3 + m3, 4 + m3);

408

const float32x4x3_t m40 = load_matrix_hi(m4, 1 + m4, 2 + m4);

409

const float32x4x2_t m41 = load_matrix_lo(3 + m4, 4 + m4);

float32x4x2_t out =

{

{

vmulq_f32(vin0.val[0], m00.val[0]),

415

vmulq_f32(vin0.val[1], m00.val[0])

}

};

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin0.val[0], vin0.val[1], 1), m00.val[1]);

420

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin0.val[0], vin0.val[1], 2), m00.val[2]);

421

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin0.val[0], vin0.val[1], 3), m01.val[0]);

422

out.val[0] = vmlaq_f32(out.val[0], vin0.val[1], m01.val[1]);

423

424

out.val[0] = vmlaq_f32(out.val[0], vin1.val[0], m10.val[0]);

425

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin1.val[0], vin1.val[1], 1), m10.val[1]);

426

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin1.val[0], vin1.val[1], 2), m10.val[2]);

427

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin1.val[0], vin1.val[1], 3), m11.val[0]);

428

out.val[0] = vmlaq_f32(out.val[0], vin1.val[1], m11.val[1]);

429

430

out.val[0] = vmlaq_f32(out.val[0], vin2.val[0], m20.val[0]);

431

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin2.val[0], vin2.val[1], 1), m20.val[1]);

432

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin2.val[0], vin2.val[1], 2), m20.val[2]);

433

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin2.val[0], vin2.val[1], 3), m21.val[0]);

434

out.val[0] = vmlaq_f32(out.val[0], vin2.val[1], m21.val[1]);

435

436

out.val[0] = vmlaq_f32(out.val[0], vin3.val[0], m30.val[0]);

437

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin3.val[0], vin3.val[1], 1), m30.val[1]);

438

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin3.val[0], vin3.val[1], 2), m30.val[2]);

439

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin3.val[0], vin3.val[1], 3), m31.val[0]);

440

out.val[0] = vmlaq_f32(out.val[0], vin3.val[1], m31.val[1]);

441

442

out.val[0] = vmlaq_f32(out.val[0], vin4.val[0], m40.val[0]);

443

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin4.val[0], vin4.val[1], 1), m40.val[1]);

444

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin4.val[0], vin4.val[1], 2), m40.val[2]);

445

out.val[0] = vmlaq_f32(out.val[0], vextq_f32(vin4.val[0], vin4.val[1], 3), m41.val[0]);

446

out.val[0] = vmlaq_f32(out.val[0], vin4.val[1], m41.val[1]);

447

448

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin0.val[1], vin0.val[2], 1), m00.val[1]);

449

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin0.val[1], vin0.val[2], 2), m00.val[2]);

450

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin0.val[1], vin0.val[2], 3), m01.val[0]);

451

out.val[1] = vmlaq_f32(out.val[1], vin0.val[2], m01.val[1]);

452

453

out.val[1] = vmlaq_f32(out.val[1], vin1.val[1], m10.val[0]);

454

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin1.val[1], vin1.val[2], 1), m10.val[1]);

455

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin1.val[1], vin1.val[2], 2), m10.val[2]);

456

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin1.val[1], vin1.val[2], 3), m11.val[0]);

457

out.val[1] = vmlaq_f32(out.val[1], vin1.val[2], m11.val[1]);

458

459

out.val[1] = vmlaq_f32(out.val[1], vin2.val[1], m20.val[0]);

460

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin2.val[1], vin2.val[2], 1), m20.val[1]);

461

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin2.val[1], vin2.val[2], 2), m20.val[2]);

462

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin2.val[1], vin2.val[2], 3), m21.val[0]);

463

out.val[1] = vmlaq_f32(out.val[1], vin2.val[2], m21.val[1]);

464

465

out.val[1] = vmlaq_f32(out.val[1], vin3.val[1], m30.val[0]);

466

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin3.val[1], vin3.val[2], 1), m30.val[1]);

467

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin3.val[1], vin3.val[2], 2), m30.val[2]);

468

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin3.val[1], vin3.val[2], 3), m31.val[0]);

469

out.val[1] = vmlaq_f32(out.val[1], vin3.val[2], m31.val[1]);

470

471

out.val[1] = vmlaq_f32(out.val[1], vin4.val[1], m40.val[0]);

472

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin4.val[1], vin4.val[2], 1), m40.val[1]);

473

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin4.val[1], vin4.val[2], 2), m40.val[2]);

474

out.val[1] = vmlaq_f32(out.val[1], vextq_f32(vin4.val[1], vin4.val[2], 3), m41.val[0]);

475

out.val[1] = vmlaq_f32(out.val[1], vin4.val[2], m41.val[1]);

return out;

}

template <>

inline float32x4x2_t convolve_5x5<2>(const float *in_0, const float *in_1, const float *in_2, const float *in_3, const float *in_4,

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

482

const float *m0, const float *m1, const float *m2, const float *m3, const float *m4)

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

483

{

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

484

float32x4x2_t out = convolve_5x5<1>(in_0, in_1, in_2, in_3, in_4, m0, m1, m2, m3, m4);

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

485

out.val[0] = vsetq_lane_f32(vgetq_lane_f32(out.val[0], 2), out.val[0], 1);

486

out.val[0] = vsetq_lane_f32(vgetq_lane_f32(out.val[1], 0), out.val[0], 2);

487

out.val[0] = vsetq_lane_f32(vgetq_lane_f32(out.val[1], 2), out.val[0], 3);

return out;

}

template <>

inline float32x4x2_t convolve_5x5<3>(const float *in_0, const float *in_1, const float *in_2, const float *in_3, const float *in_4,

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

493

const float *m0, const float *m1, const float *m2, const float *m3, const float *m4)

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

494

{

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

495

float32x4x2_t out = convolve_5x5<1>(in_0, in_1, in_2, in_3, in_4, m0, m1, m2, m3, m4);

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

496

out.val[0] = vsetq_lane_f32(vgetq_lane_f32(out.val[0], 3), out.val[0], 1);

return out;

}

template <unsigned int stridex>

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

501

void accumulate_results(float *buffer, const float32x4x2_t &values);

502

503

template <>

504

void accumulate_results<1>(float *buffer, const float32x4x2_t &values)

505

{

506

vst1q_f32(buffer, vaddq_f32(vld1q_f32(buffer), values.val[0]));

507

vst1q_f32(buffer + 4, vaddq_f32(vld1q_f32(buffer + 4), values.val[1]));

}

template <>

void accumulate_results<2>(float *buffer, const float32x4x2_t &values)

512

{

513

vst1q_f32(buffer, vaddq_f32(vld1q_f32(buffer), values.val[0]));

}

template <>

void accumulate_results<3>(float *buffer, const float32x4x2_t &values)

518

{

519

vst1_f32(buffer, vadd_f32(vld1_f32(buffer), vget_low_f32(values.val[0])));

520

}

521

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

522

template <typename T1>

class convolver_nhwc

{

public:

static void convolve(const Window &window, int kernel_size, unsigned int num_elems_read_per_iteration,

527

const ITensor *input, const ITensor *weights, ITensor *output, const PadStrideInfo &conv_info)

528

{

529

const int input_width = input->info()->dimension(0);

530

const int input_depth = input->info()->dimension(2);

531

const int input_stride_x = input->info()->strides_in_bytes().x();

532

const int input_stride_y = input->info()->strides_in_bytes().y();

533

const int input_stride_z = input->info()->strides_in_bytes().z();

534

const int output_stride_x = output->info()->strides_in_bytes().x();

535

const int kernel_stride_x = weights->info()->strides_in_bytes().x();

536

const int kernel_stride_y = weights->info()->strides_in_bytes().y();

537

const int kernel_stride_z = weights->info()->strides_in_bytes().z();

538

const int conv_pad_top = conv_info.pad_top();

539

const unsigned int conv_stride_x = std::get<0>(conv_info.stride());

540

const unsigned int conv_stride_y = std::get<1>(conv_info.stride());

541

const T1 zero = 0;

542

543

// Setup input window for the input iterator

544

Window window_in = window;

545

window_in.set(Window::DimX, Window::Dimension(0, 0, 0));

546

window_in.set(Window::DimY, Window::Dimension(0, 0, 0));

547

window_in.set(Window::DimZ, Window::Dimension(0, 0, 0));

548

549

// Setup input window for the output iterator

550

Window window_out = window;

551

window_out.set(Window::DimX, Window::Dimension(0, 1, 1));

552

553

// Setup input window for the weights iterator

554

Window window_k = calculate_max_window(*weights->info(), Steps());

555

window_k.set(Window::DimX, Window::Dimension(0, 1, 1));

556

window_k.set(Window::DimY, Window::Dimension(0, 1, 1));

557

window_k.set(Window::DimZ, Window::Dimension(0, 1, 1));

558

window_k.set(3, Window::Dimension(0, weights->info()->dimension(3), 1));

559

560

Iterator in(input, window_in);

561

Iterator out(output, window_out);

562

Iterator k(weights, window_k);

563

564

execute_window_loop(window_k, [&](const Coordinates & id_k)

565

{

566

execute_window_loop(window_out, [&](const Coordinates & id)

567

{

568

const auto in_y = static_cast<int>(id.y() * conv_stride_x - conv_info.pad_left());

569

const auto in_z = static_cast<int>(id.z() * conv_stride_y - conv_pad_top);

570

571

const uint8_t *in_ptr = in.ptr() + in_y * input_stride_y + in_z * input_stride_z;

572

uint8_t *out_ptr = out.ptr() + id_k[3] * output_stride_x;

T1 out_val = 0;

auto in_addr_base0 = in_ptr;

577

auto we_addr_base0 = k.ptr();

578

579

for(int z = 0; z < kernel_size; ++z, in_addr_base0 += input_stride_z, we_addr_base0 += kernel_stride_z)

580

{

581

const int in_z = id.z() * conv_stride_y + z - conv_pad_top;

582

583

if(in_z >= 0 && in_z < input_depth) // If false, pad top/bottom

584

{

585

auto in_addr_base1 = in_addr_base0;

586

auto we_addr_base1 = we_addr_base0;

587

588

for(int y = 0; y < kernel_size; ++y, in_addr_base1 += input_stride_y, we_addr_base1 += kernel_stride_y)

589

{

590

auto out_values = internal_vdupq_n(zero);

591

592

int x = 0;

593

int no_leftover = input_width - num_elems_read_per_iteration;

594

595

for(; x < no_leftover; x += num_elems_read_per_iteration)

596

{

597

const auto in_addr = reinterpret_cast<const T1 *>(in_addr_base1 + x * input_stride_x);

598

const auto in_values = internal_vld1q<1>(in_addr);

599

600

const auto we_addr = reinterpret_cast<const T1 *>(we_addr_base1 + x * kernel_stride_x);

601

const auto we_values = internal_vld1q<1>(we_addr);

602

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

603

out_values = internal_vmlal(out_values, in_values, we_values);

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

604

}

605

606

out_val += out_values[0];

607

out_val += out_values[1];

608

out_val += out_values[2];

609

out_val += out_values[3];

610

611

// Leftover

612

for(; x < input_width; ++x)

613

{

614

const auto in_addr = reinterpret_cast<const T1 *>(in_addr_base1 + x * input_stride_x);

615

const auto in_value = *(in_addr);

616

617

const auto we_addr = reinterpret_cast<const T1 *>(we_addr_base1 + x * kernel_stride_x);

618

const auto we_value = *(we_addr);

619

620

out_val += in_value * we_value;

}

}

}

}

*(reinterpret_cast<T1 *>(out_ptr)) = out_val;

},

in, out);

},

k);

}

};

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

634

template <typename T1, typename T2, unsigned int stridex>

class convolver_3x3

{

public:

static void convolve(const Window &window, unsigned int num_elems_read_per_iteration, unsigned int num_elems_written_per_iteration,

639

const ITensor *input, const ITensor *weights, ITensor *output, const PadStrideInfo &conv_info)

640

{

641

ARM_COMPUTE_UNUSED(num_elems_read_per_iteration);

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

642

const int input_stride_x = input->info()->strides_in_bytes().x();

643

const int input_stride_y = input->info()->strides_in_bytes().y();

644

const int input_stride_z = input->info()->strides_in_bytes().z();

645

const int output_stride_y = output->info()->strides_in_bytes().y();

646

const int output_stride_z = output->info()->strides_in_bytes().z();

647

const int kernel_stride_x = weights->info()->strides_in_bytes().x();

648

const int kernel_stride_y = weights->info()->strides_in_bytes().y();

649

const int kernel_stride_z = weights->info()->strides_in_bytes().z();

650

const int kernel_stride_w = weights->info()->strides_in_bytes()[3];

651

const int output_w = output->info()->dimension(0);

652

const int output_h = output->info()->dimension(1);

653

const int num_planes_z = window.z().end() - window.z().start();

654

const int delta_input = get_input_num_elems_processed<stridex>(num_elems_written_per_iteration);

655

const int kernel_depth = weights->info()->dimension(Window::DimZ);

656

const unsigned int conv_stride_y = std::get<1>(conv_info.stride());

657

const unsigned int conv_pad_left = conv_info.pad_left();

658

const unsigned int conv_pad_top = conv_info.pad_top();

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

659

660

// setup output window for the iterator

661

Window window_out = window;

662

window_out.set(Window::DimX, Window::Dimension(0, output->info()->dimension(Window::DimX), output->info()->dimension(Window::DimX)));

663

window_out.set(Window::DimY, Window::Dimension(0, output->info()->dimension(Window::DimY), output->info()->dimension(Window::DimY)));

664

window_out.set(Window::DimZ, Window::Dimension(window.z().start(), window.z().end(), num_planes_z));

665

666

// setup input window for the iterator

667

Window window_in = window;

668

// we just want execute_window_loop to iterate over the higher dimensions (>3), so we set the first 3 dimensions to 0

669

window_in.set(Window::DimX, Window::Dimension(0, 0, 0));

670

window_in.set(Window::DimY, Window::Dimension(0, 0, 0));

671

window_in.set(Window::DimZ, Window::Dimension(0, 0, 0));

672

673

Window window_k = calculate_max_window(*weights->info(), Steps(1u));

674

675

Iterator out(output, window_out);

676

Iterator in(input, window_in);

677

Iterator k(weights, window_k);

678

679

const uint8_t *k_ptr = k.ptr();

680

681

execute_window_loop(window_out, [&](const Coordinates & id)

682

{

Georgios Pinitas

2018-02-19 13:58:22 +0000

[diff] [blame]

683

const uint8_t *input_ptr = in.ptr() - conv_pad_left * input_stride_x - conv_pad_top * input_stride_y;

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

684

uint8_t *out_ptr = out.ptr();

int ih = 0;

int oh = 0;

/*

Each thread executing this kernel computes one or more output's volume planes.

689

690

Let's say the 3rd dimension of the output volume is 32, the first thread will compute the output for Z = [0,7], the second thread will compute the output for Z = [8,15],

691

the third thread [16,24] and the fourth thread [25,31].

692

693

The algorithm outer loop iterates over Z, P, Y, X where P is the depth/3rd dimension of each kernel. This order is not arbitrary, the main benefit of this

Anthony Barbier

e500747

2017-10-27 15:01:44 +0100

[diff] [blame]

694

is that we setup the neon registers containing the kernel's values only once and then compute each XY using the preloaded registers as opposed as doing this for every XY value.

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

695

696

The algorithm does not require allocating any additional memory amd computes the results directly in-place in two stages:

697

1) Convolve plane 0 with kernel 0 and initialize the corresponding output plane with these values.

698

2) Convolve the remaining planes and accumulate the results in the output's plane which has been initialized in step 1.

699

*/

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

700

for(int oz = 0; oz < num_planes_z; ++oz)

701

{

Pablo Tello

2017-07-06 16:43:14 +0100

[diff] [blame]

702

const int zoffset = id.z() + oz;

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

703

uint8_t *p_out_base = out_ptr + oz * output_stride_z;

704

// Step 1

705

{

Pablo Tello

2017-07-06 16:43:14 +0100

[diff] [blame]

706

const auto ptr_k_r0 = reinterpret_cast<const T1 *>(k_ptr + 0 * kernel_stride_z + zoffset * kernel_stride_w + 0 * kernel_stride_y + 0 * kernel_stride_x);

707

const auto ptr_k_r1 = reinterpret_cast<const T1 *>(k_ptr + 0 * kernel_stride_z + zoffset * kernel_stride_w + 1 * kernel_stride_y + 0 * kernel_stride_x);

708

const auto ptr_k_r2 = reinterpret_cast<const T1 *>(k_ptr + 0 * kernel_stride_z + zoffset * kernel_stride_w + 2 * kernel_stride_y + 0 * kernel_stride_x);

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

709

const auto vk_r0 = load_matrix_row(ptr_k_r0);

710

const auto vk_r1 = load_matrix_row(ptr_k_r1);

711

const auto vk_r2 = load_matrix_row(ptr_k_r2);

712

for(ih = 0, oh = 0; oh < output_h; ++oh, ih += conv_stride_y)

713

{

714

auto in_top = reinterpret_cast<const T1 *>(input_ptr + 0 * input_stride_z + (ih + 0) * input_stride_y);

715

auto in_mid = reinterpret_cast<const T1 *>(input_ptr + 0 * input_stride_z + (ih + 1) * input_stride_y);

716

auto in_low = reinterpret_cast<const T1 *>(input_ptr + 0 * input_stride_z + (ih + 2) * input_stride_y);

717

auto p_out = reinterpret_cast<T2 *>(p_out_base + oh * output_stride_y);

718

for(int ow = 0; ow < output_w; ow += num_elems_written_per_iteration,

719

in_top += delta_input, in_mid += delta_input, in_low += delta_input, p_out += num_elems_written_per_iteration)

720

{

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

721

auto vres = convolve_3x3<stridex>(in_top, in_mid, in_low, vk_r0, vk_r1, vk_r2);

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

722

store_results<stridex>(p_out, vres);

}

}

}

// Step 2

for(int p = 1; p < kernel_depth; ++p)

728

{

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

729

const uint8_t *ptr_k_base = k_ptr + p * kernel_stride_z + zoffset * kernel_stride_w;

730

const uint8_t *input_base = input_ptr + p * input_stride_z;

731

const auto ptr_k_r0 = reinterpret_cast<const T1 *>(ptr_k_base);

732

const auto ptr_k_r1 = reinterpret_cast<const T1 *>(ptr_k_base + kernel_stride_y);

733

const auto ptr_k_r2 = reinterpret_cast<const T1 *>(ptr_k_base + kernel_stride_y * 2);

734

const auto vk_r0 = load_matrix_row(ptr_k_r0);

735

const auto vk_r1 = load_matrix_row(ptr_k_r1);

736

const auto vk_r2 = load_matrix_row(ptr_k_r2);

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

737

for(ih = 0, oh = 0; oh < output_h; ++oh, ih += conv_stride_y)

738

{

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

739

auto in_top = reinterpret_cast<const T1 *>(input_base + (ih + 0) * input_stride_y);

740

auto in_mid = reinterpret_cast<const T1 *>(input_base + (ih + 1) * input_stride_y);

741

auto in_low = reinterpret_cast<const T1 *>(input_base + (ih + 2) * input_stride_y);

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

742

auto p_out = reinterpret_cast<T2 *>(p_out_base + oh * output_stride_y);

743

for(int ow = 0; ow < output_w; ow += num_elems_written_per_iteration,

744

in_top += delta_input, in_mid += delta_input, in_low += delta_input, p_out += num_elems_written_per_iteration)

745

{

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

746

auto vres = convolve_3x3<stridex>(in_top, in_mid, in_low, vk_r0, vk_r1, vk_r2);

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

747

accumulate_results<stridex>(p_out, vres);

}

}

}

}

},

in, out);

}

};

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

757

template <typename T1, typename T2, unsigned int stridex>

class convolver_5x5

{

public:

static void convolve(const Window &window, unsigned int num_elems_read_per_iteration, unsigned int num_elems_written_per_iteration,

762

const ITensor *input, const ITensor *weights, ITensor *output, const PadStrideInfo &conv_info)

763

{

764

ARM_COMPUTE_UNUSED(num_elems_read_per_iteration);

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

765

const int input_stride_x = input->info()->strides_in_bytes().x();

766

const int input_stride_y = input->info()->strides_in_bytes().y();

767

const int input_stride_z = input->info()->strides_in_bytes().z();

768

const int output_stride_y = output->info()->strides_in_bytes().y();

769

const int output_stride_z = output->info()->strides_in_bytes().z();

770

const int kernel_stride_x = weights->info()->strides_in_bytes().x();

771

const int kernel_stride_y = weights->info()->strides_in_bytes().y();

772

const int kernel_stride_z = weights->info()->strides_in_bytes().z();

773

const int kernel_stride_w = weights->info()->strides_in_bytes()[3];

774

const int output_w = output->info()->dimension(0);

775

const int output_h = output->info()->dimension(1);

776

const int num_planes_z = window.z().end() - window.z().start();

777

const int delta_input = get_input_num_elems_processed<stridex>(num_elems_written_per_iteration);

778

const int kernel_depth = weights->info()->dimension(Window::DimZ);

779

const unsigned int conv_stride_y = std::get<1>(conv_info.stride());

780

const unsigned int conv_pad_left = conv_info.pad_left();

781

const unsigned int conv_pad_top = conv_info.pad_top();

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

782

783

// setup output window for the iterator

784

Window window_out = window;

785

window_out.set(Window::DimX, Window::Dimension(0, output->info()->dimension(Window::DimX), output->info()->dimension(Window::DimX)));

786

window_out.set(Window::DimY, Window::Dimension(0, output->info()->dimension(Window::DimY), output->info()->dimension(Window::DimY)));

787

window_out.set(Window::DimZ, Window::Dimension(window.z().start(), window.z().end(), num_planes_z));

788

789

// setup input window for the iterator

790

Window window_in = window;

791

// we just want execute_window_loop to iterate over the higher dimensions (>3), so we set the first 3 dimensions to 0

792

window_in.set(Window::DimX, Window::Dimension(0, 0, 0));

793

window_in.set(Window::DimY, Window::Dimension(0, 0, 0));

794

window_in.set(Window::DimZ, Window::Dimension(0, 0, 0));

795

796

Window window_k = calculate_max_window(*weights->info(), Steps(1u));

797

798

Iterator out(output, window_out);

799

Iterator in(input, window_in);

800

Iterator k(weights, window_k);

801

802

const uint8_t *k_ptr = k.ptr();

803

804

execute_window_loop(window_out, [&](const Coordinates & id)

805

{

Georgios Pinitas

2018-02-19 13:58:22 +0000

[diff] [blame]

806

const uint8_t *input_ptr = in.ptr() - conv_pad_left * input_stride_x - conv_pad_top * input_stride_y;

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

807

uint8_t *out_ptr = out.ptr();

808

int ih = 0;

809

int oh = 0;

810

for(int oz = 0; oz < num_planes_z; ++oz)

811

{

812

const int zoffset = id.z() + oz;

813

uint8_t *p_out_base = out_ptr + oz * output_stride_z;

814

// Step 1

815

{

816

const auto ptr_k_r0 = reinterpret_cast<const T1 *>(k_ptr + 0 * kernel_stride_z + zoffset * kernel_stride_w + 0 * kernel_stride_y + 0 * kernel_stride_x);

817

const auto ptr_k_r1 = reinterpret_cast<const T1 *>(k_ptr + 0 * kernel_stride_z + zoffset * kernel_stride_w + 1 * kernel_stride_y + 0 * kernel_stride_x);

818

const auto ptr_k_r2 = reinterpret_cast<const T1 *>(k_ptr + 0 * kernel_stride_z + zoffset * kernel_stride_w + 2 * kernel_stride_y + 0 * kernel_stride_x);

819

const auto ptr_k_r3 = reinterpret_cast<const T1 *>(k_ptr + 0 * kernel_stride_z + zoffset * kernel_stride_w + 3 * kernel_stride_y + 0 * kernel_stride_x);

820

const auto ptr_k_r4 = reinterpret_cast<const T1 *>(k_ptr + 0 * kernel_stride_z + zoffset * kernel_stride_w + 4 * kernel_stride_y + 0 * kernel_stride_x);

821

for(ih = 0, oh = 0; oh < output_h; ++oh, ih += conv_stride_y)

822

{

823

auto in_0 = reinterpret_cast<const T1 *>(input_ptr + 0 * input_stride_z + (ih + 0) * input_stride_y);

824

auto in_1 = reinterpret_cast<const T1 *>(input_ptr + 0 * input_stride_z + (ih + 1) * input_stride_y);

825

auto in_2 = reinterpret_cast<const T1 *>(input_ptr + 0 * input_stride_z + (ih + 2) * input_stride_y);

826

auto in_3 = reinterpret_cast<const T1 *>(input_ptr + 0 * input_stride_z + (ih + 3) * input_stride_y);

827

auto in_4 = reinterpret_cast<const T1 *>(input_ptr + 0 * input_stride_z + (ih + 4) * input_stride_y);

828

auto p_out = reinterpret_cast<T2 *>(p_out_base + oh * output_stride_y);

829

for(int ow = 0; ow < output_w; ow += num_elems_written_per_iteration,

830

in_0 += delta_input, in_1 += delta_input, in_2 += delta_input, in_3 += delta_input, in_4 += delta_input, p_out += num_elems_written_per_iteration)

831

{

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

832

auto vres = convolve_5x5<stridex>(in_0, in_1, in_2, in_3, in_4, ptr_k_r0, ptr_k_r1, ptr_k_r2, ptr_k_r3, ptr_k_r4);

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

833

store_results<stridex>(p_out, vres);

}

}

}

// Step 2

for(int p = 1; p < kernel_depth; ++p)

839

{

840

const auto ptr_k_r0 = reinterpret_cast<const T1 *>(k_ptr + p * kernel_stride_z + zoffset * kernel_stride_w + 0 * kernel_stride_y + 0 * kernel_stride_x);

841

const auto ptr_k_r1 = reinterpret_cast<const T1 *>(k_ptr + p * kernel_stride_z + zoffset * kernel_stride_w + 1 * kernel_stride_y + 0 * kernel_stride_x);

842

const auto ptr_k_r2 = reinterpret_cast<const T1 *>(k_ptr + p * kernel_stride_z + zoffset * kernel_stride_w + 2 * kernel_stride_y + 0 * kernel_stride_x);

843

const auto ptr_k_r3 = reinterpret_cast<const T1 *>(k_ptr + p * kernel_stride_z + zoffset * kernel_stride_w + 3 * kernel_stride_y + 0 * kernel_stride_x);

844

const auto ptr_k_r4 = reinterpret_cast<const T1 *>(k_ptr + p * kernel_stride_z + zoffset * kernel_stride_w + 4 * kernel_stride_y + 0 * kernel_stride_x);

845

846

for(ih = 0, oh = 0; oh < output_h; ++oh, ih += conv_stride_y)

847

{

848

auto in_0 = reinterpret_cast<const T1 *>(input_ptr + p * input_stride_z + (ih + 0) * input_stride_y);

849

auto in_1 = reinterpret_cast<const T1 *>(input_ptr + p * input_stride_z + (ih + 1) * input_stride_y);

850

auto in_2 = reinterpret_cast<const T1 *>(input_ptr + p * input_stride_z + (ih + 2) * input_stride_y);

851

auto in_3 = reinterpret_cast<const T1 *>(input_ptr + p * input_stride_z + (ih + 3) * input_stride_y);

852

auto in_4 = reinterpret_cast<const T1 *>(input_ptr + p * input_stride_z + (ih + 4) * input_stride_y);

853

auto p_out = reinterpret_cast<T2 *>(p_out_base + oh * output_stride_y);

854

for(int ow = 0; ow < output_w; ow += num_elems_written_per_iteration,

855

in_0 += delta_input, in_1 += delta_input, in_2 += delta_input, in_3 += delta_input, in_4 += delta_input, p_out += num_elems_written_per_iteration)

856

{

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

857

auto vres = convolve_5x5<stridex>(in_0, in_1, in_2, in_3, in_4, ptr_k_r0, ptr_k_r1, ptr_k_r2, ptr_k_r3, ptr_k_r4);

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

858

accumulate_results<stridex>(p_out, vres);

}

}

}

}

},

in, out);

}

};

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

868

template <typename T1, typename T2>

869

inline void convolve_1x1(const Window &window, unsigned int num_elems_read_per_iteration, unsigned int num_elems_written_per_iteration,

870

const ITensor *input, const ITensor *weights, ITensor *output, const PadStrideInfo &conv_info)

871

{

872

const unsigned int conv_stride_x = std::get<0>(conv_info.stride());

873

switch(conv_stride_x)

874

{

875

case 1:

876

convolver_1x1<T1, T2, 1>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

877

break;

878

case 2:

879

convolver_1x1<T1, T2, 2>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

880

break;

881

case 3:

882

convolver_1x1<T1, T2, 3>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

883

break;

884

default:

885

ARM_COMPUTE_ERROR("Not implemented");

}

}

Pablo Tello

2017-09-21 13:59:14 +0100

[diff] [blame]

889

template <>

890

inline void convolve_1x1<float, float>(const Window &window, unsigned int num_elems_read_per_iteration, unsigned int num_elems_written_per_iteration,

891

const ITensor *input, const ITensor *weights, ITensor *output, const PadStrideInfo &conv_info)

892

{

893

const unsigned int conv_stride_x = std::get<0>(conv_info.stride());

894

if(run_optim_small_tensor(input))

895

{

896

switch(conv_stride_x)

897

{

898

case 1:

899

convolver_w1x1_i8x8_f32<1>::convolve(window, input, weights, output, conv_info);

900

break;

901

case 2:

902

convolver_w1x1_i8x8_f32<2>::convolve(window, input, weights, output, conv_info);

903

break;

904

case 3:

905

convolver_w1x1_i8x8_f32<3>::convolve(window, input, weights, output, conv_info);

906

break;

907

default:

908

ARM_COMPUTE_ERROR("Not implemented");

}

}

else

{

switch(conv_stride_x)

914

{

915

case 1:

916

convolver_1x1<float, float, 1>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

917

break;

918

case 2:

919

convolver_1x1<float, float, 2>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

920

break;

921

case 3:

922

convolver_1x1<float, float, 3>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

923

break;

924

default:

925

ARM_COMPUTE_ERROR("Not implemented");

}

}

}

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

930

template <typename T1, typename T2>

931

inline void convolve_3x3(const Window &window, unsigned int num_elems_read_per_iteration, unsigned int num_elems_written_per_iteration,

932

const ITensor *input, const ITensor *weights, ITensor *output, const PadStrideInfo &conv_info)

933

{

934

const unsigned int conv_stride_x = std::get<0>(conv_info.stride());

935

switch(conv_stride_x)

936

{

937

case 1:

938

convolver_3x3<T1, T2, 1>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

939

break;

940

case 2:

941

convolver_3x3<T1, T2, 2>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

942

break;

943

case 3:

944

convolver_3x3<T1, T2, 3>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

945

break;

946

default:

947

ARM_COMPUTE_ERROR("Not implemented");

948

}

949

}

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

950

951

template <typename T1, typename T2>

952

inline void convolve_5x5(const Window &window, unsigned int num_elems_read_per_iteration, unsigned int num_elems_written_per_iteration,

953

const ITensor *input, const ITensor *weights, ITensor *output, const PadStrideInfo &conv_info)

954

{

955

const unsigned int conv_stride_x = std::get<0>(conv_info.stride());

956

switch(conv_stride_x)

957

{

958

case 1:

959

convolver_5x5<T1, T2, 1>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

960

break;

961

case 2:

962

convolver_5x5<T1, T2, 2>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

963

break;

964

case 3:

965

convolver_5x5<T1, T2, 3>::convolve(window, num_elems_read_per_iteration, num_elems_written_per_iteration, input, weights, output, conv_info);

966

break;

967

default:

968

ARM_COMPUTE_ERROR("Not implemented");

}

}

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

972

Status validate_arguments(const ITensorInfo *input, const ITensorInfo *weights, const ITensorInfo *output, const PadStrideInfo &conv_info)

973

{

974

ARM_COMPUTE_RETURN_ERROR_ON_NULLPTR(input, weights, output);

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

975

ARM_COMPUTE_RETURN_ERROR_ON(input->data_layout() == DataLayout::UNKNOWN);

Anthony Barbier

eaefd00

2018-07-20 17:49:35 +0100

[diff] [blame]

976

ARM_COMPUTE_RETURN_ERROR_ON_CPU_F16_UNSUPPORTED(input);

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

977

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(input, 1, DataType::F16, DataType::F32);

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

978

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(input, weights);

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

979

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

980

const DataLayout data_layout = input->data_layout();

981

const int width_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::WIDTH);

982

const int height_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::HEIGHT);

983

const int channel_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::CHANNEL);

984

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

985

ARM_COMPUTE_RETURN_ERROR_ON_MSG(std::get<0>(conv_info.stride()) > 3, "Strides larger than 3 not supported.");

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

986

ARM_COMPUTE_RETURN_ERROR_ON(weights->dimension(channel_idx) != input->dimension(channel_idx));

987

ARM_COMPUTE_RETURN_ERROR_ON(weights->dimension(width_idx) != weights->dimension(height_idx));

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

988

ARM_COMPUTE_RETURN_ERROR_ON(weights->num_dimensions() > 4);

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

989

ARM_COMPUTE_RETURN_ERROR_ON(data_layout == DataLayout::NHWC && input->data_type() != DataType::F32);

Gian Marco Iodice

41acb76

2018-08-23 10:25:06 +0100

[diff] [blame]

990

ARM_COMPUTE_RETURN_ERROR_ON((weights->dimension(width_idx) > 3) && (input->data_type() == DataType::F16));

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

991

992

// Checks performed when output is configured

993

if(output->total_size() != 0)

994

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

995

TensorShape output_shape = misc::shape_calculator::compute_deep_convolution_shape(*input, *weights, conv_info);

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

996

997

DataType data_type = input->data_type();

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

998

999

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DIMENSIONS(output->tensor_shape(), output_shape);

1000

ARM_COMPUTE_RETURN_ERROR_ON(output->data_type() != data_type);

}

return Status{};

}

std::pair<Status, Window> validate_and_configure_window(ITensorInfo *input, ITensorInfo *weights, ITensorInfo *output, const PadStrideInfo &conv_info, unsigned int &num_weight_elems_read_per_row,

Georgios Pinitas

0223a78

2017-12-12 11:44:44 +0000

[diff] [blame]

1007

unsigned int &num_elems_read_per_iteration, unsigned int &num_elems_written_per_iteration, BorderSize &border_size)

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1008

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1009

ARM_COMPUTE_ERROR_ON(input->data_layout() == DataLayout::UNKNOWN);

1010

1011

const DataLayout data_layout = input->data_layout();

1012

const int width_idx = get_data_layout_dimension_index(data_layout, DataLayoutDimension::WIDTH);

1013

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1014

// Calculate right and bottom border

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1015

unsigned int kernel_size = weights->dimension(width_idx);

Georgios Pinitas

1d6d211

2018-02-05 17:40:12 +0000

[diff] [blame]

1016

const int conv_stride_x = std::get<0>(conv_info.stride());

Georgios Pinitas

1a03d76

2018-02-21 14:47:09 +0000

[diff] [blame]

1017

const int conv_stride_y = std::get<1>(conv_info.stride());

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1018

const int input_width = input->dimension(width_idx);

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1019

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1020

Window win{};

1021

bool window_changed = false;

1022

1023

if(data_layout == DataLayout::NCHW)

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1024

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1025

switch(kernel_size)

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1026

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1027

case 1:

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1028

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1029

switch(input->data_type())

1030

{

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1031

#ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1032

case DataType::F16:

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1033

num_elems_written_per_iteration = 8;

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1034

break;

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

1035

#endif /* __ARM_FEATURE_FP16_VECTOR_ARITHMETIC */

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1036

case DataType::F32:

1037

if(run_optim_small_tensor_info(input))

1038

{

1039

num_elems_written_per_iteration = 8;

}

else

{

num_elems_written_per_iteration = 4;

}

break;

default:

ARM_COMPUTE_ERROR("Data type not supported.");

1048

break;

1049

}

1050

num_weight_elems_read_per_row = kernel_size;

1051

num_elems_read_per_iteration = conv_stride_x * num_elems_written_per_iteration;

1052

break;

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1053

}

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1054

case 3:

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1055

switch(input->data_type())

1056

{

1057

case DataType::F32:

1058

num_weight_elems_read_per_row = 4 + kernel_size - 1;

1059

num_elems_read_per_iteration = 12;

1060

num_elems_written_per_iteration = 16 >> conv_stride_x;

1061

break;

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1062

#ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1063

case DataType::F16:

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1064

num_weight_elems_read_per_row = 8 + kernel_size - 1;

1065

num_elems_read_per_iteration = 24;

1066

num_elems_written_per_iteration = 32 >> conv_stride_x;

1067

break;

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

1068

#endif /* __ARM_FEATURE_FP16_VECTOR_ARITHMETIC */

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1069

default:

1070

ARM_COMPUTE_ERROR("Data type not supported.");

1071

break;

1072

}

Gian Marco Iodice

41acb76

2018-08-23 10:25:06 +0100

[diff] [blame]

break;

case 5:

{

switch(input->data_type())

1077

{

1078

case DataType::F32:

1079

num_weight_elems_read_per_row = 4 + kernel_size - 1;

1080

num_elems_read_per_iteration = 12;

1081

num_elems_written_per_iteration = 16 >> conv_stride_x;

1082

break;

1083

default:

1084

ARM_COMPUTE_ERROR("Data type not supported.");

1085

break;

1086

}

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

}

break;

default:

{

ARM_COMPUTE_ERROR("Not implemented");

1092

break;

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1093

}

1094

}

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1095

1096

// Calculate right pad

1097

int start_x = kernel_size / 2 - static_cast<int>(conv_info.pad_left());

1098

int end_x = ceil_to_multiple(static_cast<int>(output->dimension(0)), num_elems_written_per_iteration) * conv_stride_x;

1099

int upper_bound_w = ceil_to_multiple(start_x + end_x, num_elems_read_per_iteration) - input_width;

1100

1101

// Calculate border

1102

const unsigned int conv_pad_left = conv_info.pad_left();

1103

const unsigned int conv_pad_top = conv_info.pad_top();

1104

const unsigned int conv_pad_right = std::max(upper_bound_w, 0);

1105

const unsigned int conv_pad_bottom = conv_info.pad_bottom();

1106

1107

border_size.left = conv_pad_left;

1108

border_size.top = conv_pad_top;

1109

border_size.right = conv_pad_right;

1110

border_size.bottom = conv_pad_bottom;

1111

1112

// Configure window

1113

win = calculate_max_window(*output, Steps(num_elems_written_per_iteration));

1114

1115

AccessWindowRectangle input_access(input, -conv_pad_left, -conv_pad_top,

1116

num_elems_read_per_iteration, kernel_size,

1117

conv_stride_x, conv_stride_y);

1118

AccessWindowStatic weights_access(weights, 0, 0, num_weight_elems_read_per_row, kernel_size);

1119

AccessWindowHorizontal output_access(output, 0, num_elems_written_per_iteration);

1120

window_changed = update_window_and_padding(win, input_access, weights_access, output_access);

1121

output_access.set_valid_region(win, ValidRegion(Coordinates(), output->tensor_shape()));

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1122

}

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1123

else

1124

{

1125

border_size.left = 0;

1126

border_size.top = conv_info.pad_left();

1127

border_size.right = 0;

1128

border_size.bottom = conv_info.pad_right();

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1129

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1130

num_elems_read_per_iteration = 16 / element_size_from_data_type(input->data_type());

Georgios Pinitas

1d6d211

2018-02-05 17:40:12 +0000

[diff] [blame]

1131

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1132

win = calculate_max_window(*output, Steps());

Michalis Spyrou

621965e

2018-01-08 17:11:26 +0000

[diff] [blame]

1133

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1134

AccessWindowRectangle input_access(input, 0, -border_size.top, num_elems_read_per_iteration, kernel_size, 1.f, conv_stride_x);

1135

AccessWindowRectangle weights_access(weights, 0, 0, num_elems_read_per_iteration, kernel_size);

1136

window_changed = update_window_and_padding(win, input_access, weights_access);

1137

}

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1138

1139

Status err = (window_changed) ? ARM_COMPUTE_CREATE_ERROR(ErrorCode::RUNTIME_ERROR, "Insufficient Padding!") : Status{};

1140

return std::make_pair(err, win);

1141

}

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1142

} // namespace

1143

1144

NEDirectConvolutionLayerKernel::NEDirectConvolutionLayerKernel()

Georgios Pinitas

898a806

2017-09-12 19:19:12 +0100

[diff] [blame]

1145

: _input(nullptr), _weights(nullptr), _output(nullptr), _conv_info(), _border_size(0), _kernel_size(0), _num_weight_elems_read_per_row(0), _num_elems_read_per_iteration(0),

1146

_num_elems_written_per_iteration(0)

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

{

}

BorderSize NEDirectConvolutionLayerKernel::border_size() const

{

return _border_size;

}

void NEDirectConvolutionLayerKernel::configure(const ITensor *input, const ITensor *weights, ITensor *output, const PadStrideInfo &conv_info)

1156

{

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1157

ARM_COMPUTE_ERROR_ON_NULLPTR(input, weights, output);

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

_input = input;

_weights = weights;

_output = output;

_conv_info = conv_info;

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1163

_kernel_size = weights->info()->dimension(get_data_layout_dimension_index(weights->info()->data_layout(), DataLayoutDimension::WIDTH));

Michalis Spyrou

621965e

2018-01-08 17:11:26 +0000

[diff] [blame]

1164

1165

const unsigned int conv_pad_left = conv_info.pad_left();

1166

const unsigned int conv_pad_top = conv_info.pad_top();

1167

const unsigned int conv_pad_right = conv_info.pad_right();

1168

const unsigned int conv_pad_bottom = conv_info.pad_bottom();

1169

_border_size = BorderSize(conv_pad_top, conv_pad_right, conv_pad_bottom, conv_pad_left);

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1170

Gian Marco Iodice

2017-08-08 10:53:00 +0100

[diff] [blame]

1171

// Get convolved dimensions

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1172

TensorShape output_shape = misc::shape_calculator::compute_deep_convolution_shape(*input->info(), *weights->info(), conv_info);

Gian Marco Iodice

2017-08-08 10:53:00 +0100

[diff] [blame]

1173

1174

DataType data_type = input->info()->data_type();

1175

Gian Marco Iodice

2017-08-08 10:53:00 +0100

[diff] [blame]

1176

// Output auto inizialitation if not yet initialized

Vidhya Sudhan Loganathan

2018-07-04 09:34:00 +0100

[diff] [blame]

1177

auto_init_if_empty(*output->info(), output_shape, 1, data_type);

Gian Marco Iodice

2017-08-08 10:53:00 +0100

[diff] [blame]

1178

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1179

// Perform validation step

1180

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(input->info(), weights->info(), output->info(), conv_info));

Gian Marco Iodice

2017-08-08 10:53:00 +0100

[diff] [blame]

1181

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1182

// Configure kernel window

1183

auto win_config = validate_and_configure_window(input->info(), weights->info(), output->info(), conv_info, _num_weight_elems_read_per_row,

Georgios Pinitas

0223a78

2017-12-12 11:44:44 +0000

[diff] [blame]

1184

_num_elems_read_per_iteration, _num_elems_written_per_iteration, _border_size);

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1185

ARM_COMPUTE_ERROR_THROW_ON(win_config.first);

1186

INEKernel::configure(win_config.second);

1187

}

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1188

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1189

Status NEDirectConvolutionLayerKernel::validate(const ITensorInfo *input, const ITensorInfo *weights, const ITensorInfo *output, const PadStrideInfo &conv_info)

1190

{

1191

unsigned int num_weight_elems_read_per_row = 0;

1192

unsigned int num_elems_read_per_iteration = 0;

1193

unsigned int num_elems_written_per_iteration = 0;

Georgios Pinitas

2018-02-19 13:58:22 +0000

[diff] [blame]

1194

BorderSize border_size = {};

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1195

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(input, weights, output, conv_info));

Georgios Pinitas

0223a78

2017-12-12 11:44:44 +0000

[diff] [blame]

1196

ARM_COMPUTE_RETURN_ON_ERROR(validate_and_configure_window(input->clone().get(),

1197

weights->clone().get(),

1198

output->clone().get(),

1199

conv_info,

1200

num_weight_elems_read_per_row,

1201

num_elems_read_per_iteration,

1202

num_elems_written_per_iteration,

1203

border_size)

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1204

.first);

Georgios Pinitas

898a806

2017-09-12 19:19:12 +0100

[diff] [blame]

1205

Michalis Spyrou

2017-11-30 14:25:57 +0000

[diff] [blame]

1206

return Status{};

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1207

}

1208

Moritz Pflanzer

c186b57

2017-09-07 09:48:04 +0100

[diff] [blame]

1209

void NEDirectConvolutionLayerKernel::run(const Window &window, const ThreadInfo &info)

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1210

{

Moritz Pflanzer

c186b57

2017-09-07 09:48:04 +0100

[diff] [blame]

1211

ARM_COMPUTE_UNUSED(info);

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1212

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

1213

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(INEKernel::window(), window);

1214

ARM_COMPUTE_ERROR_ON(_input->buffer() == nullptr);

1215

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1216

const int kernel_size = _weights->info()->dimension(get_data_layout_dimension_index(_weights->info()->data_layout(), DataLayoutDimension::WIDTH));

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1217

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1218

if(_input->info()->data_layout() == DataLayout::NCHW)

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1219

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1220

switch(kernel_size)

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1221

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1222

case 1:

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1223

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1224

switch(_input->info()->data_type())

1225

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1226

case DataType::F32:

1227

convolve_1x1<float, float>(window, _num_elems_read_per_iteration, _num_elems_written_per_iteration, _input, _weights, _output, _conv_info);

1228

break;

Ioan-Cristian Szabo

2017-11-13 13:34:08 +0000

[diff] [blame]

1229

#ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1230

case DataType::F16:

1231

convolve_1x1<float16_t, float16_t>(window, _num_elems_read_per_iteration, _num_elems_written_per_iteration, _input, _weights, _output, _conv_info);

1232

break;

Ioan-Cristian Szabo

2017-11-13 13:34:08 +0000

[diff] [blame]

1233

#endif /* __ARM_FEATURE_FP16_VECTOR_ARITHMETIC */

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1234

default:

1235

ARM_COMPUTE_ERROR("Data type not supported");

1236

break;

1237

}

1238

break;

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1239

}

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1240

case 3:

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1241

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1242

switch(_input->info()->data_type())

1243

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1244

case DataType::F32:

1245

convolve_3x3<float, float>(window, _num_elems_read_per_iteration, _num_elems_written_per_iteration, _input, _weights, _output, _conv_info);

1246

break;

Ioan-Cristian Szabo

2017-11-13 13:34:08 +0000

[diff] [blame]

1247

#ifdef __ARM_FEATURE_FP16_VECTOR_ARITHMETIC

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1248

case DataType::F16:

1249

convolve_3x3<float16_t, float16_t>(window, _num_elems_read_per_iteration, _num_elems_written_per_iteration, _input, _weights, _output, _conv_info);

1250

break;

Ioan-Cristian Szabo

2017-11-13 13:34:08 +0000

[diff] [blame]

1251

#endif /* __ARM_FEATURE_FP16_VECTOR_ARITHMETIC */

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1252

default:

1253

ARM_COMPUTE_ERROR("Data type not supported");

1254

break;

1255

}

1256

break;

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1257

}

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1258

case 5:

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

1259

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1260

switch(_input->info()->data_type())

1261

{

1262

case DataType::F32:

1263

convolve_5x5<float, float>(window, _num_elems_read_per_iteration, _num_elems_written_per_iteration, _input, _weights, _output, _conv_info);

1264

break;

1265

default:

1266

ARM_COMPUTE_ERROR("Data type not supported");

1267

break;

1268

}

1269

break;

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

1270

}

Pablo Tello

2017-08-10 15:10:40 +0100

[diff] [blame]

1271

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1272

default:

1273

{

1274

ARM_COMPUTE_ERROR("Only kernel sizes 1x1, 3x3 and 5x5 are supported.");

break;

}

}

}

else

{

switch(_input->info()->data_type())

Anthony Barbier

2017-09-04 18:44:23 +0100

[diff] [blame]

1282

{

Giorgio Arena

2018-03-16 14:02:34 +0000

[diff] [blame]

1283

case DataType::F32:

1284

convolver_nhwc<float>::convolve(window, kernel_size, _num_elems_read_per_iteration, _input, _weights, _output, _conv_info);

1285

break;

1286

default:

1287

ARM_COMPUTE_ERROR("Data type not supported");

1288

break;

Anthony Barbier