Blame - src/core/NEON/kernels/NEPoolingLayerKernel.cpp - ml/ComputeLibrary

_func = (PoolingType::AVG == pool_type) ? &NEPoolingLayerKernel::pooling2_q8<PoolingType::AVG> : &NEPoolingLayerKernel::pooling2_q8<PoolingType::MAX>;

156

}

157

else if(input->info()->data_type() == DataType::F32)

158

{

159

_func = (PoolingType::AVG == pool_type) ? &NEPoolingLayerKernel::pooling2_f32<PoolingType::AVG> : &NEPoolingLayerKernel::pooling2_f32<PoolingType::MAX>;

}

break;

case 3:

if(input->info()->data_type() == DataType::QS8)

164

{

165

_func = (PoolingType::AVG == pool_type) ? &NEPoolingLayerKernel::pooling3_q8<PoolingType::AVG> : &NEPoolingLayerKernel::pooling3_q8<PoolingType::MAX>;

166

}

167

else if(input->info()->data_type() == DataType::F32)

168

{

169

_func = (PoolingType::AVG == pool_type) ? &NEPoolingLayerKernel::pooling3_f32<PoolingType::AVG> : &NEPoolingLayerKernel::pooling3_f32<PoolingType::MAX>;

}

break;

default:

ARM_COMPUTE_ERROR("Unsupported pooling size");

break;

}

// Configure kernel window

178

Window win = calculate_max_window(*output->info(), Steps(num_elems_processed_per_iteration));

179

AccessWindowStatic input_access(input->info(), -pool_pad_x, -pool_pad_y, input_width + _border_size.right, input_height + _border_size.bottom);

180

AccessWindowHorizontal output_access(output->info(), 0, num_elems_horizontal_window);

181

update_window_and_padding(win, input_access, output_access);

182

output_access.set_valid_region(win, ValidRegion(Coordinates(), output->info()->tensor_shape()));

183

INEKernel::configure(win);

184

}

185

186

template <PoolingType pooling_type>

187

void NEPoolingLayerKernel::pooling2_q8(const Window &window_input, const Window &window)

188

{

189

Iterator input(_input, window_input);

190

Iterator output(_output, window);

191

192

const int fixed_point_position = _input->info()->fixed_point_position();

193

constexpr int pool_size = 2;

194

int pool_pad_x = 0;

195

int pool_pad_y = 0;

196

int pool_stride_x = 0;

197

int pool_stride_y = 0;

198

std::tie(pool_pad_x, pool_pad_y) = _pool_info.pad_stride_info().pad();

199

std::tie(pool_stride_x, pool_stride_y) = _pool_info.pad_stride_info().stride();

200

const int upper_bound_w = _input->info()->dimension(0) + pool_pad_x;

201

const int upper_bound_h = _input->info()->dimension(1) + pool_pad_y;

202

203

const uint8_t *const input_top_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y)));

204

const uint8_t *const input_bottom_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y) + 1));

205

206

execute_window_loop(window, [&](const Coordinates & id)

207

{

208

const auto top_data = vld1q_qs8(reinterpret_cast<const qint8_t *>(input_top_ptr + input.offset()));

209

const auto bottom_data = vld1q_qs8(reinterpret_cast<const qint8_t *>(input_bottom_ptr + input.offset()));

210

qint8x8_t res = {};

211

if(pooling_type == PoolingType::AVG)

212

{

213

// Calculate scale

214

const qint8_t scale = calculate_avg_scale_q8(id, pool_size, upper_bound_w, upper_bound_h, pool_pad_x, pool_pad_y, pool_stride_x, pool_stride_y, fixed_point_position);

215

const qint8x8_t scale_vec = vdup_n_qs8(scale);

216

217

// Perform pooling

218

const qint8x16_t sum_data = vqaddq_qs8(top_data, bottom_data);

219

res = vqmul_qs8(vpadd_s8(vget_low_s8(sum_data), vget_high_s8(sum_data)), scale_vec, fixed_point_position);

}

else

{

const qint8x16_t max_data = vmaxq_s8(top_data, bottom_data);

224

res = vpmax_s8(vget_low_s8(max_data), vget_high_s8(max_data));

225

}

226

vst1_qs8(reinterpret_cast<qint8_t *>(output.ptr()), res);

},

input, output);

}

template <PoolingType pooling_type>

232

void NEPoolingLayerKernel::pooling2_f32(const Window &window_input, const Window &window)

233

{

234

Iterator input(_input, window_input);

235

Iterator output(_output, window);

236

237

constexpr int pool_size = 2;

238

int pool_pad_x, pool_pad_y, pool_stride_x, pool_stride_y = 0;

239

std::tie(pool_pad_x, pool_pad_y) = _pool_info.pad_stride_info().pad();

240

std::tie(pool_stride_x, pool_stride_y) = _pool_info.pad_stride_info().stride();

241

const int upper_bound_w = _input->info()->dimension(0) + pool_pad_x;

242

const int upper_bound_h = _input->info()->dimension(1) + pool_pad_y;

243

244

const unsigned char *const input_top_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y)));

245

const unsigned char *const input_bottom_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y) + 1));

246

247

execute_window_loop(window, [&](const Coordinates & id)

248

{

249

const float32x2_t top_data = vld1_f32(reinterpret_cast<const float *>(input_top_ptr + input.offset()));

250

const float32x2_t bottom_data = vld1_f32(reinterpret_cast<const float *>(input_bottom_ptr + input.offset()));

251

float32x2_t res = {};

252

if(pooling_type == PoolingType::AVG)

253

{

254

// Calculate scale

255

float scale = calculate_avg_scale(id, pool_size, upper_bound_w, upper_bound_h, pool_pad_x, pool_pad_y, pool_stride_x, pool_stride_y);

256

const float32x2_t scale_v = vdup_n_f32(scale);

257

258

// Perform pooling

259

const float32x2_t sum_data = vadd_f32(top_data, bottom_data);

260

res = vmul_f32(vpadd_f32(sum_data, sum_data), scale_v);

}

else

{

const float32x2_t max_data = vmax_f32(top_data, bottom_data);

265

res = vpmax_f32(max_data, max_data);

266

}

267

*(reinterpret_cast<float *>(output.ptr())) = vget_lane_f32(res, 0);

},

input, output);

}

template <PoolingType pooling_type>

273

void NEPoolingLayerKernel::pooling3_q8(const Window &window_input, const Window &window)

274

{

275

Iterator input(_input, window_input);

276

Iterator output(_output, window);

277

278

const int fixed_point_position = _input->info()->fixed_point_position();

279

constexpr int pool_size = 3;

280

int pool_pad_x = 0;

281

int pool_pad_y = 0;

282

int pool_stride_x = 0;

283

int pool_stride_y = 0;

284

std::tie(pool_pad_x, pool_pad_y) = _pool_info.pad_stride_info().pad();

285

std::tie(pool_stride_x, pool_stride_y) = _pool_info.pad_stride_info().stride();

286

const int upper_bound_w = _input->info()->dimension(0) + pool_pad_x;

287

const int upper_bound_h = _input->info()->dimension(1) + pool_pad_y;

288

289

const uint8_t *const input_top_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y)));

290

const uint8_t *const input_middle_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y) + 1));

291

const uint8_t *const input_bottom_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y) + 2));

292

293

execute_window_loop(window, [&](const Coordinates & id)

294

{

295

const auto top_data = vld1q_qs8(reinterpret_cast<const qint8_t *>(input_top_ptr + input.offset()));

296

const auto middle_data = vld1q_qs8(reinterpret_cast<const qint8_t *>(input_middle_ptr + input.offset()));

297

const auto bottom_data = vld1q_qs8(reinterpret_cast<const qint8_t *>(input_bottom_ptr + input.offset()));

298

qint8x8_t res = {};

299

if(pooling_type == PoolingType::AVG)

300

{

301

// Calculate scale

302

const qint8_t scale = calculate_avg_scale_q8(id, pool_size, upper_bound_w, upper_bound_h, pool_pad_x, pool_pad_y, pool_stride_x, pool_stride_y, fixed_point_position);

303

const qint8x8_t scale_vec = vdup_n_qs8(scale);

304

305

// Perform pooling for stride 2

306

const qint8x16_t sum_data = vqaddq_qs8(vqaddq_qs8(top_data, bottom_data), middle_data);

307

const qint8x16_t sum_data2 = vextq_s8(sum_data, sum_data, 1);

308

const qint8x16_t sum_data3 = vextq_s8(sum_data, sum_data, 2);

309

const qint8x16_t final_sum = vqaddq_qs8(vqaddq_qs8(sum_data, sum_data2), sum_data3);

310

if(pool_stride_x == 2)

311

{

312

const qint8x8x2_t table = { { vget_low_s8(final_sum), vget_high_s8(final_sum) } };

313

static const qint8x8_t lookup_val = { 0, 2, 4, 6, 8, 10, 12, 14 };

314

res = vtbl2_s8(table, lookup_val);

}

else

{

res = vget_low_s8(final_sum);

319

}

320

res = vqmul_qs8(res, scale_vec, fixed_point_position);

}

else

{

const qint8x16_t max_data = vmaxq_s8(vmaxq_s8(top_data, bottom_data), middle_data);

325

const qint8x16_t max_data2 = vextq_s8(max_data, max_data, 1);

326

const qint8x16_t max_data3 = vextq_s8(max_data, max_data, 2);

327

const qint8x16_t final_max = vmaxq_s8(vmaxq_s8(max_data, max_data2), max_data3);

328

329

if(pool_stride_x == 2)

330

{

331

const qint8x8x2_t table = { { vget_low_s8(final_max), vget_high_s8(final_max) } };

332

static const qint8x8_t lookup_val = { 0, 2, 4, 6, 8, 10, 12, 14 };

333

res = vtbl2_s8(table, lookup_val);

}

else

{

res = vget_low_s8(final_max);

338

}

339

}

340

vst1_qs8(reinterpret_cast<qint8_t *>(output.ptr()), res);

},

input, output);

}

template <PoolingType pooling_type>

346

void NEPoolingLayerKernel::pooling3_f32(const Window &window_input, const Window &window)

347

{

348

Iterator input(_input, window_input);

349

Iterator output(_output, window);

350

351

constexpr const int pool_size = 3;

352

int pool_pad_x, pool_pad_y, pool_stride_x, pool_stride_y = 0;

353

std::tie(pool_pad_x, pool_pad_y) = _pool_info.pad_stride_info().pad();

354

std::tie(pool_stride_x, pool_stride_y) = _pool_info.pad_stride_info().stride();

355

const int upper_bound_w = _input->info()->dimension(0) + pool_pad_x;

356

const int upper_bound_h = _input->info()->dimension(1) + pool_pad_y;

357

358

const unsigned char *const input_top_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y)));

359

const unsigned char *const input_middle_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y) + 1));

360

const unsigned char *const input_bottom_ptr = _input->ptr_to_element(Coordinates(-static_cast<int>(pool_pad_x), -static_cast<int>(pool_pad_y) + 2));

361

362

execute_window_loop(window, [&](const Coordinates & id)

363

{

364

const float32x4_t top_data = vld1q_f32(reinterpret_cast<const float *>(input_top_ptr + input.offset()));

365

const float32x4_t middle_data = vld1q_f32(reinterpret_cast<const float *>(input_middle_ptr + input.offset()));

366

const float32x4_t bottom_data = vld1q_f32(reinterpret_cast<const float *>(input_bottom_ptr + input.offset()));

367

float32x2_t res = {};

368

if(pooling_type == PoolingType::AVG)

369

{

370

// Calculate scale

371

float scale = calculate_avg_scale(id, pool_size, upper_bound_w, upper_bound_h, pool_pad_x, pool_pad_y, pool_stride_x, pool_stride_y);

372

const float32x2_t scale_v = vdup_n_f32(scale);

373

374

// Perform pooling

375

const float32x4_t sum_data = vaddq_f32(vaddq_f32(top_data, bottom_data), middle_data);

376

res = vpadd_f32(vget_high_f32(vsetq_lane_f32(0.f, sum_data, 3)), vget_low_f32(sum_data));

377

res = vmul_f32(vpadd_f32(res, res), scale_v);

}

else

{

const float32x4_t max_data = vmaxq_f32(vmaxq_f32(top_data, bottom_data), middle_data);

382

res = vpmax_f32(vget_high_f32(vsetq_lane_f32(-std::numeric_limits<float>::max(), max_data, 3)), vget_low_f32(max_data));

383

res = vpmax_f32(res, res);

384

}

385

*(reinterpret_cast<float *>(output.ptr())) = vget_lane_f32(res, 0);

},

input, output);

}

void NEPoolingLayerKernel::run(const Window &window)

391

{

392

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

393

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(INEKernel::window(), window);

394

ARM_COMPUTE_ERROR_ON(_func == nullptr);

395

396

unsigned int pool_stride_x, pool_stride_y = 0;

397

std::tie(pool_stride_x, pool_stride_y) = _pool_info.pad_stride_info().stride();

398

399

// Set step for input in x and y direction for the input

400

Window window_input(window);

401

unsigned int window_x_inc = 0;

402

if(_input->info()->data_type() == DataType::QS8)

403

{

404

window_x_inc = (pool_stride_x == 2) ? _num_elems_processed_per_iteration * 2 : _num_elems_processed_per_iteration;

}

else

{

window_x_inc = pool_stride_x;

409

}

410

window_input.set(Window::DimX, Window::Dimension(window.x().start() * pool_stride_x, window.x().end() * pool_stride_x, window_x_inc));

411

window_input.set(Window::DimY, Window::Dimension(window.y().start() * pool_stride_y, window.y().end() * pool_stride_y, pool_stride_y));

412

413

// Run function

414

(this->*_func)(window_input, window);

415

}