Blame - src/core/NEON/kernels/NEGEMMLowpOffsetContributionKernel.cpp - ml/ComputeLibrary

2018-11-08 10:22:01 +0000

[diff] [blame]

138

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

139

const int32x4_t b_offset_term_s32_vec = vdupq_n_s32(b_offset_term_s32);

140

141

int x = window_start_x;

Michalis Spyrou

c226853

2020-10-09 11:52:10 +0100

[diff] [blame^]

142

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

143

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

144

// Compute the leftover term due to a_offset.

145

int32x4x4_t a_offset_term_s32 =

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

146

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

147

{

148

vld1q_s32(vector_sum_col_ptr + x + 0),

149

vld1q_s32(vector_sum_col_ptr + x + 4),

150

vld1q_s32(vector_sum_col_ptr + x + 8),

151

vld1q_s32(vector_sum_col_ptr + x + 12)

152

}

153

};

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

154

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

155

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], a_offset);

156

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], a_offset);

157

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], a_offset);

158

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], a_offset);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

159

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

160

// Add a_offset_term_s32 and b_offset_term_s32

161

int32x4x4_t offset_term_s32 =

162

{

163

{

164

vdupq_n_s32(k_offset),

165

vdupq_n_s32(k_offset),

166

vdupq_n_s32(k_offset),

167

vdupq_n_s32(k_offset)

}

};

offset_term_s32.val[0] = vaddq_s32(offset_term_s32.val[0], vaddq_s32(a_offset_term_s32.val[0], b_offset_term_s32_vec));

172

offset_term_s32.val[1] = vaddq_s32(offset_term_s32.val[1], vaddq_s32(a_offset_term_s32.val[1], b_offset_term_s32_vec));

173

offset_term_s32.val[2] = vaddq_s32(offset_term_s32.val[2], vaddq_s32(a_offset_term_s32.val[2], b_offset_term_s32_vec));

174

offset_term_s32.val[3] = vaddq_s32(offset_term_s32.val[3], vaddq_s32(a_offset_term_s32.val[3], b_offset_term_s32_vec));

int32x4x4_t in_s32 =

{

{

vld1q_s32(mm_result_ptr + x + 0),

180

vld1q_s32(mm_result_ptr + x + 4),

181

vld1q_s32(mm_result_ptr + x + 8),

182

vld1q_s32(mm_result_ptr + x + 12)

}

};

// Add the offset terms to GEMM's result

187

in_s32.val[0] = vaddq_s32(in_s32.val[0], offset_term_s32.val[0]);

188

in_s32.val[1] = vaddq_s32(in_s32.val[1], offset_term_s32.val[1]);

189

in_s32.val[2] = vaddq_s32(in_s32.val[2], offset_term_s32.val[2]);

190

in_s32.val[3] = vaddq_s32(in_s32.val[3], offset_term_s32.val[3]);

191

192

// Store the result with the offset contribution

193

vst1q_s32(mm_result_ptr + x + 0, in_s32.val[0]);

194

vst1q_s32(mm_result_ptr + x + 4, in_s32.val[1]);

195

vst1q_s32(mm_result_ptr + x + 8, in_s32.val[2]);

196

vst1q_s32(mm_result_ptr + x + 12, in_s32.val[3]);

}

// Left-overs loop

for(; x < window_end_x; ++x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

201

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

202

// Compute the leftover term due to a_offset.

203

int32_t a_offset_term_s32 = *(vector_sum_col_ptr + x);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

204

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

205

a_offset_term_s32 *= a_offset;

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

206

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

207

// Add the offset terms to GEMM's result

208

// Store the result with the offset contribution

209

mm_result_ptr[x] += k_offset + a_offset_term_s32 + b_offset_term_s32;

210

}

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

211

},

212

vector_sum_col_it, vector_sum_row_it, mm_result_it);

213

}

214

else if((a_offset == 0) && (b_offset != 0) && (vector_sum_row != nullptr)) // false, true

215

{

216

ARM_COMPUTE_ERROR_ON_NULLPTR(vector_sum_row);

217

218

// Set window for vector_sum_row

219

Window win_vector_sum_row(collapsed_window);

220

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

221

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

222

win_vector_sum_row.set(Window::DimZ, Window::Dimension(0, 0, 0));

223

224

Iterator vector_sum_row_it(vector_sum_row, win_vector_sum_row);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

225

226

const size_t sum_row_stride_y = vector_sum_row->info()->strides_in_bytes().y();

227

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

228

execute_window_loop(collapsed_window, [&](const Coordinates & id)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

229

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

230

const int batch_id = id.z() / depth_input;

231

auto mm_result_ptr = reinterpret_cast<int32_t *>(mm_result_it.ptr());

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

232

233

// Compute the leftover term due to b_offset.

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

234

int32_t b_offset_term_s32 = *(reinterpret_cast<const int32_t *>(vector_sum_row_it.ptr() + batch_id * sum_row_stride_y) + id.y() + (id.z() % depth_input) * height_input);

235

b_offset_term_s32 *= b_offset;

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

236

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

237

const int32x4_t b_offset_term_s32_vec = vdupq_n_s32(b_offset_term_s32);

238

239

int x = window_start_x;

Michalis Spyrou

c226853

2020-10-09 11:52:10 +0100

[diff] [blame^]

240

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

241

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

242

int32x4x4_t in_s32 =

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

243

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

244

{

245

vld1q_s32(mm_result_ptr + x + 0),

246

vld1q_s32(mm_result_ptr + x + 4),

247

vld1q_s32(mm_result_ptr + x + 8),

248

vld1q_s32(mm_result_ptr + x + 12)

249

}

250

};

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

251

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

252

// Add the offset terms to GEMM's result

253

in_s32.val[0] = vaddq_s32(in_s32.val[0], b_offset_term_s32_vec);

254

in_s32.val[1] = vaddq_s32(in_s32.val[1], b_offset_term_s32_vec);

255

in_s32.val[2] = vaddq_s32(in_s32.val[2], b_offset_term_s32_vec);

256

in_s32.val[3] = vaddq_s32(in_s32.val[3], b_offset_term_s32_vec);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

257

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

258

// Store the result with the offset contribution

259

vst1q_s32(mm_result_ptr + x + 0, in_s32.val[0]);

260

vst1q_s32(mm_result_ptr + x + 4, in_s32.val[1]);

261

vst1q_s32(mm_result_ptr + x + 8, in_s32.val[2]);

262

vst1q_s32(mm_result_ptr + x + 12, in_s32.val[3]);

}

// Left-overs loop

for(; x < window_end_x; ++x)

267

{

268

// Add the offset terms to GEMM's result

269

// Store the result with the offset contribution

270

mm_result_ptr[x] += b_offset_term_s32;

271

}

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

272

},

273

vector_sum_row_it, mm_result_it);

274

}

275

else if((a_offset != 0) && (b_offset == 0) && (vector_sum_col != nullptr)) // true, false

276

{

277

// Set window for vector_sum_col

278

Window win_vector_sum_col(collapsed_window);

279

win_vector_sum_col.set(Window::DimY, Window::Dimension(0, 0, 0));

280

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

281

282

Iterator vector_sum_col_it(vector_sum_col, win_vector_sum_col);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

283

284

// Offset in case vector_sum_col is batched

285

const int vector_sum_col_batch_offset = slide_vector_sum_col ? vector_sum_col->info()->strides_in_bytes().z() : 0;

286

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

287

execute_window_loop(collapsed_window, [&](const Coordinates & id)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

288

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

289

const int batch_id = id.z() / depth_input;

290

auto vector_sum_col_ptr = reinterpret_cast<const int32_t *>(vector_sum_col_it.ptr() + batch_id * vector_sum_col_batch_offset);

291

auto mm_result_ptr = reinterpret_cast<int32_t *>(mm_result_it.ptr());

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

292

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

293

int x = window_start_x;

Michalis Spyrou

c226853

2020-10-09 11:52:10 +0100

[diff] [blame^]

294

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

295

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

296

// Compute the leftover term due to a_offset.

297

int32x4x4_t a_offset_term_s32 =

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

298

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

299

{

300

vld1q_s32(vector_sum_col_ptr + x + 0),

301

vld1q_s32(vector_sum_col_ptr + x + 4),

302

vld1q_s32(vector_sum_col_ptr + x + 8),

303

vld1q_s32(vector_sum_col_ptr + x + 12)

304

}

305

};

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

306

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

307

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], a_offset);

308

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], a_offset);

309

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], a_offset);

310

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], a_offset);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

311

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

int32x4x4_t in_s32 =

{

{

vld1q_s32(mm_result_ptr + x + 0),

316

vld1q_s32(mm_result_ptr + x + 4),

317

vld1q_s32(mm_result_ptr + x + 8),

318

vld1q_s32(mm_result_ptr + x + 12)

}

};

// Add the offset terms to GEMM's result

323

in_s32.val[0] = vaddq_s32(in_s32.val[0], a_offset_term_s32.val[0]);

324

in_s32.val[1] = vaddq_s32(in_s32.val[1], a_offset_term_s32.val[1]);

325

in_s32.val[2] = vaddq_s32(in_s32.val[2], a_offset_term_s32.val[2]);

326

in_s32.val[3] = vaddq_s32(in_s32.val[3], a_offset_term_s32.val[3]);

327

328

// Store the result with the offset contribution

329

vst1q_s32(mm_result_ptr + x + 0, in_s32.val[0]);

330

vst1q_s32(mm_result_ptr + x + 4, in_s32.val[1]);

331

vst1q_s32(mm_result_ptr + x + 8, in_s32.val[2]);

332

vst1q_s32(mm_result_ptr + x + 12, in_s32.val[3]);

}

// Left-overs loop

for(; x < window_end_x; ++x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

337

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

338

// Compute the leftover term due to a_offset.

339

const int32_t a_offset_term_s32 = *(vector_sum_col_ptr + x);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

340

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

341

// Add the offset terms to GEMM's result

342

// Store the result with the offset contribution

343

mm_result_ptr[x] += a_offset_term_s32 * a_offset;

344

}

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

345

},

346

vector_sum_col_it, mm_result_it);

}

else // false, false

{

// No offset contribution from matrix A and matrix B

351

return;

352

}

353

}

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

354

} // namespace

355

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

356

NEGEMMLowpOffsetContributionKernel::NEGEMMLowpOffsetContributionKernel()

357

: _vector_sum_col(nullptr), _vector_sum_row(nullptr), _mm_result(nullptr), _a_offset(0), _b_offset(0), _k_offset(0), _slide_vector_sum_col(true)

{

}

void NEGEMMLowpOffsetContributionKernel::configure(ITensor *mm_result, const ITensor *vector_sum_col, const ITensor *vector_sum_row, int32_t k, int32_t a_offset, int32_t b_offset)

362

{

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

363

// Perform validate step

364

ARM_COMPUTE_ERROR_ON_NULLPTR(mm_result);

365

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(mm_result->info(),

366

vector_sum_col != nullptr ? vector_sum_col->info() : nullptr, // NOLINT

367

vector_sum_row != nullptr ? vector_sum_row->info() : nullptr, // NOLINT

368

a_offset, b_offset)); // NOLINT

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

369

370

_vector_sum_col = vector_sum_col;

371

_vector_sum_row = vector_sum_row;

372

_mm_result = mm_result;

373

_a_offset = a_offset;

374

_b_offset = b_offset;

375

_k_offset = a_offset * b_offset * k;

376

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

377

// If a_offset == 0, vector_sum_col can be a nullptr

378

if(a_offset != 0)

379

{

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

380

// Check if vector_sum_col_shape should be slidden or not

381

// Don't slide vector_sum_col_shape along the y dimension if vector_sum_col_shape has just 1 dimension and vector_sum_row_shape more than 1

382

// This scenario can happen when the the matrix multiplication is used to perform a convolution operation

Isabella Gottardi

e6630e4

2018-01-18 15:50:39 +0000

[diff] [blame]

383

_slide_vector_sum_col = vector_sum_col->info()->tensor_shape().num_dimensions() > 1;

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

384

}

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

385

386

// Configure kernel window

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

387

Window win = calculate_max_window(*mm_result->info(), Steps());

388

Coordinates coord;

389

coord.set_num_dimensions(mm_result->info()->num_dimensions());

390

mm_result->info()->set_valid_region(ValidRegion(coord, mm_result->info()->tensor_shape()));

391

INEKernel::configure(win);

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

392

}

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

393

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

394

Status NEGEMMLowpOffsetContributionKernel::validate(const ITensorInfo *mm_result, const ITensorInfo *vector_sum_col, const ITensorInfo *vector_sum_row,

395

int32_t a_offset, int32_t b_offset)

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

396

{

397

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(mm_result, vector_sum_col, vector_sum_row, a_offset, b_offset));

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

398

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

399

return Status{};

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

400

}

401

402

void NEGEMMLowpOffsetContributionKernel::run(const Window &window, const ThreadInfo &info)

403

{

404

ARM_COMPUTE_UNUSED(info);

405

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

406

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(INEKernel::window(), window);

407

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

408

// Check if input is a 3D reinterpretation

409

const bool reinterpret_as_3d = _vector_sum_row != nullptr

410

&& _mm_result->info()->num_dimensions() > 1

411

&& _mm_result->info()->tensor_shape().y() != _vector_sum_row->info()->tensor_shape().x();

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

412

Michalis Spyrou

0028d7c

2020-06-22 13:45:17 +0100

[diff] [blame]

413

run_offset_contribution(window, _mm_result, _vector_sum_col, _vector_sum_row, _a_offset, _b_offset, _k_offset, _slide_vector_sum_col, reinterpret_as_3d);

414

}

Michele Di Giorgio