Blame - src/cpu/kernels/CpuGemmLowpOffsetContributionKernel.cpp - ml/ComputeLibrary

2018-11-08 10:22:01 +0000

[diff] [blame]

143

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

144

const int32x4_t b_offset_term_s32_vec = vdupq_n_s32(b_offset_term_s32);

145

146

int x = window_start_x;

Michalis Spyrou

c226853

2020-10-09 11:52:10 +0100

[diff] [blame]

147

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

148

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

149

// Compute the leftover term due to a_offset.

150

int32x4x4_t a_offset_term_s32 =

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

151

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

152

{

153

vld1q_s32(vector_sum_col_ptr + x + 0),

154

vld1q_s32(vector_sum_col_ptr + x + 4),

155

vld1q_s32(vector_sum_col_ptr + x + 8),

156

vld1q_s32(vector_sum_col_ptr + x + 12)

157

}

158

};

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

159

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

160

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], a_offset);

161

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], a_offset);

162

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], a_offset);

163

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], a_offset);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

164

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

165

// Add a_offset_term_s32 and b_offset_term_s32

166

int32x4x4_t offset_term_s32 =

167

{

168

{

169

vdupq_n_s32(k_offset),

170

vdupq_n_s32(k_offset),

171

vdupq_n_s32(k_offset),

172

vdupq_n_s32(k_offset)

}

};

offset_term_s32.val[0] = vaddq_s32(offset_term_s32.val[0], vaddq_s32(a_offset_term_s32.val[0], b_offset_term_s32_vec));

177

offset_term_s32.val[1] = vaddq_s32(offset_term_s32.val[1], vaddq_s32(a_offset_term_s32.val[1], b_offset_term_s32_vec));

178

offset_term_s32.val[2] = vaddq_s32(offset_term_s32.val[2], vaddq_s32(a_offset_term_s32.val[2], b_offset_term_s32_vec));

179

offset_term_s32.val[3] = vaddq_s32(offset_term_s32.val[3], vaddq_s32(a_offset_term_s32.val[3], b_offset_term_s32_vec));

int32x4x4_t in_s32 =

{

{

vld1q_s32(mm_result_ptr + x + 0),

185

vld1q_s32(mm_result_ptr + x + 4),

186

vld1q_s32(mm_result_ptr + x + 8),

187

vld1q_s32(mm_result_ptr + x + 12)

}

};

// Add the offset terms to GEMM's result

192

in_s32.val[0] = vaddq_s32(in_s32.val[0], offset_term_s32.val[0]);

193

in_s32.val[1] = vaddq_s32(in_s32.val[1], offset_term_s32.val[1]);

194

in_s32.val[2] = vaddq_s32(in_s32.val[2], offset_term_s32.val[2]);

195

in_s32.val[3] = vaddq_s32(in_s32.val[3], offset_term_s32.val[3]);

196

197

// Store the result with the offset contribution

198

vst1q_s32(mm_result_ptr + x + 0, in_s32.val[0]);

199

vst1q_s32(mm_result_ptr + x + 4, in_s32.val[1]);

200

vst1q_s32(mm_result_ptr + x + 8, in_s32.val[2]);

201

vst1q_s32(mm_result_ptr + x + 12, in_s32.val[3]);

}

// Left-overs loop

for(; x < window_end_x; ++x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

206

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

207

// Compute the leftover term due to a_offset.

208

int32_t a_offset_term_s32 = *(vector_sum_col_ptr + x);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

209

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

210

a_offset_term_s32 *= a_offset;

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

211

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

212

// Add the offset terms to GEMM's result

213

// Store the result with the offset contribution

214

mm_result_ptr[x] += k_offset + a_offset_term_s32 + b_offset_term_s32;

215

}

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

216

},

217

vector_sum_col_it, vector_sum_row_it, mm_result_it);

218

}

219

else if((a_offset == 0) && (b_offset != 0) && (vector_sum_row != nullptr)) // false, true

220

{

221

ARM_COMPUTE_ERROR_ON_NULLPTR(vector_sum_row);

222

223

// Set window for vector_sum_row

224

Window win_vector_sum_row(collapsed_window);

225

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

226

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

227

win_vector_sum_row.set(Window::DimZ, Window::Dimension(0, 0, 0));

228

229

Iterator vector_sum_row_it(vector_sum_row, win_vector_sum_row);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

230

231

const size_t sum_row_stride_y = vector_sum_row->info()->strides_in_bytes().y();

232

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

233

execute_window_loop(collapsed_window, [&](const Coordinates & id)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

234

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

235

const int batch_id = id.z() / depth_input;

236

auto mm_result_ptr = reinterpret_cast<int32_t *>(mm_result_it.ptr());

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

237

238

// Compute the leftover term due to b_offset.

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

239

int32_t b_offset_term_s32 = *(reinterpret_cast<const int32_t *>(vector_sum_row_it.ptr() + batch_id * sum_row_stride_y) + id.y() + (id.z() % depth_input) * height_input);

240

b_offset_term_s32 *= b_offset;

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

241

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

242

const int32x4_t b_offset_term_s32_vec = vdupq_n_s32(b_offset_term_s32);

243

244

int x = window_start_x;

Michalis Spyrou

c226853

2020-10-09 11:52:10 +0100

[diff] [blame]

245

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

246

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

247

int32x4x4_t in_s32 =

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

248

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

249

{

250

vld1q_s32(mm_result_ptr + x + 0),

251

vld1q_s32(mm_result_ptr + x + 4),

252

vld1q_s32(mm_result_ptr + x + 8),

253

vld1q_s32(mm_result_ptr + x + 12)

254

}

255

};

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

256

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

257

// Add the offset terms to GEMM's result

258

in_s32.val[0] = vaddq_s32(in_s32.val[0], b_offset_term_s32_vec);

259

in_s32.val[1] = vaddq_s32(in_s32.val[1], b_offset_term_s32_vec);

260

in_s32.val[2] = vaddq_s32(in_s32.val[2], b_offset_term_s32_vec);

261

in_s32.val[3] = vaddq_s32(in_s32.val[3], b_offset_term_s32_vec);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

262

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

263

// Store the result with the offset contribution

264

vst1q_s32(mm_result_ptr + x + 0, in_s32.val[0]);

265

vst1q_s32(mm_result_ptr + x + 4, in_s32.val[1]);

266

vst1q_s32(mm_result_ptr + x + 8, in_s32.val[2]);

267

vst1q_s32(mm_result_ptr + x + 12, in_s32.val[3]);

}

// Left-overs loop

for(; x < window_end_x; ++x)

272

{

273

// Add the offset terms to GEMM's result

274

// Store the result with the offset contribution

275

mm_result_ptr[x] += b_offset_term_s32;

276

}

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

277

},

278

vector_sum_row_it, mm_result_it);

279

}

280

else if((a_offset != 0) && (b_offset == 0) && (vector_sum_col != nullptr)) // true, false

281

{

282

// Set window for vector_sum_col

283

Window win_vector_sum_col(collapsed_window);

284

win_vector_sum_col.set(Window::DimY, Window::Dimension(0, 0, 0));

285

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

286

287

Iterator vector_sum_col_it(vector_sum_col, win_vector_sum_col);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

288

289

// Offset in case vector_sum_col is batched

290

const int vector_sum_col_batch_offset = slide_vector_sum_col ? vector_sum_col->info()->strides_in_bytes().z() : 0;

291

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

292

execute_window_loop(collapsed_window, [&](const Coordinates & id)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

293

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

294

const int batch_id = id.z() / depth_input;

295

auto vector_sum_col_ptr = reinterpret_cast<const int32_t *>(vector_sum_col_it.ptr() + batch_id * vector_sum_col_batch_offset);

296

auto mm_result_ptr = reinterpret_cast<int32_t *>(mm_result_it.ptr());

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

297

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

298

int x = window_start_x;

Michalis Spyrou

c226853

2020-10-09 11:52:10 +0100

[diff] [blame]

299

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

300

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

301

// Compute the leftover term due to a_offset.

302

int32x4x4_t a_offset_term_s32 =

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

303

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

304

{

305

vld1q_s32(vector_sum_col_ptr + x + 0),

306

vld1q_s32(vector_sum_col_ptr + x + 4),

307

vld1q_s32(vector_sum_col_ptr + x + 8),

308

vld1q_s32(vector_sum_col_ptr + x + 12)

309

}

310

};

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

311

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

312

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], a_offset);

313

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], a_offset);

314

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], a_offset);

315

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], a_offset);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

316

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

int32x4x4_t in_s32 =

{

{

vld1q_s32(mm_result_ptr + x + 0),

321

vld1q_s32(mm_result_ptr + x + 4),

322

vld1q_s32(mm_result_ptr + x + 8),

323

vld1q_s32(mm_result_ptr + x + 12)

}

};

// Add the offset terms to GEMM's result

328

in_s32.val[0] = vaddq_s32(in_s32.val[0], a_offset_term_s32.val[0]);

329

in_s32.val[1] = vaddq_s32(in_s32.val[1], a_offset_term_s32.val[1]);

330

in_s32.val[2] = vaddq_s32(in_s32.val[2], a_offset_term_s32.val[2]);

331

in_s32.val[3] = vaddq_s32(in_s32.val[3], a_offset_term_s32.val[3]);

332

333

// Store the result with the offset contribution

334

vst1q_s32(mm_result_ptr + x + 0, in_s32.val[0]);

335

vst1q_s32(mm_result_ptr + x + 4, in_s32.val[1]);

336

vst1q_s32(mm_result_ptr + x + 8, in_s32.val[2]);

337

vst1q_s32(mm_result_ptr + x + 12, in_s32.val[3]);

}

// Left-overs loop

for(; x < window_end_x; ++x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

342

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

343

// Compute the leftover term due to a_offset.

344

const int32_t a_offset_term_s32 = *(vector_sum_col_ptr + x);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

345

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

346

// Add the offset terms to GEMM's result

347

// Store the result with the offset contribution

348

mm_result_ptr[x] += a_offset_term_s32 * a_offset;

349

}

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

350

},

351

vector_sum_col_it, mm_result_it);

}

else // false, false

{

// No offset contribution from matrix A and matrix B

356

return;

357

}

358

}

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

359

} // namespace

360

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

361

void CpuGemmLowpOffsetContributionKernel::configure(ITensorInfo *mm_result, ITensorInfo *vector_sum_col, ITensorInfo *vector_sum_row, int32_t k, int32_t a_offset, int32_t b_offset)

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

362

{

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

363

// Perform validate step

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

364

ARM_COMPUTE_UNUSED(vector_sum_row);

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

365

ARM_COMPUTE_ERROR_ON_NULLPTR(mm_result);

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

366

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(mm_result, vector_sum_col, vector_sum_row, a_offset, b_offset));

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

367

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

368

_a_offset = a_offset;

369

_b_offset = b_offset;

370

_k_offset = a_offset * b_offset * k;

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

371

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

372

// If a_offset == 0, vector_sum_col can be a nullptr

373

if(a_offset != 0)

374

{

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

375

// Check if vector_sum_col_shape should be slidden or not

376

// Don't slide vector_sum_col_shape along the y dimension if vector_sum_col_shape has just 1 dimension and vector_sum_row_shape more than 1

377

// This scenario can happen when the the matrix multiplication is used to perform a convolution operation

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

378

_slide_vector_sum_col = vector_sum_col->tensor_shape().num_dimensions() > 1;

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

379

}

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

380

381

// Configure kernel window

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

382

Window win = calculate_max_window(*mm_result, Steps());

383

ICpuKernel::configure(win);

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

384

}

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

385

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

386

Status CpuGemmLowpOffsetContributionKernel::validate(const ITensorInfo *mm_result, const ITensorInfo *vector_sum_col, const ITensorInfo *vector_sum_row,

387

int32_t a_offset, int32_t b_offset)

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

388

{

389

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(mm_result, vector_sum_col, vector_sum_row, a_offset, b_offset));

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

390

return Status{};

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

391

}

392

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

393

void CpuGemmLowpOffsetContributionKernel::run_op(ITensorPack &tensors, const Window &window, const ThreadInfo &info)

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

394

{

395

ARM_COMPUTE_UNUSED(info);

396

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

397

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(ICpuKernel::window(), window);

398

399

auto vector_sum_col = tensors.get_const_tensor(TensorType::ACL_SRC_0);

400

auto vector_sum_row = tensors.get_const_tensor(TensorType::ACL_SRC_1);

401

auto mm_result = tensors.get_tensor(TensorType::ACL_DST);

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

402

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

403

// Check if input is a 3D reinterpretation

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

404

const bool reinterpret_as_3d = vector_sum_row != nullptr

405

&& mm_result->info()->num_dimensions() > 1

406

&& mm_result->info()->tensor_shape().y() != vector_sum_row->info()->tensor_shape().x();

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

407

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

408

run_offset_contribution(window, mm_result, vector_sum_col, vector_sum_row, _a_offset, _b_offset, _k_offset, _slide_vector_sum_col, reinterpret_as_3d);

Michalis Spyrou

0028d7c

2020-06-22 13:45:17 +0100

[diff] [blame]

409

}

Manuel Bottini