Blame - src/cpu/kernels/CpuGemmLowpOffsetContributionKernel.cpp - ml/ComputeLibrary

2018-11-08 10:22:01 +0000

[diff] [blame]

146

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

147

const int32x4_t b_offset_term_s32_vec = vdupq_n_s32(b_offset_term_s32);

148

149

int x = window_start_x;

Michalis Spyrou

c226853

2020-10-09 11:52:10 +0100

[diff] [blame]

150

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

151

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

152

// Compute the leftover term due to a_offset.

153

int32x4x4_t a_offset_term_s32 =

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

154

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

155

{

156

vld1q_s32(vector_sum_col_ptr + x + 0),

157

vld1q_s32(vector_sum_col_ptr + x + 4),

158

vld1q_s32(vector_sum_col_ptr + x + 8),

159

vld1q_s32(vector_sum_col_ptr + x + 12)

160

}

161

};

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

162

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

163

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], a_offset);

164

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], a_offset);

165

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], a_offset);

166

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], a_offset);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

167

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

168

// Add a_offset_term_s32 and b_offset_term_s32

169

int32x4x4_t offset_term_s32 =

170

{

171

{

172

vdupq_n_s32(k_offset),

173

vdupq_n_s32(k_offset),

174

vdupq_n_s32(k_offset),

175

vdupq_n_s32(k_offset)

}

};

offset_term_s32.val[0] = vaddq_s32(offset_term_s32.val[0], vaddq_s32(a_offset_term_s32.val[0], b_offset_term_s32_vec));

180

offset_term_s32.val[1] = vaddq_s32(offset_term_s32.val[1], vaddq_s32(a_offset_term_s32.val[1], b_offset_term_s32_vec));

181

offset_term_s32.val[2] = vaddq_s32(offset_term_s32.val[2], vaddq_s32(a_offset_term_s32.val[2], b_offset_term_s32_vec));

182

offset_term_s32.val[3] = vaddq_s32(offset_term_s32.val[3], vaddq_s32(a_offset_term_s32.val[3], b_offset_term_s32_vec));

int32x4x4_t in_s32 =

{

{

vld1q_s32(mm_result_ptr + x + 0),

188

vld1q_s32(mm_result_ptr + x + 4),

189

vld1q_s32(mm_result_ptr + x + 8),

190

vld1q_s32(mm_result_ptr + x + 12)

}

};

// Add the offset terms to GEMM's result

195

in_s32.val[0] = vaddq_s32(in_s32.val[0], offset_term_s32.val[0]);

196

in_s32.val[1] = vaddq_s32(in_s32.val[1], offset_term_s32.val[1]);

197

in_s32.val[2] = vaddq_s32(in_s32.val[2], offset_term_s32.val[2]);

198

in_s32.val[3] = vaddq_s32(in_s32.val[3], offset_term_s32.val[3]);

199

200

// Store the result with the offset contribution

201

vst1q_s32(mm_result_ptr + x + 0, in_s32.val[0]);

202

vst1q_s32(mm_result_ptr + x + 4, in_s32.val[1]);

203

vst1q_s32(mm_result_ptr + x + 8, in_s32.val[2]);

204

vst1q_s32(mm_result_ptr + x + 12, in_s32.val[3]);

}

// Left-overs loop

for(; x < window_end_x; ++x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

209

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

210

// Compute the leftover term due to a_offset.

211

int32_t a_offset_term_s32 = *(vector_sum_col_ptr + x);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

212

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

213

a_offset_term_s32 *= a_offset;

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

214

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

215

// Add the offset terms to GEMM's result

216

// Store the result with the offset contribution

217

mm_result_ptr[x] += k_offset + a_offset_term_s32 + b_offset_term_s32;

218

}

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

219

},

220

vector_sum_col_it, vector_sum_row_it, mm_result_it);

221

}

222

else if((a_offset == 0) && (b_offset != 0) && (vector_sum_row != nullptr)) // false, true

223

{

224

ARM_COMPUTE_ERROR_ON_NULLPTR(vector_sum_row);

225

226

// Set window for vector_sum_row

227

Window win_vector_sum_row(collapsed_window);

228

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

229

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

230

win_vector_sum_row.set(Window::DimZ, Window::Dimension(0, 0, 0));

231

232

Iterator vector_sum_row_it(vector_sum_row, win_vector_sum_row);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

233

234

const size_t sum_row_stride_y = vector_sum_row->info()->strides_in_bytes().y();

235

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

236

execute_window_loop(collapsed_window, [&](const Coordinates & id)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

237

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

238

const int batch_id = id.z() / depth_input;

239

auto mm_result_ptr = reinterpret_cast<int32_t *>(mm_result_it.ptr());

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

240

241

// Compute the leftover term due to b_offset.

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

242

int32_t b_offset_term_s32 = *(reinterpret_cast<const int32_t *>(vector_sum_row_it.ptr() + batch_id * sum_row_stride_y) + id.y() + (id.z() % depth_input) * height_input);

243

b_offset_term_s32 *= b_offset;

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

244

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

245

const int32x4_t b_offset_term_s32_vec = vdupq_n_s32(b_offset_term_s32);

246

247

int x = window_start_x;

Michalis Spyrou

c226853

2020-10-09 11:52:10 +0100

[diff] [blame]

248

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

249

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

250

int32x4x4_t in_s32 =

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

251

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

252

{

253

vld1q_s32(mm_result_ptr + x + 0),

254

vld1q_s32(mm_result_ptr + x + 4),

255

vld1q_s32(mm_result_ptr + x + 8),

256

vld1q_s32(mm_result_ptr + x + 12)

257

}

258

};

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

259

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

260

// Add the offset terms to GEMM's result

261

in_s32.val[0] = vaddq_s32(in_s32.val[0], b_offset_term_s32_vec);

262

in_s32.val[1] = vaddq_s32(in_s32.val[1], b_offset_term_s32_vec);

263

in_s32.val[2] = vaddq_s32(in_s32.val[2], b_offset_term_s32_vec);

264

in_s32.val[3] = vaddq_s32(in_s32.val[3], b_offset_term_s32_vec);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

265

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

266

// Store the result with the offset contribution

267

vst1q_s32(mm_result_ptr + x + 0, in_s32.val[0]);

268

vst1q_s32(mm_result_ptr + x + 4, in_s32.val[1]);

269

vst1q_s32(mm_result_ptr + x + 8, in_s32.val[2]);

270

vst1q_s32(mm_result_ptr + x + 12, in_s32.val[3]);

}

// Left-overs loop

for(; x < window_end_x; ++x)

275

{

276

// Add the offset terms to GEMM's result

277

// Store the result with the offset contribution

278

mm_result_ptr[x] += b_offset_term_s32;

279

}

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

280

},

281

vector_sum_row_it, mm_result_it);

282

}

283

else if((a_offset != 0) && (b_offset == 0) && (vector_sum_col != nullptr)) // true, false

284

{

285

// Set window for vector_sum_col

286

Window win_vector_sum_col(collapsed_window);

287

win_vector_sum_col.set(Window::DimY, Window::Dimension(0, 0, 0));

288

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

289

290

Iterator vector_sum_col_it(vector_sum_col, win_vector_sum_col);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

291

292

// Offset in case vector_sum_col is batched

293

const int vector_sum_col_batch_offset = slide_vector_sum_col ? vector_sum_col->info()->strides_in_bytes().z() : 0;

294

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

295

execute_window_loop(collapsed_window, [&](const Coordinates & id)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

296

{

Mohammed Suhail Munshi

6782452

2022-09-29 13:07:21 +0100

[diff] [blame]

297

const int batch_id = id.z() / depth_input;

298

const size_t batch_offset_col = batch_id * (sum_col_stride_y ); // Value to offset vector_sum_col_ptr to allow for iteration of y values in tensor

299

auto vector_sum_col_ptr = reinterpret_cast<const int32_t *>(vector_sum_col_it.ptr() + batch_offset_col + batch_id * vector_sum_col_batch_offset);

300

auto mm_result_ptr = reinterpret_cast<int32_t *>(mm_result_it.ptr());

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

301

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

302

int x = window_start_x;

Michalis Spyrou

c226853

2020-10-09 11:52:10 +0100

[diff] [blame]

303

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

304

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

305

// Compute the leftover term due to a_offset.

306

int32x4x4_t a_offset_term_s32 =

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

307

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

308

{

309

vld1q_s32(vector_sum_col_ptr + x + 0),

310

vld1q_s32(vector_sum_col_ptr + x + 4),

311

vld1q_s32(vector_sum_col_ptr + x + 8),

312

vld1q_s32(vector_sum_col_ptr + x + 12)

313

}

314

};

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

315

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

316

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], a_offset);

317

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], a_offset);

318

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], a_offset);

319

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], a_offset);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

320

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

int32x4x4_t in_s32 =

{

{

vld1q_s32(mm_result_ptr + x + 0),

325

vld1q_s32(mm_result_ptr + x + 4),

326

vld1q_s32(mm_result_ptr + x + 8),

327

vld1q_s32(mm_result_ptr + x + 12)

}

};

// Add the offset terms to GEMM's result

332

in_s32.val[0] = vaddq_s32(in_s32.val[0], a_offset_term_s32.val[0]);

333

in_s32.val[1] = vaddq_s32(in_s32.val[1], a_offset_term_s32.val[1]);

334

in_s32.val[2] = vaddq_s32(in_s32.val[2], a_offset_term_s32.val[2]);

335

in_s32.val[3] = vaddq_s32(in_s32.val[3], a_offset_term_s32.val[3]);

336

337

// Store the result with the offset contribution

338

vst1q_s32(mm_result_ptr + x + 0, in_s32.val[0]);

339

vst1q_s32(mm_result_ptr + x + 4, in_s32.val[1]);

340

vst1q_s32(mm_result_ptr + x + 8, in_s32.val[2]);

341

vst1q_s32(mm_result_ptr + x + 12, in_s32.val[3]);

}

// Left-overs loop

for(; x < window_end_x; ++x)

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

346

{

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

347

// Compute the leftover term due to a_offset.

348

const int32_t a_offset_term_s32 = *(vector_sum_col_ptr + x);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

349

Michele Di Giorgio

2020-09-04 15:01:15 +0100

[diff] [blame]

350

// Add the offset terms to GEMM's result

351

// Store the result with the offset contribution

352

mm_result_ptr[x] += a_offset_term_s32 * a_offset;

353

}

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

354

},

355

vector_sum_col_it, mm_result_it);

}

else // false, false

{

// No offset contribution from matrix A and matrix B

360

return;

361

}

362

}

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

363

} // namespace

364

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

365

void CpuGemmLowpOffsetContributionKernel::configure(ITensorInfo *mm_result, ITensorInfo *vector_sum_col, ITensorInfo *vector_sum_row, int32_t k, int32_t a_offset, int32_t b_offset)

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

366

{

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

367

// Perform validate step

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

368

ARM_COMPUTE_UNUSED(vector_sum_row);

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

369

ARM_COMPUTE_ERROR_ON_NULLPTR(mm_result);

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

370

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(mm_result, vector_sum_col, vector_sum_row, a_offset, b_offset));

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

371

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

372

_a_offset = a_offset;

373

_b_offset = b_offset;

374

_k_offset = a_offset * b_offset * k;

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

375

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

376

// If a_offset == 0, vector_sum_col can be a nullptr

377

if(a_offset != 0)

378

{

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

379

// Check if vector_sum_col_shape should be slidden or not

380

// Don't slide vector_sum_col_shape along the y dimension if vector_sum_col_shape has just 1 dimension and vector_sum_row_shape more than 1

381

// This scenario can happen when the the matrix multiplication is used to perform a convolution operation

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

382

_slide_vector_sum_col = vector_sum_col->tensor_shape().num_dimensions() > 1;

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

383

}

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

384

385

// Configure kernel window

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

386

Window win = calculate_max_window(*mm_result, Steps());

387

ICpuKernel::configure(win);

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

388

}

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

389

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

390

Status CpuGemmLowpOffsetContributionKernel::validate(const ITensorInfo *mm_result, const ITensorInfo *vector_sum_col, const ITensorInfo *vector_sum_row,

391

int32_t a_offset, int32_t b_offset)

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

392

{

393

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(mm_result, vector_sum_col, vector_sum_row, a_offset, b_offset));

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

394

return Status{};

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

395

}

396

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

397

void CpuGemmLowpOffsetContributionKernel::run_op(ITensorPack &tensors, const Window &window, const ThreadInfo &info)

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

398

{

399

ARM_COMPUTE_UNUSED(info);

400

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

401

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(ICpuKernel::window(), window);

402

403

auto vector_sum_col = tensors.get_const_tensor(TensorType::ACL_SRC_0);

404

auto vector_sum_row = tensors.get_const_tensor(TensorType::ACL_SRC_1);

405

auto mm_result = tensors.get_tensor(TensorType::ACL_DST);

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

406

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

407

// Check if input is a 3D reinterpretation

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

408

const bool reinterpret_as_3d = vector_sum_row != nullptr

409

&& mm_result->info()->num_dimensions() > 1

410

&& mm_result->info()->tensor_shape().y() != vector_sum_row->info()->tensor_shape().x();

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

411

Manuel Bottini

2021-06-18 15:47:28 +0100

[diff] [blame]

412

run_offset_contribution(window, mm_result, vector_sum_col, vector_sum_row, _a_offset, _b_offset, _k_offset, _slide_vector_sum_col, reinterpret_as_3d);

Michalis Spyrou

0028d7c

2020-06-22 13:45:17 +0100

[diff] [blame]

413

}

Manuel Bottini