Blame - src/core/NEON/kernels/NEGEMMLowpOffsetContributionKernel.cpp - ml/ComputeLibrary

void NEGEMMLowpOffsetContributionKernel::configure(ITensor *mm_result, const ITensor *vector_sum_col, const ITensor *vector_sum_row, int32_t k, int32_t a_offset, int32_t b_offset)

128

{

Georgios Pinitas

a3b1b46

2017-11-16 19:24:39 +0000

[diff] [blame]

129

// Perform validate step

130

ARM_COMPUTE_ERROR_ON_NULLPTR(mm_result);

131

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(mm_result->info(),

132

vector_sum_col != nullptr ? vector_sum_col->info() : nullptr, // NOLINT

133

vector_sum_row != nullptr ? vector_sum_row->info() : nullptr, // NOLINT

134

a_offset, b_offset)); // NOLINT

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

135

136

_vector_sum_col = vector_sum_col;

137

_vector_sum_row = vector_sum_row;

138

_mm_result = mm_result;

139

_a_offset = a_offset;

140

_b_offset = b_offset;

141

_k_offset = a_offset * b_offset * k;

142

Georgios Pinitas

a3b1b46

2017-11-16 19:24:39 +0000

[diff] [blame]

143

// If a_offset == 0, vector_sum_col can be a nullptr

144

if(a_offset != 0)

145

{

146

TensorShape vector_sum_col_shape = vector_sum_col->info()->tensor_shape(); // NOLINT

147

vector_sum_col_shape.collapse(1);

148

149

// Check if vector_sum_col_shape should be slidden or not

150

// Don't slide vector_sum_col_shape along the y dimension if vector_sum_col_shape has just 1 dimension and vector_sum_row_shape more than 1

151

// This scenario can happen when the the matrix multiplication is used to perform a convolution operation

152

_slide_vector_sum_col = vector_sum_col_shape[1] != 1;

153

}

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

154

155

// Configure kernel window

Georgios Pinitas

a3b1b46

2017-11-16 19:24:39 +0000

[diff] [blame]

156

auto win_config = validate_and_configure_window(mm_result->info(),

157

vector_sum_col != nullptr ? vector_sum_col->info() : nullptr, // NOLINT

158

vector_sum_row != nullptr ? vector_sum_row->info() : nullptr, // NOLINT

159

a_offset, b_offset);

160

ARM_COMPUTE_ERROR_THROW_ON(win_config.first);

161

INEKernel::configure(win_config.second);

162

}

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

163

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

164

Status NEGEMMLowpOffsetContributionKernel::validate(const ITensorInfo *mm_result, const ITensorInfo *vector_sum_col, const ITensorInfo *vector_sum_row,

165

int32_t a_offset, int32_t b_offset)

Georgios Pinitas

a3b1b46

2017-11-16 19:24:39 +0000

[diff] [blame]

166

{

167

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(mm_result, vector_sum_col, vector_sum_row, a_offset, b_offset));

168

ARM_COMPUTE_RETURN_ON_ERROR(validate_and_configure_window(mm_result->clone().get(),

169

vector_sum_col != nullptr ? vector_sum_col->clone().get() : nullptr,

170

vector_sum_row != nullptr ? vector_sum_row->clone().get() : nullptr,

171

a_offset, b_offset)

172

.first); // NOLINT

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

173

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

174

return Status{};

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

175

}

176

177

void NEGEMMLowpOffsetContributionKernel::run(const Window &window, const ThreadInfo &info)

178

{

179

ARM_COMPUTE_UNUSED(info);

180

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

181

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(INEKernel::window(), window);

182

183

Window collapsed_window = window.collapse_if_possible(IKernel::window(), Window::DimZ);

184

185

if(_a_offset != 0 && _b_offset != 0) // true, true

186

{

187

// Set window for vector_sum_col

188

Window win_vector_sum_col(collapsed_window);

189

win_vector_sum_col.set(Window::DimY, Window::Dimension(0, 0, 0));

190

if(!_slide_vector_sum_col)

191

{

192

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

193

}

194

195

// Set window for vector_sum_row

196

Window win_vector_sum_row(collapsed_window);

197

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

198

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

199

200

Iterator vector_sum_col(_vector_sum_col, win_vector_sum_col);

201

Iterator vector_sum_row(_vector_sum_row, win_vector_sum_row);

202

Iterator mm_result(_mm_result, window);

203

204

execute_window_loop(window, [&](const Coordinates & id)

205

{

206

// Compute the leftover term due to a_offset.

207

int32x4x4_t a_offset_term_s32 =

208

{

209

{

210

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 0),

211

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 4),

212

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 8),

213

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 12)

}

};

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], _a_offset);

218

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], _a_offset);

219

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], _a_offset);

220

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], _a_offset);

221

222

// Compute the leftover term due to b_offset.

223

int32x4_t b_offset_term_s32 = vld1q_dup_s32(reinterpret_cast<const int32_t *>(vector_sum_row.ptr()) + id.y());

224

b_offset_term_s32 = vmulq_n_s32(b_offset_term_s32, _b_offset);

225

226

// Add a_offset_term_s32 and b_offset_term_s32

227

int32x4x4_t offset_term_s32 =

228

{

229

{

230

vdupq_n_s32(_k_offset),

231

vdupq_n_s32(_k_offset),

232

vdupq_n_s32(_k_offset),

233

vdupq_n_s32(_k_offset)

}

};

offset_term_s32.val[0] = vaddq_s32(offset_term_s32.val[0], vaddq_s32(a_offset_term_s32.val[0], b_offset_term_s32));

238

offset_term_s32.val[1] = vaddq_s32(offset_term_s32.val[1], vaddq_s32(a_offset_term_s32.val[1], b_offset_term_s32));

239

offset_term_s32.val[2] = vaddq_s32(offset_term_s32.val[2], vaddq_s32(a_offset_term_s32.val[2], b_offset_term_s32));

240

offset_term_s32.val[3] = vaddq_s32(offset_term_s32.val[3], vaddq_s32(a_offset_term_s32.val[3], b_offset_term_s32));

int32x4x4_t in_s32 =

{

{

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 0),

246

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 4),

247

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 8),

248

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 12)

}

};

// Add the offset terms to GEMM's result

253

in_s32.val[0] = vaddq_s32(in_s32.val[0], offset_term_s32.val[0]);

254

in_s32.val[1] = vaddq_s32(in_s32.val[1], offset_term_s32.val[1]);

255

in_s32.val[2] = vaddq_s32(in_s32.val[2], offset_term_s32.val[2]);

256

in_s32.val[3] = vaddq_s32(in_s32.val[3], offset_term_s32.val[3]);

257

258

// Store the result with the offset contribution

259

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 0, in_s32.val[0]);

260

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 4, in_s32.val[1]);

261

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 8, in_s32.val[2]);

262

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 12, in_s32.val[3]);

263

},

264

vector_sum_col, vector_sum_row, mm_result);

265

}

266

else if((_a_offset == 0) && (_b_offset != 0)) // false, true

267

{

268

// Set window for vector_sum_row

269

Window win_vector_sum_row(collapsed_window);

270

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

271

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

272

273

Iterator vector_sum_row(_vector_sum_row, win_vector_sum_row);

274

Iterator mm_result(_mm_result, window);

275

276

execute_window_loop(window, [&](const Coordinates & id)

277

{

278

// Compute the leftover term due to b_offset.

279

int32x4_t b_offset_term_s32 = vld1q_dup_s32(reinterpret_cast<const int32_t *>(vector_sum_row.ptr()) + id.y());

280

b_offset_term_s32 = vmulq_n_s32(b_offset_term_s32, _b_offset);

int32x4x4_t in_s32 =

{

{

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 0),

286

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 4),

287

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 8),

288

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 12)

}

};

// Add the offset terms to GEMM's result

293

in_s32.val[0] = vaddq_s32(in_s32.val[0], b_offset_term_s32);

294

in_s32.val[1] = vaddq_s32(in_s32.val[1], b_offset_term_s32);

295

in_s32.val[2] = vaddq_s32(in_s32.val[2], b_offset_term_s32);

296

in_s32.val[3] = vaddq_s32(in_s32.val[3], b_offset_term_s32);

297

298

// Store the result with the offset contribution

299

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 0, in_s32.val[0]);

300

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 4, in_s32.val[1]);

301

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 8, in_s32.val[2]);

302

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 12, in_s32.val[3]);

303

},

304

vector_sum_row, mm_result);

305

}

306

else if((_a_offset != 0) && (_b_offset == 0)) // true, false

307

{

308

// Set window for vector_sum_col

309

Window win_vector_sum_col(collapsed_window);

310

win_vector_sum_col.set(Window::DimY, Window::Dimension(0, 0, 0));

311

if(!_slide_vector_sum_col)

312

{

313

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

314

}

315

316

Iterator vector_sum_col(_vector_sum_col, win_vector_sum_col);

317

Iterator mm_result(_mm_result, window);

318

319

execute_window_loop(window, [&](const Coordinates & id)

320

{

321

// Compute the leftover term due to a_offset.

322

int32x4x4_t a_offset_term_s32 =

323

{

324

{

325

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 0),

326

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 4),

327

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 8),

328

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 12)

}

};

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], _a_offset);

333

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], _a_offset);

334

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], _a_offset);

335

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], _a_offset);

int32x4x4_t in_s32 =

{

{

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 0),

341

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 4),

342

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 8),

343

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 12)

}

};

// Add the offset terms to GEMM's result

348

in_s32.val[0] = vaddq_s32(in_s32.val[0], a_offset_term_s32.val[0]);

349

in_s32.val[1] = vaddq_s32(in_s32.val[1], a_offset_term_s32.val[1]);

350

in_s32.val[2] = vaddq_s32(in_s32.val[2], a_offset_term_s32.val[2]);

351

in_s32.val[3] = vaddq_s32(in_s32.val[3], a_offset_term_s32.val[3]);

352

353

// Store the result with the offset contribution

354

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 0, in_s32.val[0]);

355

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 4, in_s32.val[1]);

356

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 8, in_s32.val[2]);

357

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 12, in_s32.val[3]);

358

},

359

vector_sum_col, mm_result);

}

else // false, false

{

// No offset contribution from matrix A and matrix B

364

return;

365

}

366

}