Blame - src/core/NEON/kernels/NEGEMMLowpOffsetContributionKernel.cpp - ml/ComputeLibrary

void NEGEMMLowpOffsetContributionKernel::configure(ITensor *mm_result, const ITensor *vector_sum_col, const ITensor *vector_sum_row, int32_t k, int32_t a_offset, int32_t b_offset)

125

{

Georgios Pinitas

a3b1b46

2017-11-16 19:24:39 +0000

[diff] [blame]

126

// Perform validate step

127

ARM_COMPUTE_ERROR_ON_NULLPTR(mm_result);

128

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(mm_result->info(),

129

vector_sum_col != nullptr ? vector_sum_col->info() : nullptr, // NOLINT

130

vector_sum_row != nullptr ? vector_sum_row->info() : nullptr, // NOLINT

131

a_offset, b_offset)); // NOLINT

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

132

133

_vector_sum_col = vector_sum_col;

134

_vector_sum_row = vector_sum_row;

135

_mm_result = mm_result;

136

_a_offset = a_offset;

137

_b_offset = b_offset;

138

_k_offset = a_offset * b_offset * k;

139

Georgios Pinitas

a3b1b46

2017-11-16 19:24:39 +0000

[diff] [blame]

140

// If a_offset == 0, vector_sum_col can be a nullptr

141

if(a_offset != 0)

142

{

143

TensorShape vector_sum_col_shape = vector_sum_col->info()->tensor_shape(); // NOLINT

144

vector_sum_col_shape.collapse(1);

145

146

// Check if vector_sum_col_shape should be slidden or not

147

// Don't slide vector_sum_col_shape along the y dimension if vector_sum_col_shape has just 1 dimension and vector_sum_row_shape more than 1

148

// This scenario can happen when the the matrix multiplication is used to perform a convolution operation

149

_slide_vector_sum_col = vector_sum_col_shape[1] != 1;

150

}

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

151

152

// Configure kernel window

Georgios Pinitas

a3b1b46

2017-11-16 19:24:39 +0000

[diff] [blame]

153

auto win_config = validate_and_configure_window(mm_result->info(),

154

vector_sum_col != nullptr ? vector_sum_col->info() : nullptr, // NOLINT

155

vector_sum_row != nullptr ? vector_sum_row->info() : nullptr, // NOLINT

156

a_offset, b_offset);

157

ARM_COMPUTE_ERROR_THROW_ON(win_config.first);

158

INEKernel::configure(win_config.second);

159

}

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

160

Georgios Pinitas

a3b1b46

2017-11-16 19:24:39 +0000

[diff] [blame]

161

Error NEGEMMLowpOffsetContributionKernel::validate(const ITensorInfo *mm_result, const ITensorInfo *vector_sum_col, const ITensorInfo *vector_sum_row,

162

int32_t a_offset, int32_t b_offset)

163

{

164

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(mm_result, vector_sum_col, vector_sum_row, a_offset, b_offset));

165

ARM_COMPUTE_RETURN_ON_ERROR(validate_and_configure_window(mm_result->clone().get(),

166

vector_sum_col != nullptr ? vector_sum_col->clone().get() : nullptr,

167

vector_sum_row != nullptr ? vector_sum_row->clone().get() : nullptr,

168

a_offset, b_offset)

169

.first); // NOLINT

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

170

Georgios Pinitas

a3b1b46

2017-11-16 19:24:39 +0000

[diff] [blame]

171

return Error{};

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

172

}

173

174

void NEGEMMLowpOffsetContributionKernel::run(const Window &window, const ThreadInfo &info)

175

{

176

ARM_COMPUTE_UNUSED(info);

177

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

178

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(INEKernel::window(), window);

179

180

Window collapsed_window = window.collapse_if_possible(IKernel::window(), Window::DimZ);

181

182

if(_a_offset != 0 && _b_offset != 0) // true, true

183

{

184

// Set window for vector_sum_col

185

Window win_vector_sum_col(collapsed_window);

186

win_vector_sum_col.set(Window::DimY, Window::Dimension(0, 0, 0));

187

if(!_slide_vector_sum_col)

188

{

189

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

190

}

191

192

// Set window for vector_sum_row

193

Window win_vector_sum_row(collapsed_window);

194

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

195

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

196

197

Iterator vector_sum_col(_vector_sum_col, win_vector_sum_col);

198

Iterator vector_sum_row(_vector_sum_row, win_vector_sum_row);

199

Iterator mm_result(_mm_result, window);

200

201

execute_window_loop(window, [&](const Coordinates & id)

202

{

203

// Compute the leftover term due to a_offset.

204

int32x4x4_t a_offset_term_s32 =

205

{

206

{

207

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 0),

208

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 4),

209

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 8),

210

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 12)

}

};

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], _a_offset);

215

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], _a_offset);

216

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], _a_offset);

217

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], _a_offset);

218

219

// Compute the leftover term due to b_offset.

220

int32x4_t b_offset_term_s32 = vld1q_dup_s32(reinterpret_cast<const int32_t *>(vector_sum_row.ptr()) + id.y());

221

b_offset_term_s32 = vmulq_n_s32(b_offset_term_s32, _b_offset);

222

223

// Add a_offset_term_s32 and b_offset_term_s32

224

int32x4x4_t offset_term_s32 =

225

{

226

{

227

vdupq_n_s32(_k_offset),

228

vdupq_n_s32(_k_offset),

229

vdupq_n_s32(_k_offset),

230

vdupq_n_s32(_k_offset)

}

};

offset_term_s32.val[0] = vaddq_s32(offset_term_s32.val[0], vaddq_s32(a_offset_term_s32.val[0], b_offset_term_s32));

235

offset_term_s32.val[1] = vaddq_s32(offset_term_s32.val[1], vaddq_s32(a_offset_term_s32.val[1], b_offset_term_s32));

236

offset_term_s32.val[2] = vaddq_s32(offset_term_s32.val[2], vaddq_s32(a_offset_term_s32.val[2], b_offset_term_s32));

237

offset_term_s32.val[3] = vaddq_s32(offset_term_s32.val[3], vaddq_s32(a_offset_term_s32.val[3], b_offset_term_s32));

int32x4x4_t in_s32 =

{

{

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 0),

243

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 4),

244

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 8),

245

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 12)

}

};

// Add the offset terms to GEMM's result

250

in_s32.val[0] = vaddq_s32(in_s32.val[0], offset_term_s32.val[0]);

251

in_s32.val[1] = vaddq_s32(in_s32.val[1], offset_term_s32.val[1]);

252

in_s32.val[2] = vaddq_s32(in_s32.val[2], offset_term_s32.val[2]);

253

in_s32.val[3] = vaddq_s32(in_s32.val[3], offset_term_s32.val[3]);

254

255

// Store the result with the offset contribution

256

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 0, in_s32.val[0]);

257

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 4, in_s32.val[1]);

258

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 8, in_s32.val[2]);

259

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 12, in_s32.val[3]);

260

},

261

vector_sum_col, vector_sum_row, mm_result);

262

}

263

else if((_a_offset == 0) && (_b_offset != 0)) // false, true

264

{

265

// Set window for vector_sum_row

266

Window win_vector_sum_row(collapsed_window);

267

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

268

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

269

270

Iterator vector_sum_row(_vector_sum_row, win_vector_sum_row);

271

Iterator mm_result(_mm_result, window);

272

273

execute_window_loop(window, [&](const Coordinates & id)

274

{

275

// Compute the leftover term due to b_offset.

276

int32x4_t b_offset_term_s32 = vld1q_dup_s32(reinterpret_cast<const int32_t *>(vector_sum_row.ptr()) + id.y());

277

b_offset_term_s32 = vmulq_n_s32(b_offset_term_s32, _b_offset);

int32x4x4_t in_s32 =

{

{

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 0),

283

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 4),

284

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 8),

285

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 12)

}

};

// Add the offset terms to GEMM's result

290

in_s32.val[0] = vaddq_s32(in_s32.val[0], b_offset_term_s32);

291

in_s32.val[1] = vaddq_s32(in_s32.val[1], b_offset_term_s32);

292

in_s32.val[2] = vaddq_s32(in_s32.val[2], b_offset_term_s32);

293

in_s32.val[3] = vaddq_s32(in_s32.val[3], b_offset_term_s32);

294

295

// Store the result with the offset contribution

296

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 0, in_s32.val[0]);

297

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 4, in_s32.val[1]);

298

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 8, in_s32.val[2]);

299

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 12, in_s32.val[3]);

300

},

301

vector_sum_row, mm_result);

302

}

303

else if((_a_offset != 0) && (_b_offset == 0)) // true, false

304

{

305

// Set window for vector_sum_col

306

Window win_vector_sum_col(collapsed_window);

307

win_vector_sum_col.set(Window::DimY, Window::Dimension(0, 0, 0));

308

if(!_slide_vector_sum_col)

309

{

310

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

311

}

312

313

Iterator vector_sum_col(_vector_sum_col, win_vector_sum_col);

314

Iterator mm_result(_mm_result, window);

315

316

execute_window_loop(window, [&](const Coordinates & id)

317

{

318

// Compute the leftover term due to a_offset.

319

int32x4x4_t a_offset_term_s32 =

320

{

321

{

322

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 0),

323

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 4),

324

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 8),

325

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 12)

}

};

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], _a_offset);

330

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], _a_offset);

331

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], _a_offset);

332

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], _a_offset);

int32x4x4_t in_s32 =

{

{

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 0),

338

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 4),

339

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 8),

340

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 12)

}

};

// Add the offset terms to GEMM's result

345

in_s32.val[0] = vaddq_s32(in_s32.val[0], a_offset_term_s32.val[0]);

346

in_s32.val[1] = vaddq_s32(in_s32.val[1], a_offset_term_s32.val[1]);

347

in_s32.val[2] = vaddq_s32(in_s32.val[2], a_offset_term_s32.val[2]);

348

in_s32.val[3] = vaddq_s32(in_s32.val[3], a_offset_term_s32.val[3]);

349

350

// Store the result with the offset contribution

351

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 0, in_s32.val[0]);

352

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 4, in_s32.val[1]);

353

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 8, in_s32.val[2]);

354

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 12, in_s32.val[3]);

355

},

356

vector_sum_col, mm_result);

}

else // false, false

{

// No offset contribution from matrix A and matrix B

361

return;

362

}

363

}