Blame - src/core/NEON/kernels/NEGEMMLowpReductionKernel.cpp - ml/ComputeLibrary

2017-11-16 19:24:39 +0000

[diff] [blame]

123

{

124

ARM_COMPUTE_UNUSED(num_mtx_a_cols);

125

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments_matrix_a_reduction(mtx_a, vector_sum_row));

126

ARM_COMPUTE_RETURN_ON_ERROR(validate_and_configure_window_matrix_a_reduction(mtx_a->clone().get(), vector_sum_row->clone().get(), is_interleaved4x4).first);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

127

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

128

return Status{};

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

129

}

130

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

131

template <typename T>

132

void NEGEMMLowpMatrixAReductionKernel::run_internal(const arm_compute::Window &window)

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

133

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

134

// Intermediate and final accumulator types

135

using TIAcc = wrapper::traits::promote_t<T>;

136

using TAcc = wrapper::traits::promote_t<TIAcc>;

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

137

138

Window collapsed_window = window.collapse_if_possible(IKernel::window(), Window::DimY);

139

140

Window win_input(collapsed_window);

141

win_input.set(Window::DimX, Window::Dimension(0, 0, 0));

142

win_input.set(Window::DimY, Window::Dimension(0, 0, 0));

143

win_input.set(Window::DimZ, Window::Dimension(0, 0, 0));

144

145

Iterator in(_input, win_input);

146

Iterator out(_output, collapsed_window);

if(_is_reshaped)

{

execute_window_loop(collapsed_window, [&](const Coordinates & id)

151

{

152

// Note: Since the input is unsigned char, we can safely use unsigned int for the accumulation

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

153

auto sum_row = wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{});

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

154

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

155

const T *matrix_a = reinterpret_cast<const T *>((in.ptr() + (id.x() / 4) * _input->info()->strides_in_bytes()[1] + id.y() * _input->info()->strides_in_bytes()[2]));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

156

157

#if __arm__

158

asm volatile("PLD [%0, #128*4]" ::"r"(matrix_a));

#endif /* __arm__ */

int i = 0;

// This for loop performs 4 accumulations

163

for(; i <= (_k - 4); i += 4)

164

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

165

const auto a0_d8 = wrapper::vloadq(matrix_a + i * 4);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

166

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

167

// Convert 8-bit to 16-bit

168

typename wrapper::traits::neon_bitvector<TIAcc, wrapper::traits::BitWidth::W64>::type a0_d16[4] =

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

169

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

170

wrapper::vgetlow(wrapper::vmovl(wrapper::vgetlow(a0_d8))),

171

wrapper::vgethigh(wrapper::vmovl(wrapper::vgetlow(a0_d8))),

172

wrapper::vgetlow(wrapper::vmovl((wrapper::vgethigh(a0_d8)))),

173

wrapper::vgethigh(wrapper::vmovl(wrapper::vgethigh(a0_d8)))

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

174

};

175

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

176

// Accumulate to 16-bit

177

a0_d16[0] = wrapper::vadd(a0_d16[0], a0_d16[1]);

178

a0_d16[0] = wrapper::vadd(a0_d16[0], a0_d16[2]);

179

a0_d16[0] = wrapper::vadd(a0_d16[0], a0_d16[3]);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

180

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

181

// Accumulate to 32-bit

182

sum_row = wrapper::vaddw(sum_row, a0_d16[0]);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

183

}

184

185

// This for loop performs the leftover accumulations

186

for(; i < _k; ++i)

187

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

188

const auto a0_d8 = wrapper::vload(matrix_a + i * 4);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

189

190

// Convert U8 to U16

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

191

const auto a0_d16 = wrapper::vgetlow(wrapper::vmovl(a0_d8));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

192

193

// Accumulate to U32

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

194

sum_row = wrapper::vaddw(sum_row, a0_d16);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

195

}

196

197

auto vector_sum_row = reinterpret_cast<int32_t *>(out.ptr());

198

Michele Di Giorgio

13ec5f0

2020-01-02 12:11:13 +0000

[diff] [blame^]

199

wrapper::vstore(vector_sum_row, wrapper::vreinterpret(sum_row));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

},

in, out);

}

else // it is not reshaped

204

{

205

execute_window_loop(collapsed_window, [&](const Coordinates & id)

206

{

207

// Note: Since the input is unsigned char, we can safely use unsigned int for the accumulation

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

208

auto vsum_row = wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{});

209

TAcc sum_row = 0;

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

210

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

211

const T *matrix_a = reinterpret_cast<const T *>((in.ptr() + id.x() * _input->info()->strides_in_bytes()[1] + id.y() * _input->info()->strides_in_bytes()[2]));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

212

213

#if __arm__

214

asm volatile("PLD [%0, #128*4]" ::"r"(matrix_a));

#endif /* __arm__ */

int i = 0;

// This for loop performs 16 accumulations

219

for(; i <= (_k - 16); i += 16)

220

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

221

const auto a0_d8 = wrapper::vloadq(matrix_a + i);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

222

223

// Partial accumulations in U16

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

224

const auto tmp_sum0 = wrapper::vaddl(wrapper::vgetlow(a0_d8), wrapper::vgethigh(a0_d8));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

225

226

// Accumulate to U32

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

227

vsum_row = wrapper::vadd(vsum_row, wrapper::vpaddl(tmp_sum0));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

228

}

229

230

// This for loop performs the leftover accumulations

231

for(; i < _k; ++i)

232

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

233

sum_row += static_cast<TAcc>(matrix_a[i]);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

234

}

235

236

#if defined(__aarch64__)

237

// Reduction operation available on 64 bit architectures only

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

238

sum_row += wrapper::vaddv(vsum_row);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

239

#else // __aarch64__

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

240

auto tmp = wrapper::vpadd(wrapper::vgethigh(vsum_row), wrapper::vgetlow(vsum_row));

241

tmp = wrapper::vpadd(tmp, tmp);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

242

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

243

sum_row += wrapper::vgetlane(tmp, 0);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

244

#endif // __aarch64__

245

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

246

*(reinterpret_cast<int *>(out.ptr())) = static_cast<int32_t>(sum_row);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

},

in, out);

}

}

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

252

void NEGEMMLowpMatrixAReductionKernel::run(const Window &window, const ThreadInfo &info)

253

{

254

ARM_COMPUTE_UNUSED(info);

255

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

256

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(INEKernel::window(), window);

257

258

switch(_input->info()->data_type())

259

{

260

case DataType::QASYMM8:

261

run_internal<uint8_t>(window);

262

break;

263

case DataType::QASYMM8_SIGNED:

264

case DataType::QSYMM8_PER_CHANNEL:

265

run_internal<int8_t>(window);

266

break;

267

default:

268

ARM_COMPUTE_ERROR("Unsupported data type");

}

}

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

272

void NEGEMMLowpMatrixBReductionKernel::configure(const ITensor *mtx_b, ITensor *vector_sum_col, int32_t num_mtx_b_rows, bool is_transposed1xW)

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

273

{

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

274

ARM_COMPUTE_ERROR_ON_NULLPTR(mtx_b, vector_sum_col);

275

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments_matrix_b_reduction(mtx_b->info(), vector_sum_col->info()));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

276

Gian Marco

e75a02b

2017-11-08 12:24:09 +0000

[diff] [blame]

277

_input = mtx_b;

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

278

_output = vector_sum_col;

279

_k = num_mtx_b_rows;

280

_is_reshaped = is_transposed1xW;

281

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

282

// Configure kernel window

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

283

auto win_config = validate_and_configure_window_matrix_b_reduction(_input->info(), _output->info());

284

ARM_COMPUTE_ERROR_THROW_ON(win_config.first);

285

INEKernel::configure(win_config.second);

286

}

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

287

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

288

Status NEGEMMLowpMatrixBReductionKernel::validate(const ITensorInfo *mtx_b, const ITensorInfo *vector_sum_col, int32_t num_mtx_b_rows, bool is_transposed1xW)

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

289

{

290

ARM_COMPUTE_UNUSED(num_mtx_b_rows);

291

ARM_COMPUTE_UNUSED(is_transposed1xW);

292

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments_matrix_b_reduction(mtx_b, vector_sum_col));

293

ARM_COMPUTE_RETURN_ON_ERROR(validate_and_configure_window_matrix_b_reduction(mtx_b->clone().get(), vector_sum_col->clone().get()).first);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

294

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

295

return Status{};

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

296

}

297

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

298

template <typename T>

299

void NEGEMMLowpMatrixBReductionKernel::run_internal(const Window &window, const ThreadInfo &info)

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

300

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

301

// Intermediate and final accumulator types

302

using TIAcc = wrapper::traits::promote_t<T>;

303

using TAcc = wrapper::traits::promote_t<TIAcc>;

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

304

305

Window collapsed_window = window.collapse_if_possible(IKernel::window(), Window::DimY);

if(_is_reshaped)

{

Window win_input(collapsed_window);

310

win_input.set(Window::DimX, Window::Dimension(0, 0, 0));

311

win_input.set(Window::DimY, Window::Dimension(0, 0, 0));

312

win_input.set(Window::DimZ, Window::Dimension(0, 0, 0));

313

314

Iterator in(_input, win_input);

315

Iterator out(_output, collapsed_window);

316

317

execute_window_loop(collapsed_window, [&](const Coordinates & id)

318

{

319

// Note: Since the input is unsigned char, we can safely use unsigned int for the accumulation

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

320

typename wrapper::traits::neon_bitvector<TAcc, wrapper::traits::BitWidth::W128>::type sum_col[4] =

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

321

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

322

wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{}),

323

wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{}),

324

wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{}),

325

wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{})

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

326

};

327

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

328

const auto *matrix_b = reinterpret_cast<const T *>(in.ptr() + (id.x() / 16) * _input->info()->strides_in_bytes()[1] + id.y() * _input->info()->strides_in_bytes()[2]);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

329

330

#if __arm__

331

asm volatile("PLD [%0, #128*4]" ::"r"(matrix_b));

#endif /* __arm__ */

int i = 0;

for(; i < _k; ++i)

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

337

const auto b0_b8 = wrapper::vloadq(matrix_b + i * 16);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

338

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

339

// Convert 8bit to 16bit

340

const typename wrapper::traits::neon_bitvector<TIAcc, wrapper::traits::BitWidth::W128>::type b0_b16[2] =

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

341

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

342

wrapper::vmovl(wrapper::vgetlow(b0_b8)),

343

wrapper::vmovl(wrapper::vgethigh(b0_b8))

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

344

};

345

346

// Accumulate to U32

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

347

sum_col[0] = wrapper::vaddw(sum_col[0], wrapper::vgetlow(b0_b16[0]));

348

sum_col[1] = wrapper::vaddw(sum_col[1], wrapper::vgethigh(b0_b16[0]));

349

sum_col[2] = wrapper::vaddw(sum_col[2], wrapper::vgetlow(b0_b16[1]));

350

sum_col[3] = wrapper::vaddw(sum_col[3], wrapper::vgethigh(b0_b16[1]));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

351

}

352

353

auto vector_sum_col = reinterpret_cast<int32_t *>(out.ptr());

354

Michele Di Giorgio

13ec5f0

2020-01-02 12:11:13 +0000

[diff] [blame^]

355

wrapper::vstore(vector_sum_col + 0, wrapper::vreinterpret(sum_col[0]));

356

wrapper::vstore(vector_sum_col + 4, wrapper::vreinterpret(sum_col[1]));

357

wrapper::vstore(vector_sum_col + 8, wrapper::vreinterpret(sum_col[2]));

358

wrapper::vstore(vector_sum_col + 12, wrapper::vreinterpret(sum_col[3]));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

},

in, out);

}

else // it is not reshaped

363

{

364

const auto width_matrix_b = static_cast<int>(_input->info()->dimension(0));

365

const auto in_b_stride = static_cast<int>(_input->info()->strides_in_bytes()[1]);

366

367

// The implementation computes 16 elements per iteration

368

const int window_start_x = 16 * info.thread_id;

369

const int window_step_x = 16 * info.num_threads;

370

// Make sure (window_end_x - window_start_x) is a multiple of window_step_x

371

const int window_end_x = ceil_to_multiple(width_matrix_b - window_start_x, window_step_x) + window_start_x;

372

373

Window win_out(collapsed_window);

374

win_out.set(Window::DimX, Window::Dimension(window_start_x, window_end_x, window_step_x));

375

376

Window win_in(win_out);

377

win_in.set(Window::DimY, Window::Dimension(0, 0, 0));

378

win_in.set(Window::DimZ, Window::Dimension(0, 0, 0));

379

380

Iterator inb(_input, win_in);

381

Iterator out(_output, win_out);

382

383

execute_window_loop(win_out, [&](const Coordinates & id)

384

{

385

if(id.x() > width_matrix_b)

{

return;

}

// Note: Since the input is unsigned char, we can safely use unsigned int for the accumulation

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

391

typename wrapper::traits::neon_bitvector<TAcc, wrapper::traits::BitWidth::W128>::type sum_col[4] =

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

392

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

393

wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{}),

394

wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{}),

395

wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{}),

396

wrapper::vdup_n(static_cast<TAcc>(0), wrapper::traits::vector_128_tag{})

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

397

};

398

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

399

const auto *matrix_b = reinterpret_cast<const T *>(inb.ptr() + id.y() * _input->info()->strides_in_bytes()[2]);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

400

401

#if __arm__

402

asm volatile("PLD [%0, #128*4]" ::"r"(matrix_b));

403

asm volatile("PLD [%0, #128*4]" ::"r"(matrix_b + in_b_stride));

#endif /* __arm__ */

int i = 0;

// This for loop performs 4 accumulations

408

for(; i <= (_k - 4); i += 4)

409

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

410

const auto b0_u8 = wrapper::vloadq(matrix_b + 0 * in_b_stride);

411

const auto b1_u8 = wrapper::vloadq(matrix_b + 1 * in_b_stride);

412

const auto b2_u8 = wrapper::vloadq(matrix_b + 2 * in_b_stride);

413

const auto b3_u8 = wrapper::vloadq(matrix_b + 3 * in_b_stride);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

414

415

#if __arm__

416

asm volatile("PLD [%0, #128*1]" ::"r"(matrix_b + 1 * in_b_stride));

417

asm volatile("PLD [%0, #128*1]" ::"r"(matrix_b + 2 * in_b_stride));

418

asm volatile("PLD [%0, #128*1]" ::"r"(matrix_b + 3 * in_b_stride));

419

asm volatile("PLD [%0, #128*1]" ::"r"(matrix_b + 4 * in_b_stride));

420

#endif /* __arm__ */

421

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

422

// Partial accumulation in 16bit

423

typename wrapper::traits::neon_bitvector<TIAcc, wrapper::traits::BitWidth::W128>::type tmp_sum[2] =

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

424

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

425

wrapper::vdup_n(static_cast<TIAcc>(0), wrapper::traits::vector_128_tag{}),

426

wrapper::vdup_n(static_cast<TIAcc>(0), wrapper::traits::vector_128_tag{})

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

427

};

428

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

429

tmp_sum[0] = wrapper::vaddw(tmp_sum[0], wrapper::vgetlow(b1_u8));

430

tmp_sum[0] = wrapper::vaddw(tmp_sum[0], wrapper::vgetlow(b0_u8));

431

tmp_sum[0] = wrapper::vaddw(tmp_sum[0], wrapper::vgetlow(b2_u8));

432

tmp_sum[0] = wrapper::vaddw(tmp_sum[0], wrapper::vgetlow(b3_u8));

433

tmp_sum[1] = wrapper::vaddw(tmp_sum[1], wrapper::vgethigh(b0_u8));

434

tmp_sum[1] = wrapper::vaddw(tmp_sum[1], wrapper::vgethigh(b1_u8));

435

tmp_sum[1] = wrapper::vaddw(tmp_sum[1], wrapper::vgethigh(b2_u8));

436

tmp_sum[1] = wrapper::vaddw(tmp_sum[1], wrapper::vgethigh(b3_u8));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

437

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

438

// Accumulate to 32bit

439

sum_col[0] = wrapper::vaddw(sum_col[0], wrapper::vgetlow(tmp_sum[0]));

440

sum_col[1] = wrapper::vaddw(sum_col[1], wrapper::vgethigh(tmp_sum[0]));

441

sum_col[2] = wrapper::vaddw(sum_col[2], wrapper::vgetlow(tmp_sum[1]));

442

sum_col[3] = wrapper::vaddw(sum_col[3], wrapper::vgethigh(tmp_sum[1]));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

443

444

matrix_b += 4 * in_b_stride;

445

}

446

447

// This for loop perfoms the leftover accumulations

448

for(; i < _k; ++i)

449

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

450

const auto b0_b8 = wrapper::vloadq(matrix_b + 0 * in_b_stride);

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

451

Pablo Tello

6ff12a0

2017-11-02 16:09:35 +0000

[diff] [blame]

452

// Convert S8 to S16

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

453

const typename wrapper::traits::neon_bitvector<TIAcc, wrapper::traits::BitWidth::W128>::type b0_b16[2]

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

454

{

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

455

wrapper::vmovl(wrapper::vgetlow(b0_b8)),

456

wrapper::vmovl(wrapper::vgethigh(b0_b8))

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

457

};

458

Georgios Pinitas

2019-10-16 19:21:40 +0100

[diff] [blame]

459

// Accumulate to 32bit

460

sum_col[0] = wrapper::vaddw(sum_col[0], wrapper::vgetlow(b0_b16[0]));

461

sum_col[1] = wrapper::vaddw(sum_col[1], wrapper::vgethigh(b0_b16[0]));

462

sum_col[2] = wrapper::vaddw(sum_col[2], wrapper::vgetlow(b0_b16[1]));

463

sum_col[3] = wrapper::vaddw(sum_col[3], wrapper::vgethigh(b0_b16[1]));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

464

465

matrix_b += in_b_stride;

466

}

467

468

auto vector_sum_col = reinterpret_cast<int32_t *>(out.ptr());

469

Michele Di Giorgio

13ec5f0

2020-01-02 12:11:13 +0000

[diff] [blame^]

470

wrapper::vstore(vector_sum_col + 0, wrapper::vreinterpret(sum_col[0]));

471

wrapper::vstore(vector_sum_col + 4, wrapper::vreinterpret(sum_col[1]));

472

wrapper::vstore(vector_sum_col + 8, wrapper::vreinterpret(sum_col[2]));

473

wrapper::vstore(vector_sum_col + 12, wrapper::vreinterpret(sum_col[3]));

Gian Marco Iodice

2017-10-09 15:05:40 +0100

[diff] [blame]

474

},

475

inb, out);

476

}

Pablo Tello

6ff12a0

2017-11-02 16:09:35 +0000

[diff] [blame]

477

}

Georgios Pinitas