Blame - src/core/NEON/kernels/NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel.cpp - ml/ComputeLibrary

inline uint8x16_t finalize_quantization(int32x4x4_t &in_s32, int result_fixedpoint_multiplier, int32_t result_shift, int32x4_t result_offset_after_shift_s32, uint8x16_t min_u8,

102

uint8x16_t max_u8)

103

{

104

const static int32x4_t zero_s32 = vdupq_n_s32(0);

105

106

// Fixed point multiplication with vector saturating rounding doubling multiply high with scalar

107

in_s32.val[0] = vqrdmulhq_n_s32(in_s32.val[0], result_fixedpoint_multiplier);

108

in_s32.val[1] = vqrdmulhq_n_s32(in_s32.val[1], result_fixedpoint_multiplier);

109

in_s32.val[2] = vqrdmulhq_n_s32(in_s32.val[2], result_fixedpoint_multiplier);

110

in_s32.val[3] = vqrdmulhq_n_s32(in_s32.val[3], result_fixedpoint_multiplier);

111

112

// Round to the nearest division by a power-of-two using result_shift_s32

113

in_s32.val[0] = rounding_divide_by_pow2(in_s32.val[0], result_shift);

114

in_s32.val[1] = rounding_divide_by_pow2(in_s32.val[1], result_shift);

115

in_s32.val[2] = rounding_divide_by_pow2(in_s32.val[2], result_shift);

116

in_s32.val[3] = rounding_divide_by_pow2(in_s32.val[3], result_shift);

117

118

// Add the offset terms

119

in_s32.val[0] = vaddq_s32(in_s32.val[0], result_offset_after_shift_s32);

120

in_s32.val[1] = vaddq_s32(in_s32.val[1], result_offset_after_shift_s32);

121

in_s32.val[2] = vaddq_s32(in_s32.val[2], result_offset_after_shift_s32);

122

in_s32.val[3] = vaddq_s32(in_s32.val[3], result_offset_after_shift_s32);

123

124

// Saturate negative values

125

in_s32.val[0] = vmaxq_s32(in_s32.val[0], zero_s32);

126

in_s32.val[1] = vmaxq_s32(in_s32.val[1], zero_s32);

127

in_s32.val[2] = vmaxq_s32(in_s32.val[2], zero_s32);

128

in_s32.val[3] = vmaxq_s32(in_s32.val[3], zero_s32);

129

130

// Convert S32 to S16

131

const int16x8x2_t in_s16 =

132

{

133

{

134

vcombine_s16(vqmovn_s32(in_s32.val[0]), vqmovn_s32(in_s32.val[1])),

135

vcombine_s16(vqmovn_s32(in_s32.val[2]), vqmovn_s32(in_s32.val[3]))

}

};

// Convert S16 to U8

uint8x16_t out_u8 = vcombine_u8(vqmovun_s16(in_s16.val[0]), vqmovun_s16(in_s16.val[1]));

if(is_bounded_relu)

{

out_u8 = vmaxq_u8(out_u8, min_u8);

145

out_u8 = vminq_u8(out_u8, max_u8);

}

return out_u8;

}

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

150

151

/* Function used by the left-over for loop to perform the quantization */

152

template <bool is_bounded_relu>

153

inline uint8_t finalize_quantization(int32x4_t in_s32, int result_fixedpoint_multiplier, int32_t result_shift, int32x4_t result_offset_after_shift_s32, uint8_t min_u8, uint8_t max_u8)

154

{

155

const static int32x4_t zero_s32 = vdupq_n_s32(0);

156

const static int32x4_t sat_value_s32 = vdupq_n_s32(255);

157

158

// Fixed point multiplication with vector saturating rounding doubling multiply high with scalar

159

in_s32 = vqrdmulhq_n_s32(in_s32, result_fixedpoint_multiplier);

160

161

// Round to the nearest division by a power-of-two using result_shift_s32

162

in_s32 = rounding_divide_by_pow2(in_s32, result_shift);

163

164

// Add the offset terms

165

in_s32 = vaddq_s32(in_s32, result_offset_after_shift_s32);

166

167

// Saturate negative values

168

in_s32 = vmaxq_s32(in_s32, zero_s32);

169

in_s32 = vminq_s32(in_s32, sat_value_s32);

170

171

auto out_u8 = static_cast<uint8_t>(vgetq_lane_s32(in_s32, 0));

if(is_bounded_relu)

{

out_u8 = std::max(out_u8, min_u8);

176

out_u8 = std::min(out_u8, max_u8);

}

return out_u8;

}

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

181

} // namespace

182

183

namespace arm_compute

184

{

185

class Coordinates;

186

} // namespace arm_compute

187

188

template <bool is_bounded_relu>

189

void NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::run(const Window &window)

190

{

191

const int32x4_t result_offset_after_shift_s32 = vdupq_n_s32(_result_offset_after_shift);

192

const uint8x16_t min_u8 = vdupq_n_u8(static_cast<uint8_t>(_min));

193

const uint8x16_t max_u8 = vdupq_n_u8(static_cast<uint8_t>(_max));

194

195

ARM_COMPUTE_UNUSED(min_u8);

196

ARM_COMPUTE_UNUSED(max_u8);

197

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

198

const int window_step_x = 16;

199

const auto window_start_x = static_cast<int>(window.x().start());

200

const auto window_end_x = static_cast<int>(window.x().end());

201

202

Window win(window);

203

win.set(Window::DimX, Window::Dimension(0, 1, 1));

204

205

Iterator in(_input, win);

206

Iterator out(_output, win);

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

if(_bias != nullptr)

{

Window win_biases;

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

211

win_biases.set(Window::DimX, Window::Dimension(0, 1, 1));

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

212

win_biases.set(Window::DimY, Window::Dimension(0, 1, 1));

213

214

Iterator bias(_bias, win_biases);

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

215

execute_window_loop(win, [&](const Coordinates & id)

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

216

{

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

217

// Compute 16 elements per iteration

218

int x = window_start_x;

219

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

220

{

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

221

int32x4x4_t in_s32 =

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

222

{

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

223

{

224

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 0),

225

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 4),

226

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 8),

227

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 12)

228

}

229

};

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

230

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

231

const int32x4x4_t bias_s32 =

232

{

233

{

234

vld1q_s32(reinterpret_cast<const int32_t *>(bias.ptr()) + x + 0),

235

vld1q_s32(reinterpret_cast<const int32_t *>(bias.ptr()) + x + 4),

236

vld1q_s32(reinterpret_cast<const int32_t *>(bias.ptr()) + x + 8),

237

vld1q_s32(reinterpret_cast<const int32_t *>(bias.ptr()) + x + 12)

}

};

// Add the bias to GEMM's result

242

in_s32.val[0] = vaddq_s32(in_s32.val[0], bias_s32.val[0]);

243

in_s32.val[1] = vaddq_s32(in_s32.val[1], bias_s32.val[1]);

244

in_s32.val[2] = vaddq_s32(in_s32.val[2], bias_s32.val[2]);

245

in_s32.val[3] = vaddq_s32(in_s32.val[3], bias_s32.val[3]);

246

247

vst1q_u8(out.ptr() + x, finalize_quantization<is_bounded_relu>(in_s32, _result_fixedpoint_multiplier, _result_shift, result_offset_after_shift_s32, min_u8, max_u8));

248

}

249

250

// Compute left-over elements

251

for(; x < window_end_x; ++x)

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

252

{

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

253

const int32_t bias_value = *(reinterpret_cast<const int32_t *>(bias.ptr()) + x);

254

int32_t in_value = *(reinterpret_cast<const int32_t *>(in.ptr()) + x);

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

255

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

256

// Add bias

257

in_value += bias_value;

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

258

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

259

// Finalize and store the result

260

*(out.ptr() + x) = finalize_quantization<is_bounded_relu>(vdupq_n_s32(in_value), _result_fixedpoint_multiplier, _result_shift, result_offset_after_shift_s32, static_cast<uint8_t>(_min),

261

static_cast<uint8_t>(_max));

262

}

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

},

in, bias, out);

}

else

{

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

268

execute_window_loop(win, [&](const Coordinates & id)

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

269

{

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

270

// Compute 16 elements per iteration

271

int x = window_start_x;

272

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

273

{

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

274

int32x4x4_t in_s32 =

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

275

{

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

276

{

277

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 0),

278

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 4),

279

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 8),

280

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 12)

281

}

282

};

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

283

Gian Marco

7f0f790

2017-12-07 09:26:56 +0000

[diff] [blame]

284

vst1q_u8(out.ptr() + x, finalize_quantization<is_bounded_relu>(in_s32, _result_fixedpoint_multiplier, _result_shift, result_offset_after_shift_s32, min_u8, max_u8));

285

}

286

287

// Compute left-over elements

288

for(; x < window_end_x; ++x)

289

{

290

const int32x4_t in_s32 = vld1q_dup_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x);

291

292

// Finalize and store the result

293

*(out.ptr() + x) = finalize_quantization<is_bounded_relu>(in_s32, _result_fixedpoint_multiplier, _result_shift, result_offset_after_shift_s32, static_cast<uint8_t>(_min), static_cast<uint8_t>(_max));

294

}

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

},

in, out);

}

}

NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel()

301

: _func(nullptr), _input(nullptr), _bias(nullptr), _output(nullptr), _result_fixedpoint_multiplier(0), _result_shift(0), _result_offset_after_shift(0), _min(0), _max(0)

{

}

void NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::configure(const ITensor *input, const ITensor *bias, ITensor *output, int result_fixedpoint_multiplier, int result_shift,

306

int result_offset_after_shift, int min, int max)

307

{

308

// Perform validate step

309

ARM_COMPUTE_ERROR_ON_NULLPTR(input, output);

310

311

// Output auto inizialitation if not yet initialized

312

auto_init_if_empty(*output->info(), input->info()->clone()->set_data_type(DataType::QASYMM8));

313

314

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(input->info(),

315

(bias != nullptr) ? bias->info() : nullptr,

output->info(),

min,

max));

_input = input;

_bias = bias;

_output = output;

_result_fixedpoint_multiplier = result_fixedpoint_multiplier;

324

_result_shift = result_shift;

325

_result_offset_after_shift = result_offset_after_shift;

_min = min;

_max = max;

// Configure kernel window

330

auto win_config = validate_and_configure_window(input->info(), (bias != nullptr) ? bias->info() : nullptr, output->info());

331

ARM_COMPUTE_ERROR_THROW_ON(win_config.first);

332

INEKernel::configure(win_config.second);

333

334

// Check if we need to clamp the result using min and max

335

const bool is_bounded_relu = ((min != max) && !(min == 0 && max == 255));

336

_func = is_bounded_relu ? &NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::run<true> : &NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::run<false>;

337

}

338

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

339

Status NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::validate(const ITensorInfo *input, const ITensorInfo *bias, const ITensorInfo *output, int min, int max)

Gian Marco

58c5794

2017-11-28 09:10:03 +0000

[diff] [blame]

340

{

Chunosov

5124be5

2017-11-22 20:42:13 +0700

[diff] [blame]

341

ARM_COMPUTE_ERROR_ON_NULLPTR(input, output);