Blame - src/cpu/kernels/CpuGemmLowpQuantizeDownInt32ScaleKernel.cpp - ml/ComputeLibrary

ARM_COMPUTE_RETURN_ERROR_ON(output_stage->gemmlowp_max_bound > std::get<1>(quantization::get_min_max_values_from_quantized_data_type(output_stage->output_data_type)));

55

ARM_COMPUTE_RETURN_ERROR_ON(output_stage->gemmlowp_min_bound < std::get<0>(quantization::get_min_max_values_from_quantized_data_type(output_stage->output_data_type))

56

|| output_stage->gemmlowp_min_bound > output_stage->gemmlowp_max_bound);

57

58

// Check biases if exist

59

if(bias != nullptr)

60

{

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

61

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(src, bias);

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

62

ARM_COMPUTE_RETURN_ERROR_ON(bias->num_dimensions() > 1);

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

63

ARM_COMPUTE_RETURN_ERROR_ON(src->dimension(0) != bias->dimension(0));

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

64

}

65

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

66

if(dst->total_size() != 0)

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

67

{

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

68

if(dst->data_type() != output_stage->output_data_type && (output_stage->output_data_type == DataType::QASYMM8 || output_stage->output_data_type == DataType::QASYMM8_SIGNED))

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

69

{

70

ARM_COMPUTE_RETURN_ERROR_MSG("Mismatching data types");

71

}

72

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

73

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_SHAPES(src, dst);

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

}

return Status{};

}

inline void scale_input(int32x4x4_t &in_s32, int32x4_t result_offset_s32, int32_t result_mult_int)

80

{

81

// Add the offset terms to GEMM's result

82

in_s32.val[0] = vaddq_s32(in_s32.val[0], result_offset_s32);

83

in_s32.val[1] = vaddq_s32(in_s32.val[1], result_offset_s32);

84

in_s32.val[2] = vaddq_s32(in_s32.val[2], result_offset_s32);

85

in_s32.val[3] = vaddq_s32(in_s32.val[3], result_offset_s32);

86

87

// Multiply by result_mult_int

88

in_s32.val[0] = vmulq_n_s32(in_s32.val[0], result_mult_int);

89

in_s32.val[1] = vmulq_n_s32(in_s32.val[1], result_mult_int);

90

in_s32.val[2] = vmulq_n_s32(in_s32.val[2], result_mult_int);

91

in_s32.val[3] = vmulq_n_s32(in_s32.val[3], result_mult_int);

92

}

93

94

template <typename T>

95

inline typename std::enable_if<std::is_same<T, uint8_t>::value,

96

typename wrapper::traits::neon_vector<T, 16>::type>::type

97

convert_to_8bit(const int16x8x2_t in_s16)

98

{

99

return wrapper::vcombine(wrapper::vqmovun(in_s16.val[0]), wrapper::vqmovun(in_s16.val[1]));

100

}

101

102

template <typename T>

103

inline typename std::enable_if<std::is_same<T, int8_t>::value,

104

typename wrapper::traits::neon_vector<T, 16>::type>::type

105

convert_to_8bit(const int16x8x2_t in_s16)

106

{

107

return wrapper::vcombine(wrapper::vqmovn(in_s16.val[0]), wrapper::vqmovn(in_s16.val[1]));

108

}

109

110

template <typename T>

111

inline typename wrapper::traits::neon_vector<T, 16>::type finalize_quantization(int32x4x4_t &in_s32, int32x4_t result_shift_s32, typename wrapper::traits::neon_vector<T, 16>::type min,

112

typename wrapper::traits::neon_vector<T, 16>::type max)

113

{

114

// Shift final result (negative value shift right)

115

in_s32.val[0] = vshlq_s32(in_s32.val[0], result_shift_s32);

116

in_s32.val[1] = vshlq_s32(in_s32.val[1], result_shift_s32);

117

in_s32.val[2] = vshlq_s32(in_s32.val[2], result_shift_s32);

118

in_s32.val[3] = vshlq_s32(in_s32.val[3], result_shift_s32);

119

120

// Convert S32 to S16

121

const int16x8x2_t in_s16 =

122

{

123

{

124

vcombine_s16(vqmovn_s32(in_s32.val[0]), vqmovn_s32(in_s32.val[1])),

125

vcombine_s16(vqmovn_s32(in_s32.val[2]), vqmovn_s32(in_s32.val[3]))

}

};

// Convert S16 to S8 or U8

130

typename wrapper::traits::neon_vector<T, 16>::type out = convert_to_8bit<T>(in_s16);

131

132

out = wrapper::vmax(out, min);

133

out = wrapper::vmin(out, max);

134

135

return out;

136

}

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

137

} // namespace

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

138

139

template <typename T>

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

140

void CpuGemmLowpQuantizeDownInt32ScaleKernel::run_internal(const ITensor *src, const ITensor *bias, ITensor *dst, const Window &window)

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

141

{

142

using VectorType = typename wrapper::traits::neon_vector<T, 16>::type;

143

144

const int32x4_t result_offset_s32 = vdupq_n_s32(_output_stage->gemmlowp_offset);

145

const int32x4_t result_shift_s32 = vdupq_n_s32(-_output_stage->gemmlowp_shift);

146

const int window_step_x = 16;

147

const auto window_start_x = static_cast<int>(window.x().start());

148

const auto window_end_x = static_cast<int>(window.x().end());

149

150

const int clamp_min = (_is_bounded_relu) ? _output_stage->gemmlowp_min_bound : std::numeric_limits<T>::lowest();

151

const int clamp_max = (_is_bounded_relu) ? _output_stage->gemmlowp_max_bound : std::numeric_limits<T>::max();

152

153

VectorType min = wrapper::vdup_n(static_cast<T>(clamp_min), wrapper::traits::vector_128_tag{});

154

VectorType max = wrapper::vdup_n(static_cast<T>(clamp_max), wrapper::traits::vector_128_tag{});

155

156

Window win(window);

157

win.set(Window::DimX, Window::Dimension(0, 1, 1));

158

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

159

Iterator in(src, win);

160

Iterator out(dst, win);

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

161

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

162

if(bias != nullptr)

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

163

{

164

Window win_biases;

165

win_biases.set(Window::DimX, Window::Dimension(0, 1, 1));

166

win_biases.set(Window::DimY, Window::Dimension(0, 1, 1));

167

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

168

Iterator bias_i(bias, win_biases);

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

169

execute_window_loop(win, [&](const Coordinates &)

170

{

171

// Compute 16 elements per iteration

172

int x = window_start_x;

173

for(; x <= (window_end_x - window_step_x); x += window_step_x)

{

int32x4x4_t in_s32 =

{

{

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 0),

179

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 4),

180

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 8),

181

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 12)

}

};

const int32x4x4_t bias_s32 =

186

{

187

{

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

188

vld1q_s32(reinterpret_cast<const int32_t *>(bias_i.ptr()) + x + 0),

189

vld1q_s32(reinterpret_cast<const int32_t *>(bias_i.ptr()) + x + 4),

190

vld1q_s32(reinterpret_cast<const int32_t *>(bias_i.ptr()) + x + 8),

191

vld1q_s32(reinterpret_cast<const int32_t *>(bias_i.ptr()) + x + 12)

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

}

};

// Add the bias to GEMM's result

196

in_s32.val[0] = vaddq_s32(in_s32.val[0], bias_s32.val[0]);

197

in_s32.val[1] = vaddq_s32(in_s32.val[1], bias_s32.val[1]);

198

in_s32.val[2] = vaddq_s32(in_s32.val[2], bias_s32.val[2]);

199

in_s32.val[3] = vaddq_s32(in_s32.val[3], bias_s32.val[3]);

200

201

// Add the offset terms to GEMM's result and multiply by result_mult_int

202

scale_input(in_s32, result_offset_s32, _output_stage->gemmlowp_multiplier);

203

204

wrapper::vstore(reinterpret_cast<T *>(out.ptr() + x), finalize_quantization<T>(in_s32, result_shift_s32, min, max));

205

}

206

207

// Compute left-over elements

208

for(; x < window_end_x; ++x)

209

{

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

210

const int bias_value = *(reinterpret_cast<const int *>(bias_i.ptr()) + x);

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

211

int in_value = *(reinterpret_cast<const int *>(in.ptr()) + x);

212

213

// Quantize

214

in_value = ((in_value + bias_value + _output_stage->gemmlowp_offset) * _output_stage->gemmlowp_multiplier) >> _output_stage->gemmlowp_shift;

215

216

// Store the result

217

*(out.ptr() + x) = static_cast<T>(utility::clamp<int>(in_value, clamp_min, clamp_max));

218

}

219

},

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

220

in, bias_i, out);

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

}

else

{

execute_window_loop(win, [&](const Coordinates &)

225

{

226

// Compute 16 elements per iteration

227

int x = window_start_x;

228

for(; x <= (window_end_x - window_step_x); x += window_step_x)

{

int32x4x4_t in_s32 =

{

{

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 0),

234

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 4),

235

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 8),

236

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 12)

}

};

// Add the offset terms to GEMM's result and multiply by result_mult_int

241

scale_input(in_s32, result_offset_s32, _output_stage->gemmlowp_multiplier);

242

243

wrapper::vstore(reinterpret_cast<T *>(out.ptr() + x), finalize_quantization<T>(in_s32, result_shift_s32, min, max));

244

}

245

246

// Compute left-over elements

247

for(; x < window_end_x; ++x)

248

{

249

int in_value = *(reinterpret_cast<const int *>(in.ptr()) + x);

250

251

// Quantize

252

in_value = ((in_value + _output_stage->gemmlowp_offset) * _output_stage->gemmlowp_multiplier) >> _output_stage->gemmlowp_shift;

253

254

// Store the result

255

*(out.ptr() + x) = static_cast<T>(utility::clamp<int>(in_value, clamp_min, clamp_max));

}

},

in, out);

}

}

Manuel Bottini

2021-06-17 17:18:45 +0100

[diff] [blame]

262

void CpuGemmLowpQuantizeDownInt32ScaleKernel::configure(ITensorInfo *src, ITensorInfo *bias, ITensorInfo *dst, const GEMMLowpOutputStageInfo *output_stage)

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

263

{

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

264

ARM_COMPUTE_UNUSED(bias);

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

265

// Perform validate step

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

266

ARM_COMPUTE_ERROR_ON_NULLPTR(src, dst, output_stage);

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

267

268

// Output auto inizialitation if not yet initialized

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

269

auto_init_if_empty(*dst, src->clone()->set_data_type(output_stage->output_data_type));

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

270

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

271

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(src,

272

bias,

273

dst,

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

274

output_stage));

275

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

276

_output_stage = output_stage;

277

278

// Configure kernel window

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

279

Window win = calculate_max_window(*src, Steps());

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

280

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

281

ICpuKernel::configure(win);

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

282

283

// Check if we need to clamp the result using min and max

284

_is_bounded_relu = ((_output_stage->gemmlowp_min_bound != _output_stage->gemmlowp_max_bound)

285

&& !(_output_stage->gemmlowp_min_bound == std::get<0>(quantization::get_min_max_values_from_quantized_data_type(output_stage->output_data_type))

286

&& _output_stage->gemmlowp_max_bound == std::get<1>(quantization::get_min_max_values_from_quantized_data_type(output_stage->output_data_type))));

287

if(_output_stage->output_data_type == DataType::QASYMM8)

288

{

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

289

_func = &CpuGemmLowpQuantizeDownInt32ScaleKernel::run_internal<uint8_t>;

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

290

}

291

else if(_output_stage->output_data_type == DataType::QASYMM8_SIGNED)

292

{

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

293

_func = &CpuGemmLowpQuantizeDownInt32ScaleKernel::run_internal<int8_t>;

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

}

else

{

ARM_COMPUTE_ERROR("Data type not supported");

}

}

Manuel Bottini

2021-06-17 17:18:45 +0100

[diff] [blame]

301

Status CpuGemmLowpQuantizeDownInt32ScaleKernel::validate(const ITensorInfo *src, const ITensorInfo *bias, const ITensorInfo *dst, const GEMMLowpOutputStageInfo *output_stage)

Luca Foschiani

4b86953

2020-02-13 15:07:36 +0000

[diff] [blame]

302

{

Manuel Bottini

ae58bdf

2021-06-17 17:18:45 +0100

[diff] [blame]

303

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(src, bias, dst, output_stage));