Blame - src/core/NEON/kernels/NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel.cpp - ml/ComputeLibrary

2017-11-28 09:10:03 +0000

[diff] [blame]

120

} // namespace arm_compute

121

122

template <bool is_bounded_relu>

123

void NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::run(const Window &window)

124

{

125

const int32x4_t result_offset_after_shift_s32 = vdupq_n_s32(_result_offset_after_shift);

126

const uint8x16_t min_u8 = vdupq_n_u8(static_cast<uint8_t>(_min));

127

const uint8x16_t max_u8 = vdupq_n_u8(static_cast<uint8_t>(_max));

128

129

ARM_COMPUTE_UNUSED(min_u8);

130

ARM_COMPUTE_UNUSED(max_u8);

131

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

132

const int window_step_x = 16;

133

const auto window_start_x = static_cast<int>(window.x().start());

134

const auto window_end_x = static_cast<int>(window.x().end());

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

135

Georgios Pinitas

2018-09-18 18:38:37 +0100

[diff] [blame]

136

Window win_collapsed = window.collapse_if_possible(window, Window::DimZ);

137

win_collapsed.set(Window::DimX, Window::Dimension(0, 1, 1));

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

138

Georgios Pinitas

2018-09-18 18:38:37 +0100

[diff] [blame]

139

Iterator in(_input, win_collapsed);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

140

Iterator out(_output, win_collapsed);

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

141

if(_bias != nullptr)

142

{

143

Window win_biases;

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

144

win_biases.set(Window::DimX, Window::Dimension(0, 1, 1));

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

145

win_biases.set(Window::DimY, Window::Dimension(0, 1, 1));

146

147

Iterator bias(_bias, win_biases);

Georgios Pinitas

2018-09-18 18:38:37 +0100

[diff] [blame]

148

execute_window_loop(win_collapsed, [&](const Coordinates & id)

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

149

{

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

150

// Compute 16 elements per iteration

151

int x = window_start_x;

152

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

153

{

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

154

int32x4x4_t in_s32 =

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

155

{

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

156

{

157

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 0),

158

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 4),

159

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 8),

160

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 12)

161

}

162

};

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

163

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

164

const int32x4x4_t bias_s32 =

165

{

166

{

167

vld1q_s32(reinterpret_cast<const int32_t *>(bias.ptr()) + x + 0),

168

vld1q_s32(reinterpret_cast<const int32_t *>(bias.ptr()) + x + 4),

169

vld1q_s32(reinterpret_cast<const int32_t *>(bias.ptr()) + x + 8),

170

vld1q_s32(reinterpret_cast<const int32_t *>(bias.ptr()) + x + 12)

}

};

// Add the bias to GEMM's result

175

in_s32.val[0] = vaddq_s32(in_s32.val[0], bias_s32.val[0]);

176

in_s32.val[1] = vaddq_s32(in_s32.val[1], bias_s32.val[1]);

177

in_s32.val[2] = vaddq_s32(in_s32.val[2], bias_s32.val[2]);

178

in_s32.val[3] = vaddq_s32(in_s32.val[3], bias_s32.val[3]);

179

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

180

vst1q_u8(out.ptr() + x, finalize_quantization<is_bounded_relu>(in_s32, _result_fixedpoint_multiplier, _result_shift, result_offset_after_shift_s32, min_u8, max_u8));

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

181

}

182

183

// Compute left-over elements

184

for(; x < window_end_x; ++x)

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

185

{

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

186

const int32_t bias_value = *(reinterpret_cast<const int32_t *>(bias.ptr()) + x);

187

int32_t in_value = *(reinterpret_cast<const int32_t *>(in.ptr()) + x);

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

188

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

189

// Add bias

190

in_value += bias_value;

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

191

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

192

// Finalize and store the result

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

193

*(out.ptr() + x) = finalize_quantization<is_bounded_relu>(vdupq_n_s32(in_value), _result_fixedpoint_multiplier, _result_shift, result_offset_after_shift_s32, static_cast<uint8_t>(_min),

194

static_cast<uint8_t>(_max));

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

195

}

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

196

},

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

197

in, out, bias);

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

198

}

199

else

200

{

Georgios Pinitas

2018-09-18 18:38:37 +0100

[diff] [blame]

201

execute_window_loop(win_collapsed, [&](const Coordinates & id)

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

202

{

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

203

// Compute 16 elements per iteration

204

int x = window_start_x;

205

for(; x <= (window_end_x - window_step_x); x += window_step_x)

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

206

{

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

207

int32x4x4_t in_s32 =

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

208

{

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

209

{

210

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 0),

211

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 4),

212

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 8),

213

vld1q_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x + 12)

214

}

215

};

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

216

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

217

vst1q_u8(out.ptr() + x, finalize_quantization<is_bounded_relu>(in_s32, _result_fixedpoint_multiplier, _result_shift, result_offset_after_shift_s32, min_u8, max_u8));

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

218

}

219

220

// Compute left-over elements

221

for(; x < window_end_x; ++x)

222

{

223

const int32x4_t in_s32 = vld1q_dup_s32(reinterpret_cast<const int32_t *>(in.ptr()) + x);

224

225

// Finalize and store the result

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

226

*(out.ptr() + x) = finalize_quantization<is_bounded_relu>(in_s32, _result_fixedpoint_multiplier, _result_shift, result_offset_after_shift_s32, static_cast<uint8_t>(_min), static_cast<uint8_t>(_max));

Gian Marco

2017-12-07 09:26:56 +0000

[diff] [blame]

227

}

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

228

},

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

229

in, out);

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

}

}

NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel()

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

234

: _func(nullptr), _input(nullptr), _bias(nullptr), _output(nullptr), _result_fixedpoint_multiplier(0), _result_shift(0), _result_offset_after_shift(0), _min(0), _max(0)

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

{

}

void NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::configure(const ITensor *input, const ITensor *bias, ITensor *output, int result_fixedpoint_multiplier, int result_shift,

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

239

int result_offset_after_shift, int min, int max)

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

240

{

241

// Perform validate step

242

ARM_COMPUTE_ERROR_ON_NULLPTR(input, output);

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

243

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(input->info(), (bias != nullptr) ? bias->info() : nullptr, output->info(), min, max));

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

_input = input;

_bias = bias;

_output = output;

_result_fixedpoint_multiplier = result_fixedpoint_multiplier;

249

_result_shift = result_shift;

250

_result_offset_after_shift = result_offset_after_shift;

_min = min;

_max = max;

// Configure kernel window

Georgios Pinitas

5a59453

2018-12-03 14:30:05 +0000

[diff] [blame^]

255

auto win_config = validate_and_configure_window(input->info(), output->info());

Gian Marco

2017-11-28 09:10:03 +0000

[diff] [blame]

256

ARM_COMPUTE_ERROR_THROW_ON(win_config.first);

257

INEKernel::configure(win_config.second);

258

259

// Check if we need to clamp the result using min and max

260

const bool is_bounded_relu = ((min != max) && !(min == 0 && max == 255));

261

_func = is_bounded_relu ? &NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::run<true> : &NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::run<false>;

262

}

263

Georgios Pinitas

2018-11-08 10:22:01 +0000

[diff] [blame]

264

Status NEGEMMLowpQuantizeDownInt32ToUint8ScaleByFixedPointKernel::validate(const ITensorInfo *input, const ITensorInfo *bias, const ITensorInfo *output, int min, int max)

Gian Marco