Blame - src/cpu/kernels/softmax/generic/neon/impl.cpp - ml/ComputeLibrary

2022-02-21 13:12:41 +0200

[diff] [blame]

1

/*

Pablo Marquez Tello

7ce8a83

2023-08-31 16:00:50 +0100

[diff] [blame]

2

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

3

*

4

* SPDX-License-Identifier: MIT

5

*

6

* Permission is hereby granted, free of charge, to any person obtaining a copy

7

* of this software and associated documentation files (the "Software"), to

8

* deal in the Software without restriction, including without limitation the

9

* rights to use, copy, modify, merge, publish, distribute, sublicense, and/or

10

* sell copies of the Software, and to permit persons to whom the Software is

11

* furnished to do so, subject to the following conditions:

12

*

13

* The above copyright notice and this permission notice shall be included in all

14

* copies or substantial portions of the Software.

15

*

16

* THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR

17

* IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,

18

* FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE

19

* AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER

20

* LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,

21

* OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE

22

* SOFTWARE.

23

*/

24

#include "src/cpu/kernels/softmax/generic/neon/impl.h"

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

25

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

26

#include "support/SaturateCast.h"

27

28

namespace arm_compute

29

{

30

namespace cpu

31

{

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

32

template <typename T, bool IS_LOG>

33

void neon_softmax_quantized(const ITensor *in, void *const tmp, ITensor *out, float beta, const Window &window)

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

34

{

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

35

static_assert(std::is_same<T, qasymm8_t>::value || std::is_same<T, qasymm8_signed_t>::value,

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

36

"quantized type should be either qasymm8_t or qasymm8_signed_t.");

37

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

38

const int input_width = in->info()->valid_region().shape.x();

39

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

40

const float scale_beta = -beta * in->info()->quantization_info().uniform().scale;

41

const float32x4_t scale_beta_vec = vdupq_n_f32(scale_beta);

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

42

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

43

Iterator in_it(in, window);

44

Iterator out_it(out, window);

45

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

46

constexpr int vec_size = 16;

47

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

48

#ifndef __aarch64__

49

const int sum_stages = log2(vec_size >> 1);

50

#endif // __aarch64__

51

52

using ExactTagType = typename wrapper::traits::neon_bitvector_tag_t<T, wrapper::traits::BitWidth::W128>;

53

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

54

execute_window_loop(

55

window,

56

[&](const Coordinates &)

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

57

{

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

58

/* Get pointers */

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

59

const T *in_ptr = reinterpret_cast<const T *>(in_it.ptr());

60

T *out_ptr = reinterpret_cast<T *>(out_it.ptr());

61

float *tmp_ptr = reinterpret_cast<float *>(tmp);

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

62

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

T max_val;

/* Compute Max */

{

// Init max value

auto vec_max = wrapper::vdup_n(support::cpp11::lowest<T>(), ExactTagType{});

69

int x = 0;

70

71

for (; x <= (input_width - vec_size); x += vec_size)

72

{

73

const auto current_value = wrapper::vloadq(in_ptr + x);

74

vec_max = wrapper::vmax(vec_max, current_value);

}

#ifdef __aarch64__

max_val = wrapper::vmaxv(vec_max);

79

#else // __aarch64__

80

auto carry_max = wrapper::vpmax(wrapper::vgethigh(vec_max), wrapper::vgetlow(vec_max));

81

82

for (int i = 0; i < sum_stages; ++i)

83

{

84

carry_max = wrapper::vpmax(carry_max, carry_max);

85

}

86

87

max_val = wrapper::vgetlane(carry_max, 0);

88

#endif // __aarch64__

89

90

// Compute left-over elements

91

for (; x < input_width; ++x)

92

{

93

max_val = std::max(*(in_ptr + x), max_val);

}

} // Compute Max

float sum_transformed{};

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

98

99

/* Compute exponentials and sum */

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

100

{

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

101

/* Get max value */

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

102

const auto vec_max = wrapper::vdup_n(max_val, wrapper::traits::vector_128_tag{});

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

103

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

104

/* Init sum to zero */

105

float32x4x4_t vec_sum = {

vdupq_n_f32(0.f),

vdupq_n_f32(0.f),

vdupq_n_f32(0.f),

vdupq_n_f32(0.f),

};

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

111

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

112

/* Loop over row and compute exponentials and sum */

113

int x = 0;

114

for (; x <= (input_width - vec_size); x += vec_size)

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

115

{

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

116

auto vec_elements = wrapper::vloadq(in_ptr + x);

117

vec_elements = wrapper::vqsub(vec_max, vec_elements);

118

float32x4x4_t vec_elements_flt = convert_int_to_float<float32x4x4_t>(vec_elements);

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

119

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

120

if (IS_LOG)

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

121

{

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

122

vec_elements_flt.val[0] = vmulq_f32(vec_elements_flt.val[0], scale_beta_vec);

123

vec_elements_flt.val[1] = vmulq_f32(vec_elements_flt.val[1], scale_beta_vec);

124

vec_elements_flt.val[2] = vmulq_f32(vec_elements_flt.val[2], scale_beta_vec);

125

vec_elements_flt.val[3] = vmulq_f32(vec_elements_flt.val[3], scale_beta_vec);

126

vec_sum.val[0] = vaddq_f32(vec_sum.val[0], vexpq_f32(vec_elements_flt.val[0]));

127

vec_sum.val[1] = vaddq_f32(vec_sum.val[1], vexpq_f32(vec_elements_flt.val[1]));

128

vec_sum.val[2] = vaddq_f32(vec_sum.val[2], vexpq_f32(vec_elements_flt.val[2]));

129

vec_sum.val[3] = vaddq_f32(vec_sum.val[3], vexpq_f32(vec_elements_flt.val[3]));

130

}

131

else

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

132

{

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

133

vec_elements_flt.val[0] = vexpq_f32(vmulq_f32(vec_elements_flt.val[0], scale_beta_vec));

134

vec_elements_flt.val[1] = vexpq_f32(vmulq_f32(vec_elements_flt.val[1], scale_beta_vec));

135

vec_elements_flt.val[2] = vexpq_f32(vmulq_f32(vec_elements_flt.val[2], scale_beta_vec));

136

vec_elements_flt.val[3] = vexpq_f32(vmulq_f32(vec_elements_flt.val[3], scale_beta_vec));

137

vec_sum.val[0] = vaddq_f32(vec_sum.val[0], vec_elements_flt.val[0]);

138

vec_sum.val[1] = vaddq_f32(vec_sum.val[1], vec_elements_flt.val[1]);

139

vec_sum.val[2] = vaddq_f32(vec_sum.val[2], vec_elements_flt.val[2]);

140

vec_sum.val[3] = vaddq_f32(vec_sum.val[3], vec_elements_flt.val[3]);

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

141

}

142

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

143

vst4q_f32(tmp_ptr + x, vec_elements_flt);

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

144

}

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

145

146

/* Reduce sum */

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

147

const float32x4_t sum_16_byte =

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

148

vaddq_f32(vaddq_f32(vec_sum.val[0], vec_sum.val[1]), vaddq_f32(vec_sum.val[2], vec_sum.val[3]));

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

float sum;

#ifdef __aarch64__

sum = wrapper::vaddv(sum_16_byte);

154

#else // __aarch64__

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

155

auto sum_res = vpadd_f32(vget_high_f32(sum_16_byte), vget_low_f32(sum_16_byte));

156

sum_res = vpadd_f32(sum_res, sum_res);

157

sum = wrapper::vgetlane(sum_res, 0);

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

158

#endif // __aarch64__

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

159

160

/* Run remaining elements */

161

for (; x < input_width; ++x)

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

162

{

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

163

float element{};

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

164

if (IS_LOG)

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

165

{

166

element = (max_val - in_ptr[x]) * scale_beta;

167

sum += std::exp(element);

}

else

{

element = std::exp((max_val - in_ptr[x]) * scale_beta);

sum += element;

}

tmp_ptr[x] = element;

176

}

177

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

178

if (!IS_LOG)

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

179

{

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

180

sum_transformed = 256.f / sum;

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

181

}

182

else

183

{

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

184

sum_transformed = std::log(sum);

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

185

}

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

186

} // Compute exponentials and sum

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

187

188

/* Normalize exponentials */

189

{

190

constexpr bool is_qasymm8_signed = std::is_same<T, qasymm8_signed_t>::value;

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

191

192

const float32x4_t sum_vec = vdupq_n_f32(sum_transformed);

193

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

194

/* Loop over row and compute softmax */

195

int x = 0;

196

for (; x <= (input_width - vec_size); x += vec_size)

197

{

198

using int_vec_type = wrapper::traits::neon_vector_t<T, 16>;

199

float32x4x4_t vec_in = vld4q_f32(tmp_ptr + x);

200

int_vec_type normalized_value{};

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

201

if (IS_LOG)

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

202

{

203

const float32x4x4_t sub = {

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

204

vsubq_f32(vec_in.val[0], sum_vec),

205

vsubq_f32(vec_in.val[1], sum_vec),

206

vsubq_f32(vec_in.val[2], sum_vec),

207

vsubq_f32(vec_in.val[3], sum_vec),

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

208

};

209

normalized_value = convert_float_to_int<float32x4x4_t, int_vec_type>(sub);

}

else

{

float32x4x4_t mul = {

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

214

vmulq_f32(vec_in.val[0], sum_vec),

215

vmulq_f32(vec_in.val[1], sum_vec),

216

vmulq_f32(vec_in.val[2], sum_vec),

217

vmulq_f32(vec_in.val[3], sum_vec),

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

218

};

219

220

if (is_qasymm8_signed)

221

{

222

const auto offset_vec = wrapper::vdup_n(128.f, wrapper::traits::vector_128_tag{});

223

mul.val[0] = wrapper::vsub(mul.val[0], offset_vec);

224

mul.val[1] = wrapper::vsub(mul.val[1], offset_vec);

225

mul.val[2] = wrapper::vsub(mul.val[2], offset_vec);

226

mul.val[3] = wrapper::vsub(mul.val[3], offset_vec);

227

}

228

229

normalized_value = convert_float_to_int<float32x4x4_t, int_vec_type>(mul);

230

}

231

wrapper::vstore(out_ptr + x, normalized_value);

232

}

233

/* Run remaining elements */

234

for (; x < input_width; ++x)

235

{

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

236

if (IS_LOG)

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

237

{

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

238

out_ptr[x] = utils::cast::saturate_cast<T>(tmp_ptr[x] - sum_transformed);

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

239

}

240

else

241

{

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

242

out_ptr[x] = utils::cast::saturate_cast<T>((tmp_ptr[x] * sum_transformed) -

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

243

(is_qasymm8_signed ? 128.f : 0));

244

}

245

}

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

246

} // Normalize exponentials

Felix Thomasmathibalan

2023-09-27 17:46:17 +0100

[diff] [blame]

247

},

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

248

in_it, out_it);

Dana Zlotnik

2022-02-21 13:12:41 +0200

[diff] [blame]

249

}

250

Gunes Bayir

2023-11-07 05:43:07 +0000

[diff] [blame]

251

template void neon_softmax_quantized<qasymm8_signed_t, true>(

252

const ITensor *in, void *const tmp, ITensor *out, float beta, const Window &window);

253

254

template void neon_softmax_quantized<qasymm8_signed_t, false>(

255

const ITensor *in, void *const tmp, ITensor *out, float beta, const Window &window);

256

257

template void neon_softmax_quantized<qasymm8_t, true>(

258

const ITensor *in, void *const tmp, ITensor *out, float beta, const Window &window);

259

260

template void neon_softmax_quantized<qasymm8_t, false>(

261

const ITensor *in, void *const tmp, ITensor *out, float beta, const Window &window);

Dana Zlotnik