Blame - src/core/NEON/kernels/NEGEMMLowpOffsetContributionKernel.cpp - ml/ComputeLibrary

2017-11-16 19:24:39 +0000

[diff] [blame]

129

// Perform validate step

130

ARM_COMPUTE_ERROR_ON_NULLPTR(mm_result);

131

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(mm_result->info(),

132

vector_sum_col != nullptr ? vector_sum_col->info() : nullptr, // NOLINT

133

vector_sum_row != nullptr ? vector_sum_row->info() : nullptr, // NOLINT

134

a_offset, b_offset)); // NOLINT

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

135

136

_vector_sum_col = vector_sum_col;

137

_vector_sum_row = vector_sum_row;

138

_mm_result = mm_result;

139

_a_offset = a_offset;

140

_b_offset = b_offset;

141

_k_offset = a_offset * b_offset * k;

142

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

143

// If a_offset == 0, vector_sum_col can be a nullptr

144

if(a_offset != 0)

145

{

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

146

// Check if vector_sum_col_shape should be slidden or not

147

// Don't slide vector_sum_col_shape along the y dimension if vector_sum_col_shape has just 1 dimension and vector_sum_row_shape more than 1

148

// This scenario can happen when the the matrix multiplication is used to perform a convolution operation

Isabella Gottardi

e6630e4

2018-01-18 15:50:39 +0000

[diff] [blame]

149

_slide_vector_sum_col = vector_sum_col->info()->tensor_shape().num_dimensions() > 1;

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

150

}

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

151

152

// Configure kernel window

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

153

auto win_config = validate_and_configure_window(mm_result->info(),

154

vector_sum_col != nullptr ? vector_sum_col->info() : nullptr, // NOLINT

155

vector_sum_row != nullptr ? vector_sum_row->info() : nullptr, // NOLINT

156

a_offset, b_offset);

157

ARM_COMPUTE_ERROR_THROW_ON(win_config.first);

158

INEKernel::configure(win_config.second);

159

}

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

160

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

161

Status NEGEMMLowpOffsetContributionKernel::validate(const ITensorInfo *mm_result, const ITensorInfo *vector_sum_col, const ITensorInfo *vector_sum_row,

162

int32_t a_offset, int32_t b_offset)

Georgios Pinitas

2017-11-16 19:24:39 +0000

[diff] [blame]

163

{

164

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(mm_result, vector_sum_col, vector_sum_row, a_offset, b_offset));

165

ARM_COMPUTE_RETURN_ON_ERROR(validate_and_configure_window(mm_result->clone().get(),

166

vector_sum_col != nullptr ? vector_sum_col->clone().get() : nullptr,

167

vector_sum_row != nullptr ? vector_sum_row->clone().get() : nullptr,

168

a_offset, b_offset)

169

.first); // NOLINT

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

170

Georgios Pinitas

631c41a

2017-12-06 11:53:03 +0000

[diff] [blame]

171

return Status{};

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

172

}

173

174

void NEGEMMLowpOffsetContributionKernel::run(const Window &window, const ThreadInfo &info)

175

{

176

ARM_COMPUTE_UNUSED(info);

177

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

178

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(INEKernel::window(), window);

179

180

Window collapsed_window = window.collapse_if_possible(IKernel::window(), Window::DimZ);

181

182

if(_a_offset != 0 && _b_offset != 0) // true, true

183

{

184

// Set window for vector_sum_col

185

Window win_vector_sum_col(collapsed_window);

186

win_vector_sum_col.set(Window::DimY, Window::Dimension(0, 0, 0));

187

if(!_slide_vector_sum_col)

188

{

189

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

190

}

191

192

// Set window for vector_sum_row

193

Window win_vector_sum_row(collapsed_window);

194

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

195

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

Giorgio Arena

2018-07-16 17:20:38 +0100

[diff] [blame]

196

win_vector_sum_row.set(Window::DimZ, Window::Dimension(0, 0, 0));

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

197

198

Iterator vector_sum_col(_vector_sum_col, win_vector_sum_col);

199

Iterator vector_sum_row(_vector_sum_row, win_vector_sum_row);

200

Iterator mm_result(_mm_result, window);

201

Giorgio Arena

2018-07-16 17:20:38 +0100

[diff] [blame]

202

const size_t sum_row_stride_y = _vector_sum_row->info()->strides_in_bytes().y();

203

Isabella Gottardi

e6630e4

2018-01-18 15:50:39 +0000

[diff] [blame]

204

execute_window_loop(collapsed_window, [&](const Coordinates & id)

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

205

{

206

// Compute the leftover term due to a_offset.

207

int32x4x4_t a_offset_term_s32 =

208

{

209

{

210

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 0),

211

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 4),

212

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 8),

213

vld1q_s32(reinterpret_cast<const int32_t *>(vector_sum_col.ptr()) + 12)

}

};

a_offset_term_s32.val[0] = vmulq_n_s32(a_offset_term_s32.val[0], _a_offset);

218

a_offset_term_s32.val[1] = vmulq_n_s32(a_offset_term_s32.val[1], _a_offset);

219

a_offset_term_s32.val[2] = vmulq_n_s32(a_offset_term_s32.val[2], _a_offset);

220

a_offset_term_s32.val[3] = vmulq_n_s32(a_offset_term_s32.val[3], _a_offset);

221

222

// Compute the leftover term due to b_offset.

Giorgio Arena

2018-07-16 17:20:38 +0100

[diff] [blame]

223

int32x4_t b_offset_term_s32 = vld1q_dup_s32(reinterpret_cast<const int32_t *>(vector_sum_row.ptr() + id.z() * sum_row_stride_y) + id.y());

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

224

b_offset_term_s32 = vmulq_n_s32(b_offset_term_s32, _b_offset);

225

226

// Add a_offset_term_s32 and b_offset_term_s32

227

int32x4x4_t offset_term_s32 =

228

{

229

{

230

vdupq_n_s32(_k_offset),

231

vdupq_n_s32(_k_offset),

232

vdupq_n_s32(_k_offset),

233

vdupq_n_s32(_k_offset)

}

};

offset_term_s32.val[0] = vaddq_s32(offset_term_s32.val[0], vaddq_s32(a_offset_term_s32.val[0], b_offset_term_s32));

238

offset_term_s32.val[1] = vaddq_s32(offset_term_s32.val[1], vaddq_s32(a_offset_term_s32.val[1], b_offset_term_s32));

239

offset_term_s32.val[2] = vaddq_s32(offset_term_s32.val[2], vaddq_s32(a_offset_term_s32.val[2], b_offset_term_s32));

240

offset_term_s32.val[3] = vaddq_s32(offset_term_s32.val[3], vaddq_s32(a_offset_term_s32.val[3], b_offset_term_s32));

int32x4x4_t in_s32 =

{

{

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 0),

246

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 4),

247

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 8),

248

vld1q_s32(reinterpret_cast<const int32_t *>(mm_result.ptr()) + 12)

}

};

// Add the offset terms to GEMM's result

253

in_s32.val[0] = vaddq_s32(in_s32.val[0], offset_term_s32.val[0]);

254

in_s32.val[1] = vaddq_s32(in_s32.val[1], offset_term_s32.val[1]);

255

in_s32.val[2] = vaddq_s32(in_s32.val[2], offset_term_s32.val[2]);

256

in_s32.val[3] = vaddq_s32(in_s32.val[3], offset_term_s32.val[3]);

257

258

// Store the result with the offset contribution

259

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 0, in_s32.val[0]);

260

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 4, in_s32.val[1]);

261

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 8, in_s32.val[2]);

262

vst1q_s32(reinterpret_cast<int32_t *>(mm_result.ptr()) + 12, in_s32.val[3]);

263

},

264

vector_sum_col, vector_sum_row, mm_result);

265

}

266

else if((_a_offset == 0) && (_b_offset != 0)) // false, true

267

{

268

// Set window for vector_sum_row

269

Window win_vector_sum_row(collapsed_window);

270

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

271

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

Giorgio Arena

2018-07-16 17:20:38 +0100

[diff] [blame]

272

win_vector_sum_row.set(Window::DimZ, Window::Dimension(0, 0, 0));

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

273

274

Iterator vector_sum_row(_vector_sum_row, win_vector_sum_row);

275

Iterator mm_result(_mm_result, window);

276

Giorgio Arena

2018-07-16 17:20:38 +0100

[diff] [blame]

277

const size_t sum_row_stride_y = _vector_sum_row->info()->strides_in_bytes().y();

278

Gian Marco

2017-11-08 12:24:09 +0000

[diff] [blame]

279

execute_window_loop(window, [&](const Coordinates & id)

280

{

281

// Compute the leftover term due to b_offset.

Giorgio Arena

2018-07-16 17:20:38 +0100

[diff] [blame]

282

int32x4_t b_offset_term_s32 = vld1q_dup_s32(reinterpret_cast<const int32_t *>(vector_sum_row.ptr() + id.z() * sum_row_stride_y) + id.y());

Gian Marco