Blame - tests/validation/reference/Winograd.cpp - ml/ComputeLibrary

2018-02-22 16:17:20 +0000

[diff] [blame]

46

{

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

47

// Winograd input transform matrices

48

static const float imatrix2x2_3x3[] =

Giorgio Arena

2d9de0a

2018-03-15 17:58:20 +0000

[diff] [blame]

49

{

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

50

1.0f, 0.0f, -1.0f, 0.0f,

51

0.0f, 1.0f, 1.0f, 0.0f,

52

0.0f, -1.0f, 1.0f, 0.0f,

53

0.0f, 1.0f, 0.0f, -1.0f

54

};

55

56

static const float imatrix4x4_3x3[] =

57

{

58

4.0f, 0.0f, -5.0f, 0.0f, 1.0f, 0.0f,

59

0.0f, -4.0f, -4.0f, 1.0f, 1.0f, 0.0f,

60

0.0f, 4.0f, -4.0f, -1.0f, 1.0f, 0.0f,

61

0.0f, -2.0f, -1.0f, 2.0f, 1.0f, 0.0f,

62

0.0f, 2.0f, -1.0f, -2.0f, 1.0f, 0.0f,

63

0.0f, 4.0f, 0.0f, -5.0f, 0.0f, 1.0f,

64

};

65

Giorgio Arena

fe5ef38

2018-04-17 10:14:10 +0100

[diff] [blame]

66

static const float imatrix4x4_5x5[] =

67

{

68

1.f, 0.f, -21.f / 4.f, 0.f, 21.f / 4.f, 0.f, -1.f, 0.f,

69

0.f, 1.f, 1.f, -17.f / 4.f, -17.f / 4.f, 1.f, 1.f, 0.f,

70

0.f, -1.f, 1.f, 17.f / 4.f, -17.f / 4.f, -1.f, 1.f, 0.f,

71

0.f, 1.f / 2.f, 1.f / 4.f, -5.f / 2.f, -5.f / 4.f, 2.f, 1.f, 0.f,

72

0.f, -1.f / 2.f, 1.f / 4.f, 5.f / 2.f, -5.f / 4.f, -2.f, 1.f, 0.f,

73

0.f, 2.f, 4.f, -5.f / 2.f, -5.f, 1.f / 2.f, 1.f, 0.f,

74

0.f, -2.f, 4.f, 5.f / 2.f, -5.f, -1.f / 2.f, 1.f, 0.f,

75

0.f, -1.f, 0.f, 21.f / 4.f, 0.f, -21.f / 4.f, 0.f, 1.f

76

};

77

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

78

// ------------------------------------------

79

80

// Winograd filter transform matrices

81

static const float fmatrix2x2_3x3[] =

{

1.0f, 0.0f, 0.0f,

0.5f, 0.5f, 0.5f,

0.5f, -0.5f, 0.5f,

0.0f, 0.0f, 1.0f

};

static const float fmatrix4x4_3x3[] =

90

{

91

0.25f, 0.0f, 0.0f,

92

-1.0f / 6.0f, -1.0f / 6.0f, -1.0f / 6.0f,

93

-1.0f / 6.0f, 1.0f / 6.0f, -1.0f / 6.0f,

94

1.0f / 24.0f, 1.0f / 12.0f, 1.0f / 6.0f,

95

1.0f / 24.0f, -1.0f / 12.0f, 1.0f / 6.0f,

0.0f, 0.0f, 1.0f

};

Giorgio Arena

2018-04-11 19:07:17 +0100

[diff] [blame]

99

static const float fmatrix4x4_5x5[] =

100

{

101

1.0f, 0.0f, 0.0f, 0.0f, 0.0f,

102

-2.0f / 9.0f, -2.0f / 9.0f, -2.0f / 9.0f, -2.0f / 9.0f, -2.0f / 9.0f,

103

-2.0f / 9.0f, 2.0f / 9.0f, -2.0f / 9.0f, 2.0f / 9.0f, -2.0f / 9.0f,

104

1.0f / 90.0f, 1.0f / 45.0f, 2.0f / 45.0f, 4.0f / 45.0f, 8.0f / 45.0f,

105

1.0f / 90.0f, -1.0f / 45.0f, 2.0f / 45.0f, -4.0f / 45.0f, 8.0f / 45.0f,

106

4.0f / 45.0f, 2.0f / 45.0f, 1.0f / 45.0f, 1.0f / 90.0f, 1.0f / 180.0f,

107

4.0f / 45.0f, -2.0f / 45.0f, 1.0f / 45.0f, -1.0f / 90.0f, 1.0f / 180.0f,

108

0.0f, 0.0f, 0.0f, 0.0f, 1.0f

};

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

112

// ------------------------------------------

113

114

// Winograd output transform matrices

115

static const float omatrix2x2_3x3[] =

116

{

117

1.0f, 1.0f, 1.0f, 0.0f,

118

0.0f, 1.0f, -1.0f, -1.0f

119

};

120

121

static const float omatrix4x4_3x3[] =

122

{

123

1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 0.0f,

124

0.0f, 1.0f, -1.0f, 2.0f, -2.0f, 0.0f,

125

0.0f, 1.0f, 1.0f, 4.0f, 4.0f, 0.0f,

126

0.0f, 1.0f, -1.0f, 8.0f, -8.0f, 1.0f

127

};

128

Giorgio Arena

dd03870

2018-04-16 11:20:11 +0100

[diff] [blame]

129

static const float omatrix4x4_5x5[] =

130

{

131

1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 8.0f, 8.0f, 0.0f,

132

0.0f, 1.0f, -1.0f, 2.0f, -2.0f, 4.0f, -4.0f, 0.0f,

133

0.0f, 1.0f, 1.0f, 4.0f, 4.0f, 2.0f, 2.0f, 0.0f,

134

0.0f, 1.0f, -1.0f, 8.0f, -8.0f, 1.0f, -1.0f, 1.0f

135

};

136

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

137

// ------------------------------------------

138

139

using WinogradKey = std::tuple<std::pair<int, int>, std::pair<int, int>, WinogradTransformType>;

140

141

// Key = (Output tile size, Kernel size, Winograd transform type)

142

static std::map<WinogradKey, const float *> matrix_map =

143

{

144

{ WinogradKey(std::pair<int, int>(2, 2), std::pair<int, int>(3, 3), WinogradTransformType::INPUT), imatrix2x2_3x3 },

145

{ WinogradKey(std::pair<int, int>(4, 4), std::pair<int, int>(3, 3), WinogradTransformType::INPUT), imatrix4x4_3x3 },

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

146

{ WinogradKey(std::pair<int, int>(2, 1), std::pair<int, int>(3, 1), WinogradTransformType::INPUT), imatrix2x2_3x3 },

147

{ WinogradKey(std::pair<int, int>(4, 1), std::pair<int, int>(3, 1), WinogradTransformType::INPUT), imatrix4x4_3x3 },

148

{ WinogradKey(std::pair<int, int>(1, 2), std::pair<int, int>(1, 3), WinogradTransformType::INPUT), imatrix2x2_3x3 },

149

{ WinogradKey(std::pair<int, int>(1, 4), std::pair<int, int>(1, 3), WinogradTransformType::INPUT), imatrix4x4_3x3 },

Giorgio Arena

fe5ef38

2018-04-17 10:14:10 +0100

[diff] [blame]

150

{ WinogradKey(std::pair<int, int>(4, 4), std::pair<int, int>(5, 5), WinogradTransformType::INPUT), imatrix4x4_5x5 },

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

151

{ WinogradKey(std::pair<int, int>(2, 2), std::pair<int, int>(3, 3), WinogradTransformType::FILTER), fmatrix2x2_3x3 },

152

{ WinogradKey(std::pair<int, int>(4, 4), std::pair<int, int>(3, 3), WinogradTransformType::FILTER), fmatrix4x4_3x3 },

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

153

{ WinogradKey(std::pair<int, int>(2, 1), std::pair<int, int>(3, 1), WinogradTransformType::FILTER), fmatrix2x2_3x3 },

154

{ WinogradKey(std::pair<int, int>(4, 1), std::pair<int, int>(3, 1), WinogradTransformType::FILTER), fmatrix4x4_3x3 },

155

{ WinogradKey(std::pair<int, int>(1, 2), std::pair<int, int>(1, 3), WinogradTransformType::FILTER), fmatrix2x2_3x3 },

156

{ WinogradKey(std::pair<int, int>(1, 4), std::pair<int, int>(1, 3), WinogradTransformType::FILTER), fmatrix4x4_3x3 },

Giorgio Arena

9373c8b

2018-04-11 19:07:17 +0100

[diff] [blame]

157

{ WinogradKey(std::pair<int, int>(4, 4), std::pair<int, int>(5, 5), WinogradTransformType::FILTER), fmatrix4x4_5x5 },

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

158

{ WinogradKey(std::pair<int, int>(2, 2), std::pair<int, int>(3, 3), WinogradTransformType::OUTPUT), omatrix2x2_3x3 },

159

{ WinogradKey(std::pair<int, int>(4, 4), std::pair<int, int>(3, 3), WinogradTransformType::OUTPUT), omatrix4x4_3x3 },

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

160

{ WinogradKey(std::pair<int, int>(2, 1), std::pair<int, int>(3, 1), WinogradTransformType::OUTPUT), omatrix2x2_3x3 },

161

{ WinogradKey(std::pair<int, int>(4, 1), std::pair<int, int>(3, 1), WinogradTransformType::OUTPUT), omatrix4x4_3x3 },

162

{ WinogradKey(std::pair<int, int>(1, 2), std::pair<int, int>(1, 3), WinogradTransformType::OUTPUT), omatrix2x2_3x3 },

163

{ WinogradKey(std::pair<int, int>(1, 4), std::pair<int, int>(1, 3), WinogradTransformType::OUTPUT), omatrix4x4_3x3 },

Giorgio Arena

dd03870

2018-04-16 11:20:11 +0100

[diff] [blame]

164

{ WinogradKey(std::pair<int, int>(4, 4), std::pair<int, int>(5, 5), WinogradTransformType::OUTPUT), omatrix4x4_5x5 },

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

165

};

166

Giorgio Arena

9373c8b

2018-04-11 19:07:17 +0100

[diff] [blame]

167

// Find transformation matrix

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

168

std::map<WinogradKey, const float *>::iterator it;

169

170

it = matrix_map.find(WinogradKey(std::pair<int, int>(output_tile_size.width, output_tile_size.height),

171

std::pair<int, int>(kernel_size.width, kernel_size.height),

172

winograd_transform_type));

173

174

float const *matrix_values = nullptr;

175

if(it != matrix_map.end())

176

{

177

// Get matrix pointer

178

matrix_values = it->second;

Giorgio Arena

2d9de0a

2018-03-15 17:58:20 +0000

[diff] [blame]

179

}

180

else

181

{

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

182

ARM_COMPUTE_ERROR("Winograd configuration not supported");

Giorgio Arena

2d9de0a

2018-03-15 17:58:20 +0000

[diff] [blame]

183

}

Gian Marco Iodice

2018-02-22 16:17:20 +0000

[diff] [blame]

184

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

185

// Copy values

186

std::copy(&matrix_values[0], &matrix_values[0] + src.num_elements(), &src[0]);

Gian Marco Iodice

2018-02-22 16:17:20 +0000

[diff] [blame]

187

}

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

188

} // namespace

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

189

190

template <typename T>

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

191

void print_tile(SimpleTensor<T> &in)

192

{

193

for(int y = 0; y < in.shape()[1]; y++)

194

{

195

for(int x = 0; x < in.shape()[0]; x++)

196

{

197

std::cout << in[x + y * in.shape()[0]] << " ";

198

}

199

200

std::cout << std::endl;

}

}

template <typename T>

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

205

SimpleTensor<T> winograd_input_transform(const SimpleTensor<T> &in, const TensorShape &output_shape, const WinogradInfo &winograd_info)

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

206

{

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

207

ARM_COMPUTE_ERROR_ON(in.data_layout() != DataLayout::NCHW);

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

208

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

209

const PadStrideInfo conv_info = winograd_info.convolution_info;

210

const Size2D output_tile_size = winograd_info.output_tile_size;

211

const Size2D kernel_size = winograd_info.kernel_size;

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

212

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

213

SimpleTensor<T> out{ output_shape, in.data_type() };

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

214

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

215

// Calculate dimensions for the tile

216

const unsigned int tile_w = output_tile_size.width + kernel_size.width - 1;

217

const unsigned int tile_h = output_tile_size.height + kernel_size.height - 1;

218

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

219

// Get the maximum dimension from the tile size

220

const unsigned int tile_max_dim = std::max(tile_w, tile_h);

221

222

TensorShape tile_dims(tile_max_dim, tile_max_dim);

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

223

224

// Simple tensor for the input tile

225

SimpleTensor<T> src_tile{ tile_dims, in.data_type() };

226

227

// Simple tensor for the temporary tile

228

SimpleTensor<T> tmp_tile{ tile_dims, in.data_type() };

229

230

// Simple tensor for the output tile

231

SimpleTensor<T> dst_tile{ tile_dims, in.data_type() };

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

232

233

// Simple tensor for the transformation matrix

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

234

SimpleTensor<T> matrix{ tile_dims, in.data_type() };

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

235

236

// Simple tensor for the transformation matrix transposed

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

237

SimpleTensor<T> matrix_transposed{ tile_dims, in.data_type() };

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

238

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

239

// Initialize matrix for the input transform

240

initialize_matrix_transform(matrix, output_tile_size, kernel_size, WinogradTransformType::INPUT);

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

241

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

242

// Transpose matrix

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

243

transpose_matrix(matrix, matrix_transposed);

244

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

245

const int in_w = in.shape().x();

246

const int in_h = in.shape().y();

247

const int in_d = in.shape().z();

248

const int out_d = out.shape().z();

249

const int num_batches = in.shape().total_size() / (in_w * in_h * in_d);

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

250

const int step_x = output_tile_size.width;

251

const int step_y = output_tile_size.height;

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

252

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

253

// Compute the number of output tiles along the x and y direction of size "output_tile_size"

254

const Size2D num_tiles = compute_winograd_convolution_tiles(Size2D(in_w, in_h),

kernel_size,

output_tile_size,

conv_info);

const int num_tiles_x = num_tiles.width;

260

const int num_tiles_y = num_tiles.height;

261

262

// In case of 1D convolution, the input tile has to be partially filled with zeros

263

int start_x_zero = 0;

264

int start_y_zero = 0;

int end_x_zero = 0;

int end_y_zero = 0;

if(output_tile_size.width == 1)

{

start_x_zero = 1;

start_y_zero = 0;

end_x_zero = tile_max_dim - 1;

273

end_y_zero = tile_max_dim;

274

}

275

else if(output_tile_size.height == 1)

{

start_x_zero = 0;

start_y_zero = 1;

end_x_zero = tile_max_dim;

280

end_y_zero = tile_max_dim - 1;

281

}

282

283

// Set the anchor and shape of the zeros area

284

const Coordinates anchor_zeros(start_x_zero, start_y_zero);

285

const TensorShape shape_zeros(end_x_zero, end_y_zero);

286

287

// If we have a vertical filter (i.e. 1x3, 1x5,..), we need to take the elements along the y direction (step = width of the output tile)

288

const int step_y_transf_tile = kernel_size.width == 1 ? tile_max_dim : 1;

289

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

290

ARM_COMPUTE_ERROR_ON((num_tiles_x * num_tiles_y) != static_cast<int>(out.shape().y()));

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

291

292

for(int b = 0; b < num_batches; ++b)

293

{

294

for(int z = 0; z < in_d; ++z)

295

{

296

for(int y = 0; y < num_tiles_y; ++y)

297

{

298

for(int x = 0; x < num_tiles_x; ++x)

299

{

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

300

int xi = x * step_x - conv_info.pad_left();

301

int yi = y * step_y - conv_info.pad_top();

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

302

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

303

// Get the tile from the input tensor

304

get_tile(in, src_tile, Coordinates(xi, yi, z, b));

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

305

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

306

// Fill partially with zeros in case of 1D convolution

307

zeros(src_tile, anchor_zeros, shape_zeros);

308

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

309

// Compute the transformation

310

matrix_multiply(matrix, src_tile, tmp_tile);

311

matrix_multiply(tmp_tile, matrix_transposed, dst_tile);

312

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

313

// Store the output tile across the channels

314

for(int i = 0; i < out_d; ++i)

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

315

{

316

int xo = z;

317

int yo = x + y * num_tiles_x;

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

318

out[coords2index(out.shape(), Coordinates(xo, yo, i, b))] = dst_tile[i * step_y_transf_tile];

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

}

}

}

}

}

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

324

325

return out;

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

326

}

327

328

template <typename T>

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

329

SimpleTensor<T> winograd_filter_transform(const SimpleTensor<T> &in, const TensorShape &output_shape, const WinogradInfo &winograd_info)

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

330

{

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

331

ARM_COMPUTE_ERROR_ON_MSG(in.data_layout() != DataLayout::NCHW, "Only supported NCHW data format");

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

332

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

333

// Create reference

334

SimpleTensor<T> out{ output_shape, in.data_type(), 1 };

335

336

const Size2D output_tile_size = winograd_info.output_tile_size;

337

const Size2D kernel_size = winograd_info.kernel_size;

338

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

339

// Calculate dimensions for the tile

340

const unsigned int input_tile_w = output_tile_size.width + kernel_size.width - 1;

341

const unsigned int input_tile_h = output_tile_size.height + kernel_size.height - 1;

342

const unsigned int input_tile_area = input_tile_w * input_tile_h;

343

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

344

// Get the maximum dimension from the filter size

345

const unsigned int kernel_max_dim = std::max(kernel_size.width, kernel_size.height);

346

347

// Get the maximum dimension from the input tile

348

const unsigned int input_tile_max_dim = std::max(input_tile_w, input_tile_h);

349

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

350

// Simple tensor for the input tile

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

351

SimpleTensor<T> input_tile{ TensorShape(kernel_max_dim, kernel_max_dim), in.data_type(), 1 };

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

352

353

// Simple tensor for the transformation matrix

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

354

SimpleTensor<T> trans_matrix{ TensorShape(kernel_max_dim, input_tile_max_dim), in.data_type(), 1 };

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

355

356

// Simple tensor for the transformation matrix transpose

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

357

SimpleTensor<T> trans_matrix_transposed{ TensorShape(input_tile_max_dim, kernel_max_dim), in.data_type(), 1 };

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

358

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

359

// Simple tensor for the temporary tile

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

360

SimpleTensor<T> tmp_tile{ TensorShape(kernel_max_dim, input_tile_max_dim), in.data_type(), 1 };

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

361

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

362

// Simple tensor for the output tile

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

363

SimpleTensor<T> transf_tile{ TensorShape(input_tile_max_dim, input_tile_max_dim), in.data_type(), 1 };

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

364

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

365

// Initialize matrix for the filter transform

366

initialize_matrix_transform(trans_matrix, output_tile_size, kernel_size, WinogradTransformType::FILTER);

367

368

// Transpose the transformation matrix

369

transpose_matrix(trans_matrix, trans_matrix_transposed);

370

371

const int num_channels = in.shape()[2];

372

const int num_filters = in.shape()[3];

373

const int num_batches = in.shape().total_size() / (kernel_size.area() * num_channels * num_filters);

374

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

375

// If we have a vertical filter (i.e. 1x3, 1x5,..), we need to take the elements along the y direction (step_y_transf_tile = width of the output tile)

376

const int step_y_transf_tile = kernel_size.width == 1 ? input_tile_max_dim : 1;

377

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

378

for(int n = 0; n < num_batches; ++n)

379

{

380

for(int w = 0; w < num_filters; ++w)

381

{

382

for(int z = 0; z < num_channels; ++z)

383

{

384

// Load the tile from the input tensor

385

get_tile(in, input_tile, Coordinates(0, 0, z, w, n));

386

387

// First transformation

388

matrix_multiply(trans_matrix, input_tile, tmp_tile);

389

390

// Second transformation

391

matrix_multiply(tmp_tile, trans_matrix_transposed, transf_tile);

392

393

// Store the output tile across the channels

394

const int output_offset = w + z * num_filters;

395

396

// Store the values across the channels

397

for(unsigned int i = 0; i < input_tile_area; ++i)

398

{

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

399

out[output_offset + i * num_filters * num_channels] = transf_tile[i * step_y_transf_tile];

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

}

}

}

}

return out;

}

template <typename T>

Gian Marco Iodice

2213d4b

2018-04-27 10:39:06 +0100

[diff] [blame]

409

SimpleTensor<T> winograd_output_transform(const SimpleTensor<T> &in, const SimpleTensor<T> &b, const TensorShape &output_shape, const WinogradInfo &winograd_info)

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

410

{

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

411

const PadStrideInfo conv_info = winograd_info.convolution_info;

412

const Size2D input_dimensions = winograd_info.input_dimensions;

413

const Size2D output_tile_size = winograd_info.output_tile_size;

414

const Size2D kernel_size = winograd_info.kernel_size;

415

416

// Create reference

417

SimpleTensor<T> out{ output_shape, in.data_type(), 1 };

418

419

// Calculate dimensions for the tiles

420

const unsigned int in_tile_w = output_tile_size.width + kernel_size.width - 1;

421

const unsigned int in_tile_h = output_tile_size.height + kernel_size.height - 1;

422

const unsigned int out_tile_w = output_tile_size.width;

423

const unsigned int out_tile_h = output_tile_size.height;

424

425

ARM_COMPUTE_ERROR_ON(in.shape()[2] != (in_tile_w * in_tile_h));

Giorgio Arena

3695f9a

2018-04-23 17:41:22 +0100

[diff] [blame]

426

ARM_COMPUTE_ERROR_ON(in.shape()[0] != out.shape()[get_data_layout_dimension_index(winograd_info.output_data_layout, DataLayoutDimension::CHANNEL)]);

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

427

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

428

// Get the maximum dimension from the tile size

429

const unsigned int in_tile_max_dim = std::max(in_tile_w, in_tile_h);

430

const unsigned int out_tile_max_dim = std::max(output_tile_size.width, output_tile_size.height);

431

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

432

// Compute tile dimensions

433

// Input tile dimensions

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

434

TensorShape in_tile_dims(in_tile_max_dim, in_tile_max_dim);

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

435

436

// Output tile dimensions

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

437

TensorShape out_tile_dims(out_tile_max_dim, out_tile_max_dim);

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

438

439

// Transformation matrix dimensions

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

440

TensorShape tr_tile_dims(in_tile_max_dim, out_tile_max_dim);

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

441

442

// Create tensors

443

// Simple tensor for the input tile

444

SimpleTensor<T> input_tile{ in_tile_dims, in.data_type(), 1 };

445

446

// Simple tensor for the transformation matrix

447

SimpleTensor<T> trans_matrix{ tr_tile_dims, in.data_type(), 1 };

448

449

// Simple tensor for the transformation matrix transpose

450

SimpleTensor<T> trans_matrix_transposed{ TensorShape(tr_tile_dims[1], tr_tile_dims[0]), in.data_type(), 1 };

451

452

// Simple tensor for the temporary tile

453

SimpleTensor<T> tmp_tile{ tr_tile_dims, in.data_type(), 1 };

454

455

// Simple tensor for the output tile

456

SimpleTensor<T> output_tile{ out_tile_dims, in.data_type(), 1 };

457

458

// Initialize matrix for the output transform

459

initialize_matrix_transform(trans_matrix, output_tile_size, kernel_size, WinogradTransformType::OUTPUT);

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

460

461

// Transpose the transformation matrix

462

transpose_matrix(trans_matrix, trans_matrix_transposed);

463

464

const int w_in = in.shape()[0];

465

const int h_in = in.shape()[1];

466

const int c_in = in.shape()[2];

467

const int w_out = out.shape()[0];

468

const int h_out = out.shape()[1];

469

const int c_out = out.shape()[2];

470

const int num_batches = in.shape().total_size() / (w_in * h_in * c_in);

471

472

// Input strides

473

const int stridey_in = w_in;

474

const int stridez_in = stridey_in * h_in;

475

const int stridew_in = stridez_in * c_in;

476

477

// Output strides

478

const int stridey_out = w_out;

479

const int stridez_out = stridey_out * h_out;

480

const int stridew_out = stridez_out * c_out;

481

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

482

// Compute the number of output tiles along the x and y direction of size "output_tile_size"

483

const Size2D num_tiles = compute_winograd_convolution_tiles(Size2D(input_dimensions.width, input_dimensions.height),

kernel_size,

output_tile_size,

conv_info);

const int num_tiles_x = num_tiles.width;

489

const int num_tiles_y = num_tiles.height;

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

490

491

ARM_COMPUTE_UNUSED(num_tiles_y);

492

ARM_COMPUTE_ERROR_ON(in.shape()[1] != static_cast<unsigned int>(num_tiles_x * num_tiles_y));

493

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

494

// If we have a vertical filter (i.e. 1x3, 1x5,..), we still need to take the elements along the x direction (step_y_transf_tile = 1)

495

const int step_y_transf_tile = kernel_size.width == 1 ? 1 : output_tile.shape()[0];

496

497

// Initialize with zeros the input tile

498

zeros(input_tile, Coordinates(0, 0), input_tile.shape());

499

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

500

for(int n = 0; n < num_batches; ++n)

501

{

502

for(int y = 0; y < h_in; ++y)

503

{

504

for(int x = 0; x < w_in; ++x)

505

{

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

506

// Load the input tile tile across the channels of the input tensor

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

507

for(int z = 0; z < c_in; ++z)

508

{

509

input_tile[z] = in[x + (y * stridey_in) + (z * stridez_in) + (n * stridew_in)];

510

}

511

512

// First transformation

513

matrix_multiply(trans_matrix, input_tile, tmp_tile);

514

515

// Second transformation

516

matrix_multiply(tmp_tile, trans_matrix_transposed, output_tile);

517

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

518

// Store the output tile

519

const int xo = (y % num_tiles_x) * out_tile_w;

520

const int yo = (y / num_tiles_x) * out_tile_h;

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

521

const int zo = x;

522

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

523

const int output_offset = xo + (yo * stridey_out) + (zo * stridez_out) + (n * stridew_out);

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

524

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

525

for(int yi = 0; yi < static_cast<int>(out_tile_h); ++yi)

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

526

{

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

527

for(int xi = 0; xi < static_cast<int>(out_tile_w); ++xi)

528

{

529

// Check out-of-bound writes

530

if((xo + xi < w_out) && (yo + yi < h_out))

531

{

Gian Marco Iodice

2018-06-13 14:05:54 +0100

[diff] [blame^]

532

out[output_offset + yi * stridey_out + xi] = output_tile[xi + yi * step_y_transf_tile];

Gian Marco Iodice

2213d4b

2018-04-27 10:39:06 +0100

[diff] [blame]

533

534

// Add bias

535

out[output_offset + yi * stridey_out + xi] += b[zo];

Gian Marco Iodice

2018-03-22 11:24:56 +0000

[diff] [blame]

536

}

537

}

Gian Marco Iodice

2018-03-02 11:18:12 +0000

[diff] [blame]

}

}

}

}

Gian Marco Iodice