Blame - src/core/CL/kernels/CLGEMMLowpMatrixMultiplyReshapedOnlyRHSKernel.cpp - ml/ComputeLibrary

2019-03-11 16:07:12 +0000

[diff] [blame]

66

ARM_COMPUTE_RETURN_ERROR_ON_MSG(input0->num_dimensions() > 4, "The number of dimensions for the LHS matrix must be <= 4");

67

ARM_COMPUTE_RETURN_ERROR_ON_MSG(input1->num_dimensions() > 3, "The number of dimensions for the RHS matrix must be <= 3");

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

68

69

const GEMMRHSMatrixInfo rhs_info = gemm_info.rhs_info;

70

const GEMMLHSMatrixInfo lhs_info = gemm_info.lhs_info;

71

const GEMMLowpOutputStageInfo output_stage = gemm_info.output_stage;

72

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

73

ARM_COMPUTE_RETURN_ERROR_ON_MSG((((rhs_info.k0 & (rhs_info.k0 - 1)) && rhs_info.k0 != 3) || (rhs_info.k0 > 16)), "Only 2,3,4,8,16 are supported for k0");

74

ARM_COMPUTE_RETURN_ERROR_ON(lhs_info.m0 < 1 || lhs_info.m0 > 8);

75

ARM_COMPUTE_RETURN_ERROR_ON_MSG((((rhs_info.n0 & (rhs_info.n0 - 1)) && rhs_info.n0 != 3) || rhs_info.n0 > 16), "Only 2,3,4,8,16 are supported for n0");

Gian Marco Iodice

dd717c3

2020-05-28 10:22:03 +0100

[diff] [blame]

76

ARM_COMPUTE_RETURN_ERROR_ON_MSG(rhs_info.export_to_cl_image, "Export to CLImage not supported for quantized GEMM");

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

77

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

78

const int m = gemm_info.m;

79

const int n = gemm_info.n;

80

const int k = gemm_info.k;

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

81

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

82

TensorShape tensor_shape1{ input1->tensor_shape() };

83

tensor_shape1.set(0, n);

84

tensor_shape1.set(1, k);

85

Gian Marco Iodice

2019-04-02 11:02:20 +0100

[diff] [blame]

86

const TensorInfo tensor_info1 = input1->clone()->set_tensor_shape(tensor_shape1);

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

87

const TensorInfo tensor_info_reshaped1 = input1->clone()->set_tensor_shape(compute_rhs_reshaped_shape(tensor_info1, rhs_info));

88

Gian Marco Iodice

2019-04-02 11:02:20 +0100

[diff] [blame]

89

ARM_COMPUTE_RETURN_ERROR_ON(input0->dimension(0) != static_cast<unsigned int>(k));

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

90

if(gemm_info.reinterpret_input_as_3d)

Gian Marco Iodice

2019-04-02 11:02:20 +0100

[diff] [blame]

91

{

92

ARM_COMPUTE_RETURN_ERROR_ON(input0->dimension(1) * input0->dimension(2) != static_cast<unsigned int>(m));

}

else

{

ARM_COMPUTE_RETURN_ERROR_ON(input0->dimension(1) != static_cast<unsigned int>(m));

97

}

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

98

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_SHAPES(input1, &tensor_info_reshaped1);

99

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

100

const TensorShape expected_output_shape = compute_mm_shape(*input0, *input1, gemm_info);

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

101

if(output->total_size() != 0)

102

{

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

103

const TensorInfo tensor_info_output = output->clone()->set_tensor_shape(expected_output_shape);

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

104

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_SHAPES(output, &tensor_info_output);

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

105

if(output_stage.type == GEMMLowpOutputStageType::NONE)

106

{

107

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(output, 1, DataType::S32);

}

else

{

ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(input0, output);

112

}

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

113

}

114

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

115

if(bias != nullptr)

116

{

117

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(bias, 1, DataType::S32);

118

ARM_COMPUTE_RETURN_ERROR_ON(bias->num_dimensions() > 1);

119

ARM_COMPUTE_RETURN_ERROR_ON(expected_output_shape[0] != bias->dimension(0));

120

}

121

122

ARM_COMPUTE_RETURN_ERROR_ON_MSG((output_stage.type == GEMMLowpOutputStageType::QUANTIZE_DOWN) || (output_stage.type == GEMMLowpOutputStageType::QUANTIZE_DOWN_FLOAT),

123

"Only GEMMLowpOutputStageType::QUANTIZE_DOWN_FIXEDPOINT is supported");

124

125

// Checks performed if the output stage needs to be fused

126

if(output_stage.type == GEMMLowpOutputStageType::QUANTIZE_DOWN_FIXEDPOINT)

127

{

128

// If a_offset == 0, vector_sum_col can be a nullptr

129

if(gemm_info.a_offset != 0)

130

{

131

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(vector_sum_col, 1, DataType::S32);

132

ARM_COMPUTE_RETURN_ERROR_ON(vector_sum_col->dimension(0) != expected_output_shape[0]);

133

}

134

135

// If b_offset == 0, vector_sum_row can be a nullptr

136

if(gemm_info.b_offset != 0)

137

{

138

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(vector_sum_row, 1, DataType::S32);

139

140

// Check if mm result is a 3D reinterpretation

141

const bool reinterpret_as_3d = expected_output_shape.num_dimensions() > 1 && expected_output_shape.y() != vector_sum_row->tensor_shape().x();

142

143

// Validate input

144

ARM_COMPUTE_RETURN_ERROR_ON(reinterpret_as_3d && vector_sum_row->dimension(0) != (expected_output_shape[1] * expected_output_shape[2]));

145

ARM_COMPUTE_RETURN_ERROR_ON(!reinterpret_as_3d && vector_sum_row->dimension(0) != expected_output_shape[1]);

146

147

if(expected_output_shape.num_dimensions() > 1)

148

{

149

const unsigned int output_batch_idx = reinterpret_as_3d ? 3 : 2;

150

151

TensorShape vector_sum_row_shape = vector_sum_row->tensor_shape();

152

vector_sum_row_shape.collapse_from(1);

153

TensorShape collapsed_output_shape(expected_output_shape);

154

collapsed_output_shape.collapse_from(output_batch_idx);

155

156

ARM_COMPUTE_RETURN_ERROR_ON_MSG(vector_sum_row_shape[1] != collapsed_output_shape[output_batch_idx],

157

"vector_sum_row must have the same number of batches of output tensor");

158

159

if(gemm_info.a_offset != 0)

160

{

161

TensorShape vector_sum_col_shape = vector_sum_col->tensor_shape();

162

vector_sum_col_shape.collapse_from(1);

163

164

ARM_COMPUTE_RETURN_ERROR_ON_MSG(vector_sum_col_shape[1] != 1 && vector_sum_col_shape[1] != vector_sum_row_shape[1],

165

"vector_sum_col tensor must have the same number of batches of vector_sum_row_shape or the number of batches must be set to 1");

}

}

}

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

170

if(output->total_size() != 0)

171

{

172

ARM_COMPUTE_RETURN_ERROR_ON(output_stage.output_data_type != output->data_type());

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

173

}

Michele Di Giorgio

398b8e4

2020-03-06 13:56:54 +0000

[diff] [blame]

174

ARM_COMPUTE_RETURN_ERROR_ON(output_stage.gemmlowp_min_bound > output_stage.gemmlowp_max_bound);

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

175

176

if(output_multipliers != nullptr && output_shifts != nullptr)

177

{

178

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(output_multipliers, 1, DataType::S32);

179

ARM_COMPUTE_RETURN_ERROR_ON(output_multipliers->num_dimensions() > 1);

180

ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(output_shifts, 1, DataType::S32);

181

ARM_COMPUTE_RETURN_ERROR_ON(output_shifts->num_dimensions() > 1);

182

if(output_stage.is_quantized_per_channel)

183

{

184

ARM_COMPUTE_RETURN_ERROR_ON(expected_output_shape[0] != output_shifts->dimension(0));

185

ARM_COMPUTE_RETURN_ERROR_ON(expected_output_shape[0] != output_multipliers->dimension(0));

186

}

187

}

188

}

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

return Status{};

}

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

192

std::pair<Status, Window> validate_and_configure_window(ITensorInfo *input0, ITensorInfo *input1, ITensorInfo *output, const GEMMKernelInfo &gemm_info,

193

ITensorInfo *vector_sum_col, ITensorInfo *vector_sum_row, ITensorInfo *bias,

194

ITensorInfo *output_multipliers, ITensorInfo *output_shifts, ElementsProcessed &num_elements_processed)

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

195

{

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

196

const GEMMLowpOutputStageInfo output_stage = gemm_info.output_stage;

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

197

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

198

unsigned int &num_elems_processed_per_iteration_x = num_elements_processed[0];

199

unsigned int &num_elems_processed_per_iteration_y = num_elements_processed[1];

200

bool reinterpret_input_as_3d = gemm_info.reinterpret_input_as_3d;

201

bool reinterpret_output_as_3d = (gemm_info.depth_output_gemm3d != 0);

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

202

203

Window win{};

204

Window win_out{};

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

205

bool window_changed = false;

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

206

207

// In case both input and output have to be reinterpreted as 3D tensors,

208

// force reinterpret_input_as_3d and reinterpret_output_as_3d to be false.

Gian Marco Iodice

2019-04-02 11:02:20 +0100

[diff] [blame]

209

if(reinterpret_input_as_3d == reinterpret_output_as_3d)

210

{

211

reinterpret_output_as_3d = false;

212

}

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

213

214

// Output tensor auto initialization if not yet initialized

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

215

const TensorShape expected_output_shape = compute_mm_shape(*input0, *input1, gemm_info);

216

if(output_stage.type != GEMMLowpOutputStageType::NONE)

217

{

218

auto_init_if_empty(*output, input0->clone()->set_tensor_shape(expected_output_shape).set_data_type(output_stage.output_data_type));

}

else

{

auto_init_if_empty(*output, input0->clone()->set_tensor_shape(expected_output_shape).set_data_type(DataType::S32));

223

}

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

224

225

TensorInfo tmp_info(*output);

226

227

if(reinterpret_output_as_3d)

228

{

229

// Since the output tensor has to be reinterpreted as 3D and the execute window is based on a 2D GEMM,

230

// the window needs to be constructed on the 2D collapsed version of the tensor

231

TensorShape tmp_shape(output->tensor_shape());

232

tmp_shape.collapse(2U, 1U);

233

tmp_info.set_tensor_shape(tmp_shape);

234

}

235

236

// Configure kernel window

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

237

num_elems_processed_per_iteration_x = gemm_info.rhs_info.n0;

238

num_elems_processed_per_iteration_y = gemm_info.lhs_info.m0;

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

239

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

240

win = calculate_max_window(tmp_info, Steps(num_elems_processed_per_iteration_x, num_elems_processed_per_iteration_y));

241

win_out = calculate_max_window(*output, Steps(num_elems_processed_per_iteration_x, num_elems_processed_per_iteration_y));

242

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

243

if(output_stage.type == GEMMLowpOutputStageType::QUANTIZE_DOWN_FIXEDPOINT)

244

{

245

if(gemm_info.a_offset != 0)

246

{

247

AccessWindowHorizontal vector_sum_col_access(vector_sum_col, 0, num_elems_processed_per_iteration_x);

248

window_changed = window_changed || update_window_and_padding(win_out, vector_sum_col_access);

249

}

250

// No access window needed for vector_sum_row

251

ARM_COMPUTE_UNUSED(vector_sum_row);

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

252

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

253

if(bias != nullptr)

254

{

255

AccessWindowHorizontal bias_access(bias, 0, num_elems_processed_per_iteration_x);

256

window_changed = window_changed || update_window_and_padding(win_out, bias_access);

257

}

258

259

if(output_multipliers != nullptr && output_multipliers->dimension(0) > 1)

260

{

261

AccessWindowHorizontal output_multipliers_access(output_multipliers, 0, num_elems_processed_per_iteration_x);

262

AccessWindowHorizontal output_shifts_access(output_shifts, 0, num_elems_processed_per_iteration_x);

263

window_changed = window_changed || update_window_and_padding(win_out, output_multipliers_access, output_shifts_access);

264

}

265

}

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

266

267

// Collapse along the Z direction

268

// This collapse needs to be here in order to tune the Z dimension of LWS

269

Window collapsed = win;

270

const unsigned int dimension_to_collapse = std::min(static_cast<unsigned int>(output->num_dimensions()), 2u);

271

collapsed = win.collapse(win, dimension_to_collapse);

272

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

273

Status err = (window_changed) ? ARM_COMPUTE_CREATE_ERROR(ErrorCode::RUNTIME_ERROR, "Insufficient Padding!") : Status{};

274

return std::make_pair(err, collapsed);

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

}

} // namespace

CLGEMMLowpMatrixMultiplyReshapedOnlyRHSKernel::CLGEMMLowpMatrixMultiplyReshapedOnlyRHSKernel()

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

: _input0(nullptr),

_input1(nullptr),

_output(nullptr),

_vector_sum_col(nullptr),

283

_vector_sum_row(nullptr),

284

_bias(nullptr),

285

_output_multipliers(nullptr),

286

_output_shifts(nullptr),

287

_slide_matrix_b(true),

288

_reinterpret_input_as_3d(false),

289

_reinterpret_output_as_3d(false),

290

_use_dummy_work_items(false),

291

_is_quantized_per_channel(false),

292

_fuse_output_stage(false)

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

{

}

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

296

void CLGEMMLowpMatrixMultiplyReshapedOnlyRHSKernel::configure(const ICLTensor *input0, const ICLTensor *input1, ICLTensor *output, const GEMMKernelInfo &gemm_info,

297

const ICLTensor *vector_sum_col, const ICLTensor *vector_sum_row, const ICLTensor *bias,

298

const ICLTensor *output_multipliers, const ICLTensor *output_shifts)

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

299

{

Manuel Bottini

4c6bd51

2020-04-08 10:15:51 +0100

[diff] [blame]

300

configure(CLKernelLibrary::get().get_compile_context(), input0, input1, output, gemm_info, vector_sum_col, vector_sum_row, bias, output_multipliers, output_shifts);

301

}

302

Gian Marco Iodice

dd717c3

2020-05-28 10:22:03 +0100

[diff] [blame]

303

void CLGEMMLowpMatrixMultiplyReshapedOnlyRHSKernel::configure(const CLCompileContext &compile_context, const ICLTensor *input0, const ICLTensor *input1, ICLTensor *output,

304

const GEMMKernelInfo &gemm_info,

Manuel Bottini

4c6bd51

2020-04-08 10:15:51 +0100

[diff] [blame]

305

const ICLTensor *vector_sum_col, const ICLTensor *vector_sum_row, const ICLTensor *bias,

306

const ICLTensor *output_multipliers, const ICLTensor *output_shifts)

307

{

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

308

ARM_COMPUTE_ERROR_ON_NULLPTR(input0, input1, output);

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

309

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(input0->info(),

input1->info(),

output->info(),

gemm_info,

vector_sum_col != nullptr ? vector_sum_col->info() : nullptr,

314

vector_sum_row != nullptr ? vector_sum_row->info() : nullptr,

315

bias != nullptr ? bias->info() : nullptr,

316

output_multipliers != nullptr ? output_multipliers->info() : nullptr,

317

output_shifts != nullptr ? output_shifts->info() : nullptr));

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

318

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

319

auto padding_info = get_padding_info({ input0, input1, output, vector_sum_row });

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

320

const GEMMRHSMatrixInfo rhs_info = gemm_info.rhs_info;

321

const GEMMLHSMatrixInfo lhs_info = gemm_info.lhs_info;

322

const GEMMLowpOutputStageInfo output_stage = gemm_info.output_stage;

323

const int32_t a_offset = gemm_info.a_offset;

324

const int32_t b_offset = gemm_info.b_offset;

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

_input0 = input0;

_input1 = input1;

_output = output;

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

329

_vector_sum_col = vector_sum_col;

330

_vector_sum_row = vector_sum_row;

331

_bias = bias;

332

_output_multipliers = output_multipliers;

333

_output_shifts = output_shifts;

334

_reinterpret_input_as_3d = gemm_info.reinterpret_input_as_3d;

335

_reinterpret_output_as_3d = (gemm_info.depth_output_gemm3d != 0);

Gian Marco Iodice

2019-04-02 11:02:20 +0100

[diff] [blame]

336

_use_dummy_work_items = preferred_dummy_work_items_support(CLKernelLibrary::get().get_device());

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

337

_is_quantized_per_channel = output_stage.is_quantized_per_channel;

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

338

339

// In case both input and output have to be reinterpreted as 3D tensors,

340

// force reinterpret_input_as_3d and reinterpret_output_as_3d to be false.

Gian Marco Iodice

2019-04-02 11:02:20 +0100

[diff] [blame]

341

if(_reinterpret_input_as_3d == _reinterpret_output_as_3d)

342

{

343

_reinterpret_input_as_3d = false;

344

_reinterpret_output_as_3d = false;

345

}

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

346

347

// Check if we need to slide the matrix B

348

const unsigned int num_dimensions_input0 = _input0->info()->num_dimensions();

349

_slide_matrix_b = (_input1->info()->num_dimensions() >= num_dimensions_input0);

350

351

ElementsProcessed num_elements_processed{};

352

353

// Configure kernel window

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

354

auto win_config = validate_and_configure_window(input0->info(),

input1->info(),

output->info(),

gemm_info,

vector_sum_col != nullptr ? vector_sum_col->info() : nullptr,

359

vector_sum_row != nullptr ? vector_sum_row->info() : nullptr,

360

bias != nullptr ? bias->info() : nullptr,

361

output_multipliers != nullptr ? output_multipliers->info() : nullptr,

362

output_shifts != nullptr ? output_shifts->info() : nullptr,

363

num_elements_processed);

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

364

ARM_COMPUTE_ERROR_THROW_ON(win_config.first);

365

ICLKernel::configure_internal(win_config.second);

366

Manuel Bottini

2020-10-29 13:51:23 +0000

[diff] [blame]

367

// If _reinterpret_input_as_3d = _reinterpret_output_as_3d = true,

368

// we will dispatch a batched-GEMM to reduce the complexity of the address calculation within the OpenCL kernel.

369

// This means that the actual m used by the kernel is given by output->info()->dimension(1) and not by gemm_info.m

370

const unsigned int internal_m = _reinterpret_output_as_3d ? gemm_info.m : output->info()->dimension(1);

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

371

372

// Shrink M0 to be always <= M (internal_m) to prevent out-of-bounds reads.

373

// NOTE: This might have implications on heuristics and performance

374

const unsigned int internal_m0 = std::min(internal_m, lhs_info.m0);

375

Sang-Hoon Park

bef7fa2

2020-10-21 15:58:54 +0100

[diff] [blame]

376

// Calculate partial (store instead of load) M0 and partial N0 for the partial blocks at the end of a row/column if any. This is to avoid padding.

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

377

const unsigned int partial_store_m0 = internal_m % internal_m0;

Manuel Bottini

2020-10-29 13:51:23 +0000

[diff] [blame]

378

const unsigned int partial_store_n0 = gemm_info.n % rhs_info.n0;

379

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

380

// Create build options

381

CLBuildOptions build_opts;

382

build_opts.add_option_if(_reinterpret_input_as_3d, "-DREINTERPRET_INPUT_AS_3D");

383

build_opts.add_option_if(_reinterpret_output_as_3d, "-DREINTERPRET_OUTPUT_AS_3D");

384

build_opts.add_option_if(_reinterpret_input_as_3d || _reinterpret_output_as_3d, "-DHEIGHT_GEMM3D=" + support::cpp11::to_string(output->info()->dimension(1)));

385

build_opts.add_option_if(_reinterpret_input_as_3d || _reinterpret_output_as_3d, "-DDEPTH_GEMM3D=" + support::cpp11::to_string(output->info()->dimension(2)));

386

build_opts.add_option_if(!_slide_matrix_b, "-DMATRIX_B_DEPTH=" + support::cpp11::to_string(input1->info()->dimension(2)));

387

build_opts.add_option_if(rhs_info.interleave, "-DRHS_INTERLEAVE");

Gian Marco Iodice

2019-04-02 11:02:20 +0100

[diff] [blame]

388

build_opts.add_option_if(_use_dummy_work_items, "-DDUMMY_WORK_ITEMS");

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

389

build_opts.add_option("-DM=" + support::cpp11::to_string(internal_m));

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

390

build_opts.add_option("-DN=" + support::cpp11::to_string(gemm_info.n));

391

build_opts.add_option("-DK=" + support::cpp11::to_string(gemm_info.k));

Manuel Bottini

2020-11-11 15:05:29 +0000

[diff] [blame]

392

build_opts.add_option("-DM0=" + support::cpp11::to_string(internal_m0));

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

393

build_opts.add_option("-DN0=" + support::cpp11::to_string(rhs_info.n0));

394

build_opts.add_option("-DK0=" + support::cpp11::to_string(rhs_info.k0));

395

build_opts.add_option("-DH0=" + support::cpp11::to_string(rhs_info.h0));

Manuel Bottini

2020-10-29 13:51:23 +0000

[diff] [blame]

396

build_opts.add_option("-DPARTIAL_STORE_M0=" + support::cpp11::to_string(partial_store_m0));

397

build_opts.add_option("-DPARTIAL_STORE_N0=" + support::cpp11::to_string(partial_store_n0));

Michele Di Giorgio

f9179d3

2019-11-27 16:17:30 +0000

[diff] [blame]

398

build_opts.add_option("-DDATA_TYPE=" + get_cl_type_from_data_type(input0->info()->data_type()));

399

build_opts.add_option("-DACC_DATA_TYPE=" + get_cl_dot8_acc_type_from_data_type(input0->info()->data_type()));

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

400

401

std::string kernel_name("gemmlowp_mm_reshaped_only_rhs_");

402

kernel_name += rhs_info.transpose ? "t" : "nt";

403

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

404

if(output_stage.type == GEMMLowpOutputStageType::QUANTIZE_DOWN_FIXEDPOINT)

405

{

406

kernel_name += "_fused_output_stage_fixedpoint";

407

_fuse_output_stage = true;

408

// If a_offset == 0, vector_sum_col can be a nullptr

409

if(a_offset != 0)

410

{

411

build_opts.add_option("-DA_OFFSET=" + support::cpp11::to_string(a_offset));

412

build_opts.add_option_if(vector_sum_col->info()->tensor_shape().num_dimensions() > 1, "-DSUM_COL_HAS_BATCHES");

413

}

414

// If b_offset == 0, vector_sum_row can be a nullptr

415

build_opts.add_option_if(b_offset != 0, "-DB_OFFSET=" + support::cpp11::to_string(b_offset));

416

build_opts.add_option("-DK_OFFSET=" + support::cpp11::to_string(a_offset * b_offset * input0->info()->dimension(0)));

417

build_opts.add_option_if(bias != nullptr, "-DADD_BIAS");

418

build_opts.add_option("-DRESULT_OFFSET=" + support::cpp11::to_string(output_stage.gemmlowp_offset));

419

build_opts.add_option("-DRESULT_MULTIPLIER=" + support::cpp11::to_string(output_stage.gemmlowp_multipliers[0]));

420

build_opts.add_option("-DRESULT_SHIFT=" + support::cpp11::to_string(output_stage.gemmlowp_shifts[0]));

421

build_opts.add_option_if(_is_quantized_per_channel, "-DPER_CHANNEL_QUANTIZATION");

422

423

const int min = output_stage.gemmlowp_min_bound;

424

const int max = output_stage.gemmlowp_max_bound;

425

426

PixelValue min_val{};

427

PixelValue max_val{};

428

std::tie(min_val, max_val) = get_min_max(output->info()->data_type());

Michele Di Giorgio

398b8e4

2020-03-06 13:56:54 +0000

[diff] [blame]

429

build_opts.add_option_if(min != min_val.get<int32_t>(), "-DMIN_BOUND=" + support::cpp11::to_string(min));

430

build_opts.add_option_if(max != max_val.get<int32_t>(), "-DMAX_BOUND=" + support::cpp11::to_string(max));

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

431

}

432

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

433

// Create kernel

Manuel Bottini

4c6bd51

2020-04-08 10:15:51 +0100

[diff] [blame]

434

_kernel = create_kernel(compile_context, kernel_name, build_opts.options());

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

435

436

// Set config_id for enabling LWS tuning

437

_config_id = kernel_name;

438

_config_id += "_";

Gian Marco Iodice

43a129e

2019-05-14 10:14:08 +0100

[diff] [blame]

439

_config_id += dot8_supported(CLKernelLibrary::get().get_device()) ? "_dot8" : "";

440

_config_id += "_";

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

441

_config_id += (_reinterpret_input_as_3d ? "3di_" : "");

442

_config_id += (_reinterpret_output_as_3d ? "3do_" : "");

443

_config_id += support::cpp11::to_string(output->info()->dimension(1));

444

_config_id += "_";

445

_config_id += support::cpp11::to_string(output->info()->dimension(0));

446

_config_id += "_";

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

447

_config_id += support::cpp11::to_string(gemm_info.k);

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

448

_config_id += "_";

449

_config_id += support::cpp11::to_string(output->info()->dimension(2));

450

_config_id += "_";

451

_config_id += support::cpp11::to_string(lhs_info.m0);

452

_config_id += "_";

453

_config_id += support::cpp11::to_string(rhs_info.n0);

454

_config_id += "_";

455

_config_id += support::cpp11::to_string(rhs_info.k0);

456

_config_id += "_";

457

_config_id += support::cpp11::to_string(rhs_info.h0);

458

_config_id += "_";

459

_config_id += support::cpp11::to_string(rhs_info.interleave);

Manuel Bottini

2020-10-29 13:51:23 +0000

[diff] [blame]

460

ARM_COMPUTE_ERROR_ON(has_padding_changed(padding_info));

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

461

}

462

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

463

Status CLGEMMLowpMatrixMultiplyReshapedOnlyRHSKernel::validate(const ITensorInfo *input0, const ITensorInfo *input1, const ITensorInfo *output, const GEMMKernelInfo &gemm_info,

464

const ITensorInfo *vector_sum_col, const ITensorInfo *vector_sum_row, const ITensorInfo *bias,

465

const ITensorInfo *output_multipliers, const ITensorInfo *output_shifts)

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

466

{

467

ElementsProcessed num_elements_processed{};

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

468

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(input0, input1, output, gemm_info, vector_sum_col, vector_sum_row, bias, output_multipliers, output_shifts));

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

469

ARM_COMPUTE_RETURN_ON_ERROR(validate_and_configure_window(input0->clone().get(),

470

input1->clone().get(),

471

output->clone().get(),

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

472

gemm_info,

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

473

vector_sum_col != nullptr ? vector_sum_col->clone().get() : nullptr,

474

vector_sum_row != nullptr ? vector_sum_row->clone().get() : nullptr,

475

bias != nullptr ? bias->clone().get() : nullptr,

476

output_multipliers != nullptr ? output_multipliers->clone().get() : nullptr,

477

output_shifts != nullptr ? output_shifts->clone().get() : nullptr,

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

478

num_elements_processed)

.first);

return Status{};

}

void CLGEMMLowpMatrixMultiplyReshapedOnlyRHSKernel::run(const Window &window, cl::CommandQueue &queue)

485

{

486

ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);

487

ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(ICLKernel::window(), window);

488

489

if(_input1->info()->num_dimensions() < 3)

490

{

Giorgio Arena

edc524e

2021-02-10 11:54:47 +0000

[diff] [blame^]

491

// The stride_z for matrix B must be zero if we do not slice

492

ARM_COMPUTE_ERROR_ON(_input1->info()->strides_in_bytes()[3] != 0);

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

493

}

494

495

Window slice = window.first_slice_window_3D();

496

Window slice_matrix_b = slice;

497

498

slice_matrix_b.set(Window::DimX, Window::Dimension(0, 1, 1));

499

slice_matrix_b.set(Window::DimY, Window::Dimension(0, 1, 1));

500

501

if(_reinterpret_input_as_3d)

502

{

503

// Pass bottom paddings to the kernel if the input has to be reinterpreted as 3D tensor

504

const unsigned int idx0 = 3 * num_arguments_per_2D_tensor() + 3;

505

const unsigned int total_cross_plane_pad = _input0->info()->padding().top + _input0->info()->padding().bottom;

506

_kernel.setArg<cl_uint>(idx0, static_cast<unsigned int>(total_cross_plane_pad));

507

}

508

509

if(_reinterpret_output_as_3d)

510

{

511

// Pass bottom paddings to the kernel if the output has to be reinterpreted as 3D tensor

512

const unsigned int idx0 = 3 * num_arguments_per_2D_tensor() + 3 + (_reinterpret_input_as_3d ? 1 : 0);

513

const unsigned int total_cross_plane_pad = _output->info()->padding().top + _output->info()->padding().bottom;

514

_kernel.setArg<cl_uint>(idx0, static_cast<unsigned int>(total_cross_plane_pad));

515

}

516

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

517

// Set window for vector_sum_col

518

Window win_vector_sum_col = slice;

519

win_vector_sum_col.set(Window::DimY, Window::Dimension(0, 0, 0));

520

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

521

522

// Set window for vector_sum_row

523

Window win_vector_sum_row = slice;

524

win_vector_sum_row.set(Window::DimX, Window::Dimension(0, 0, 0));

525

win_vector_sum_row.set(Window::DimY, Window::Dimension(0, 0, 0));

526

win_vector_sum_col.set(Window::DimZ, Window::Dimension(0, 0, 0));

527

528

Window biases_slice = slice;

529

biases_slice.set(Window::DimY, Window::Dimension(0, 1, 1));

530

biases_slice.set(Window::DimZ, Window::Dimension(0, 1, 1));

531

Gian Marco Iodice

2019-03-11 16:07:12 +0000

[diff] [blame]

532

do

533

{

534

Window slice_b = slice;

535

// Don't slice matrix B along the z dimension if matrix B has just 2 dimensions and matrix A more than 2

536

// This scenario can happen when the matrix multiplication is used to perform a convolution operation

537

if(!_slide_matrix_b)

538

{

539

slice_b = slice_matrix_b;

540

}

541

542

unsigned int idx = 0;

543

add_2D_tensor_argument(idx, _input0, slice);

544

add_2D_tensor_argument(idx, _input1, slice_b);

545

add_2D_tensor_argument(idx, _output, slice);

546

_kernel.setArg<cl_uint>(idx++, static_cast<unsigned int>(_input0->info()->strides_in_bytes()[2]));

547

_kernel.setArg<cl_uint>(idx++, static_cast<unsigned int>(_input1->info()->strides_in_bytes()[2]));

548

_kernel.setArg<cl_uint>(idx++, static_cast<unsigned int>(_output->info()->strides_in_bytes()[2]));

Michele Di Giorgio

2020-01-14 15:31:55 +0000

[diff] [blame]

549

if(_reinterpret_input_as_3d)

550

{

551

// Pass bottom paddings to the kernel if the input has to be reinterpreted as 3D tensor

idx++;

}

if(_reinterpret_output_as_3d)

556

{

557

// Pass bottom paddings to the kernel if the output has to be reinterpreted as 3D tensor

idx++;

}

if(_fuse_output_stage)

562

{

563

add_2D_tensor_argument_if((_vector_sum_col != nullptr), idx, _vector_sum_col, win_vector_sum_col);

564

add_2D_tensor_argument_if((_vector_sum_row != nullptr), idx, _vector_sum_row, win_vector_sum_row);

565

add_1D_tensor_argument_if((_bias != nullptr), idx, _bias, biases_slice);

566

add_1D_tensor_argument_if(_is_quantized_per_channel, idx, _output_multipliers, biases_slice);

567

add_1D_tensor_argument_if(_is_quantized_per_channel, idx, _output_shifts, biases_slice);

568

}

Gian Marco Iodice

2019-04-02 11:02:20 +0100

[diff] [blame]

569

enqueue(queue, *this, slice, lws_hint(), _use_dummy_work_items);

Gian Marco Iodice