Blame - src/core/CL/kernels/CLDirectConvolutionLayerKernel.cpp - ml/ComputeLibrary

2017-12-06 11:53:03 +0000

[diff] [blame]

108

return Status{};

Georgios Pinitas

30902ed

2017-11-14 15:32:57 +0000

[diff] [blame]

109

}

110

Georgios Pinitas

2017-12-06 11:53:03 +0000

[diff] [blame]

111

std::pair<Status, Window> validate_and_configure_window(ITensorInfo *input, ITensorInfo *weights, ITensorInfo *output, const PadStrideInfo &conv_info, const GPUTarget target)

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

112

{

113

const unsigned int kernel_size = weights->dimension(0);

114

const DataType data_type = input->data_type();

115

116

// Get convolved dimensions

117

TensorShape output_shape = get_output_shape(input->tensor_shape(), weights->tensor_shape(), conv_info);

118

119

// Output auto inizialitation if not yet initialized

120

// FIXME: input->clone()->set_tensor_shape(output_shape) doesn't work with subtensors for grouped direct convolutions (AlexNet).

121

auto_init_if_empty(*output, output_shape,

122

1,

123

input->data_type(),

124

input->fixed_point_position(),

125

input->quantization_info());

126

Anthony Barbier

328891c

2018-02-21 14:00:44 +0000

[diff] [blame]

127

unsigned int conv_stride_x = std::get<0>(conv_info.stride());

128

unsigned int conv_stride_y = std::get<1>(conv_info.stride());

129

unsigned int conv_pad_left = conv_info.pad_left();

130

unsigned int conv_pad_top = conv_info.pad_top();

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

131

132

unsigned int num_elems_read_per_iteration_x = 0;

133

unsigned int num_elems_read_per_iteration_y = 0;

134

unsigned int num_elems_written_per_iteration_x = 0;

135

unsigned int num_elems_written_per_iteration_y = 0;

136

Michalis Spyrou

a967611

2018-02-22 18:07:43 +0000

[diff] [blame^]

137

if(gpu_target_is_in(target, GPUTarget::G71, GPUTarget::G72) && (kernel_size <= 5) && (conv_stride_x == 1) && (conv_stride_y == 1) && (data_type == DataType::F32))

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

138

{

139

// Configure kernel window

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

switch(kernel_size)

{

case 1:

{

num_elems_read_per_iteration_x = 4;

146

num_elems_read_per_iteration_y = 4;

147

num_elems_written_per_iteration_x = 4;

148

num_elems_written_per_iteration_y = 4;

break;

}

case 3:

{

num_elems_read_per_iteration_x = 6;

154

num_elems_read_per_iteration_y = 5;

155

num_elems_written_per_iteration_x = 4;

156

num_elems_written_per_iteration_y = 3;

break;

}

case 5:

{

num_elems_read_per_iteration_x = 8;

162

num_elems_read_per_iteration_y = 6;

163

num_elems_written_per_iteration_x = 4;

164

num_elems_written_per_iteration_y = 2;

break;

}

default:

{

ARM_COMPUTE_ERROR("Kernel size not optimized for Bifrost");

}

}

}

else

{

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

175

num_elems_read_per_iteration_y = kernel_size;

176

num_elems_written_per_iteration_x = 8;

177

num_elems_written_per_iteration_y = 1;

Anthony Barbier

cc9fed5

2017-12-13 10:46:00 +0000

[diff] [blame]

switch(kernel_size)

{

case 1:

switch(conv_stride_x)

182

{

183

case 1:

184

num_elems_read_per_iteration_x = 8;

185

break;

186

case 2:

187

num_elems_read_per_iteration_x = 16;

188

break;

189

case 3:

190

switch(input->element_size())

191

{

192

case 1:

193

num_elems_read_per_iteration_x = 28;

194

break;

195

case 2:

196

num_elems_read_per_iteration_x = 24;

197

break;

198

case 4:

199

num_elems_read_per_iteration_x = 22;

200

break;

201

default:

202

ARM_COMPUTE_ERROR("Invalid data size");

}

break;

default:

ARM_COMPUTE_ERROR("Invalid convolution stride X");

}

break;

case 3:

switch(conv_stride_x)

211

{

212

case 1:

213

num_elems_read_per_iteration_x = 10;

214

break;

215

case 2:

216

num_elems_read_per_iteration_x = 17;

217

break;

218

default:

219

ARM_COMPUTE_ERROR("Invalid convolution stride X");

}

break;

case 5:

switch(conv_stride_x)

224

{

225

case 1:

226

num_elems_read_per_iteration_x = 12;

227

break;

228

case 2:

229

num_elems_read_per_iteration_x = 20;

230

break;

231

default:

232

ARM_COMPUTE_ERROR("Invalid convolution stride X");

}

break;

default:

ARM_COMPUTE_ERROR("Invalid direct convolution size");

237

}

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

238

}

239

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

240

// Create window and update padding

Anthony Barbier

cc9fed5

2017-12-13 10:46:00 +0000

[diff] [blame]

241

bool window_changed = false;

242

Window win = calculate_max_window(*output, Steps(num_elems_written_per_iteration_x, num_elems_written_per_iteration_y));

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

243

Georgios Pinitas

1a03d76

2018-02-21 14:47:09 +0000

[diff] [blame]

244

AccessWindowRectangle input_access(input, -conv_pad_left, -conv_pad_top,

245

num_elems_read_per_iteration_x, num_elems_read_per_iteration_y,

246

conv_stride_x, conv_stride_y);

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

247

AccessWindowStatic weights_access(weights, 0, 0, kernel_size, kernel_size);

248

AccessWindowRectangle output_access(output, 0, 0, num_elems_written_per_iteration_x, num_elems_written_per_iteration_y);

249

250

window_changed = update_window_and_padding(win, input_access, weights_access, output_access);

251

252

output_access.set_valid_region(win, ValidRegion(Coordinates(), output->tensor_shape()));

253

Georgios Pinitas

2017-12-06 11:53:03 +0000

[diff] [blame]

254

Status err = (window_changed) ? ARM_COMPUTE_CREATE_ERROR(ErrorCode::RUNTIME_ERROR, "Insufficient Padding!") : Status{};

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

255

return std::make_pair(err, win);

}

} // namespace

CLDirectConvolutionLayerKernel::CLDirectConvolutionLayerKernel()

260

: _input(nullptr), _biases(nullptr), _weights(nullptr), _output(nullptr), _border_size(0), _conv_stride_x(0), _conv_stride_y(0)

{

}

BorderSize CLDirectConvolutionLayerKernel::border_size() const

{

return _border_size;

}

void CLDirectConvolutionLayerKernel::configure(const ICLTensor *input, const ICLTensor *weights, const ICLTensor *biases, ICLTensor *output, const PadStrideInfo &conv_info)

270

{

271

ARM_COMPUTE_ERROR_ON_NULLPTR(input, weights, output);

272

273

const unsigned int kernel_size = weights->info()->dimension(0);

274

const DataType data_type = input->info()->data_type();

275

276

// Get convolved dimensions

277

TensorShape output_shape = get_output_shape(input->info()->tensor_shape(), weights->info()->tensor_shape(), conv_info);

278

279

// Output auto inizialitation if not yet initialized

280

// FIXME: input->clone()->set_tensor_shape(output_shape) doesn't work with subtensors for grouped direct convolutions (AlexNet).

281

auto_init_if_empty(*output->info(),

282

output_shape,

283

1,

284

input->info()->data_type(),

285

input->info()->fixed_point_position(),

286

input->info()->quantization_info());

287

288

// Perform validation step

289

ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(input->info(),

290

weights->info(),

291

(biases != nullptr) ? biases->info() : nullptr,

output->info(),

conv_info));

_conv_stride_x = std::get<0>(conv_info.stride());

296

_conv_stride_y = std::get<1>(conv_info.stride());

Georgios Pinitas

2018-02-19 13:58:22 +0000

[diff] [blame]

297

_border_size = BorderSize(conv_info.pad_top(), conv_info.pad_right(), conv_info.pad_bottom(), conv_info.pad_left());

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

_input = input;

_weights = weights;

_output = output;

_biases = biases;

Michalis Spyrou

2018-02-22 18:07:43 +0000

[diff] [blame^]

304

const GPUTarget gpu_target = get_target();

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

305

306

std::stringstream kernel_name;

307

kernel_name << "direct_convolution" << kernel_size << "x" << kernel_size;

308

309

CLBuildOptions build_options;

310

build_options.add_option_if(_biases != nullptr, std::string("-DHAS_BIAS"));

311

Michalis Spyrou

a967611

2018-02-22 18:07:43 +0000

[diff] [blame^]

312

if(gpu_target_is_in(gpu_target, GPUTarget::G71, GPUTarget::G72) && (kernel_size <= 5) && (_conv_stride_x == 1) && (_conv_stride_y == 1) && (data_type == DataType::F32))

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

313

{

314

build_options.add_option(std::string("-DWEIGHTS_DEPTH=" + support::cpp11::to_string(_weights->info()->dimension(2))));

315

316

kernel_name << "_f32_bifrost";

317

_kernel = static_cast<cl::Kernel>(CLKernelLibrary::get().create_kernel(kernel_name.str(), build_options.options()));

318

319

// Through extensive experimentation with over 30 representative tensor

320

// shapes, we found a small number of local work size configurations

321

// that result in nearly optimal execution times. Selecting the right

322

// lws for a given shape, however, required a complex decision tree,

323

// until we constructed a simple feature as described below.

324

//

325

// We started from the number of multiply-accumulate operations for a

326

// convolution layer, which is equal to the product of the input

327

// dimensions 0..2 and the weights dimensions 0..2. Unfortunately,

328

// this resulted in ties between distinct shapes that required distinct

329

// lws configurations. Replacing the width of the input with the kernel

330

// size, however, resulted in nearly optimal predictions. We use underscores

331

// in variable names to indicate when they are intentionally misleading.

332

const size_t product_of_weights_dimensions = weights->info()->dimension(0) * weights->info()->dimension(1) * weights->info()->dimension(2);

333

const size_t product_of_input_dimensions_ = input->info()->dimension(0) * weights->info()->dimension(1) * input->info()->dimension(2);

334

const float mega_ops_ = 1e-6 * product_of_weights_dimensions * product_of_input_dimensions_;

switch(kernel_size)

{

case 1:

{

if(mega_ops_ < 1.f)

{

_lws_hint = cl::NDRange(1, 1, 8);

343

}

344

else if(mega_ops_ < 7.f)

345

{

346

_lws_hint = cl::NDRange(1, 1, 4);

}

else

{

_lws_hint = cl::NDRange(1, 1, 2);

}

break;

}

case 3:

{

if(mega_ops_ < 1.f)

{

_lws_hint = cl::NDRange(1, 1, 8);

359

}

360

else if(mega_ops_ < 13.f)

361

{

362

_lws_hint = cl::NDRange(2, 1, 4);

363

}

364

else if(mega_ops_ < 50.f)

365

{

366

_lws_hint = cl::NDRange(3, 1, 4);

}

else

{

_lws_hint = cl::NDRange(2, 1, 6);

}

break;

}

case 5:

{

if(mega_ops_ < 2.f || mega_ops_ > 80.f)

377

{

378

_lws_hint = cl::NDRange(2, 1, 4);

}

else

{

_lws_hint = cl::NDRange(2, 1, 8);

}

break;

}

default:

{

ARM_COMPUTE_ERROR("Kernel size not optimized for Bifrost");

}

}

}

else

{

bool is_quantized_fixed_point = is_data_type_fixed_point(data_type);

395

bool is_quantized_asymm = is_data_type_quantized_asymmetric(data_type);

396

DataType promoted_type = (is_quantized_fixed_point) ? get_promoted_data_type(data_type) : data_type;

397

398

build_options.add_option_if(is_quantized_asymm, std::string("-DKERNEL_SIZE=" + support::cpp11::to_string(kernel_size)));

399

build_options.add_option(std::string("-DDATA_TYPE=" + get_cl_type_from_data_type(data_type)));

400

build_options.add_option(std::string("-DDATA_SIZE=" + get_data_size_from_data_type(data_type)));

401

build_options.add_option(std::string("-DWEIGHTS_DEPTH=" + support::cpp11::to_string(_weights->info()->dimension(2))));

402

build_options.add_option(std::string("-DSTRIDE_X=" + support::cpp11::to_string(_conv_stride_x)));

403

build_options.add_option_if(is_quantized_fixed_point,

404

std::string("-DFIXED_POINT_POSITION=" + support::cpp11::to_string(input->info()->fixed_point_position())));

405

build_options.add_option(std::string("-DDATA_TYPE_PROMOTED=" + get_cl_type_from_data_type(promoted_type)));

406

407

// Create kernel

408

_kernel = static_cast<cl::Kernel>(CLKernelLibrary::get().create_kernel(is_quantized_asymm ? "direct_convolution_1x1_3x3_5x5_quantized" : kernel_name.str(),

409

build_options.options()));

410

}

411

412

// Configure kernel window

413

auto win_config = validate_and_configure_window(input->info(), weights->info(), output->info(), conv_info, gpu_target);

414

ARM_COMPUTE_ERROR_THROW_ON(win_config.first);

415

ICLKernel::configure(win_config.second);

416

417

// Set static kernel arguments

418

if(is_data_type_quantized_asymmetric(data_type))

419

{

420

int output_multiplier = 0;

421

int output_shift = 0;

422

423

float multiplier = _input->info()->quantization_info().scale * _weights->info()->quantization_info().scale / _output->info()->quantization_info().scale;

424

ARM_COMPUTE_THROW_ON_ERROR(quantization::calculate_quantized_multiplier_less_than_one(multiplier, &output_multiplier, &output_shift));

425

426

unsigned int idx = 3 * num_arguments_per_3D_tensor() + ((_biases != nullptr) ? num_arguments_per_1D_tensor() : 0) + 1;

427

_kernel.setArg(idx++, -_input->info()->quantization_info().offset);

428

_kernel.setArg(idx++, -_weights->info()->quantization_info().offset);

429

_kernel.setArg(idx++, _output->info()->quantization_info().offset);

430

_kernel.setArg(idx++, output_multiplier);

431

_kernel.setArg(idx++, output_shift);

432

}

433

434

// Set config_id for enabling LWS tuning

435

_config_id = "direct_convolution_";

436

_config_id += lower_string(string_from_data_type(data_type));

437

_config_id += "_";

438

_config_id += support::cpp11::to_string(kernel_size);

439

_config_id += "_";

Georgios Pinitas

2018-02-19 13:58:22 +0000

[diff] [blame]

440

_config_id += support::cpp11::to_string(border_size().left);

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

441

_config_id += "_";

Georgios Pinitas

2018-02-19 13:58:22 +0000

[diff] [blame]

442

_config_id += support::cpp11::to_string(border_size().top);

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

443

_config_id += "_";

Georgios Pinitas

2018-02-19 13:58:22 +0000

[diff] [blame]

444

_config_id += support::cpp11::to_string(border_size().right);

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

445

_config_id += "_";

Georgios Pinitas

2018-02-19 13:58:22 +0000

[diff] [blame]

446

_config_id += support::cpp11::to_string(border_size().bottom);

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

447

_config_id += "_";

448

_config_id += support::cpp11::to_string(_conv_stride_x);

449

_config_id += "_";

450

_config_id += support::cpp11::to_string(_conv_stride_y);

451

_config_id += "_";

452

_config_id += support::cpp11::to_string(output->info()->dimension(0));

453

_config_id += "_";

454

_config_id += support::cpp11::to_string(output->info()->dimension(1));

455

}

456

Georgios Pinitas

2017-12-06 11:53:03 +0000

[diff] [blame]

457

Status CLDirectConvolutionLayerKernel::validate(const ITensorInfo *input, const ITensorInfo *weights, const ITensorInfo *biases, const ITensorInfo *output, const PadStrideInfo &conv_info,

458

const GPUTarget target)

Giorgio Arena

2017-12-01 10:42:47 +0000

[diff] [blame]

459

{

460

ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(input, weights, biases, output, conv_info));

461

ARM_COMPUTE_RETURN_ON_ERROR(validate_and_configure_window(input->clone().get(), weights->clone().get(), output->clone().get(), conv_info, target).first);

462

Georgios Pinitas

2017-12-06 11:53:03 +0000

[diff] [blame]

463

return Status{};

Giorgio Arena