Blame - src/core/CL/kernels/CLWidthConcatenate4TensorsKernel.cpp - ml/ComputeLibrary

blob: a3ac1025645f3fa0bd8e1029bd44549b524afe6a [file] [log] [blame]

Michele Di Giorgio	27400b9	2018-11-01 13:44:05 +0000	[diff] [blame]	1	/*
Michele Di Giorgio	8e150a1	2018-12-21 15:20:56 +0000	[diff] [blame]	2	* Copyright (c) 2018-2019 ARM Limited.
Michele Di Giorgio	27400b9	2018-11-01 13:44:05 +0000	[diff] [blame]	3	*
				4	* SPDX-License-Identifier: MIT
				5	*
				6	* Permission is hereby granted, free of charge, to any person obtaining a copy
				7	* of this software and associated documentation files (the "Software"), to
				8	* deal in the Software without restriction, including without limitation the
				9	* rights to use, copy, modify, merge, publish, distribute, sublicense, and/or
				10	* sell copies of the Software, and to permit persons to whom the Software is
				11	* furnished to do so, subject to the following conditions:
				12	*
				13	* The above copyright notice and this permission notice shall be included in all
				14	* copies or substantial portions of the Software.
				15	*
				16	* THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
				17	* IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
				18	* FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
				19	* AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
				20	* LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
				21	* OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
				22	* SOFTWARE.
				23	*/
				24	#include "arm_compute/core/CL/kernels/CLWidthConcatenate4TensorsKernel.h"
				25
				26	#include "arm_compute/core/AccessWindowStatic.h"
				27	#include "arm_compute/core/CL/CLHelpers.h"
				28	#include "arm_compute/core/CL/CLKernelLibrary.h"
				29	#include "arm_compute/core/CL/CLValidate.h"
				30	#include "arm_compute/core/CL/ICLTensor.h"
				31	#include "arm_compute/core/CL/OpenCL.h"
				32	#include "arm_compute/core/Error.h"
				33	#include "arm_compute/core/Helpers.h"
				34	#include "arm_compute/core/IAccessWindow.h"
				35	#include "arm_compute/core/TensorInfo.h"
				36	#include "arm_compute/core/Utils.h"
				37	#include "arm_compute/core/Window.h"
Georgios Pinitas	6631ac2	2019-04-17 12:12:56 +0100	[diff] [blame]	38	#include "arm_compute/core/utils/helpers/tensor_info.h"
Michele Di Giorgio	27400b9	2018-11-01 13:44:05 +0000	[diff] [blame]	39	#include "arm_compute/core/utils/misc/ShapeCalculator.h"
				40
				41	#include "support/ToolchainSupport.h"
				42
				43	namespace arm_compute
				44	{
				45	namespace
				46	{
				47	constexpr unsigned int num_elems_processed_per_iteration = 8;
				48
				49	std::pair<Status, Window> validate_and_configure_window(ITensorInfo input1, ITensorInfo input2, ITensorInfo input3, ITensorInfo input4, ITensorInfo *output)
				50	{
Michele Di Giorgio	8e150a1	2018-12-21 15:20:56 +0000	[diff] [blame]	51	const unsigned int input1_width = input1->dimension(0);
				52	const unsigned int input2_width = input2->dimension(0);
				53	const unsigned int input3_width = input3->dimension(0);
				54	const unsigned int input4_width = input4->dimension(0);
				55
Michele Di Giorgio	27400b9	2018-11-01 13:44:05 +0000	[diff] [blame]	56	// The window needs to be based on the output
				57	Window win = calculate_max_window(*output, Steps(num_elems_processed_per_iteration));
Michele Di Giorgio	8e150a1	2018-12-21 15:20:56 +0000	[diff] [blame]	58	AccessWindowStatic input1_access(input1, 0, 0, ceil_to_multiple(input1_width, num_elems_processed_per_iteration), input1->dimension(1));
				59
				60	const unsigned int input2_left_padding = input1_width % num_elems_processed_per_iteration;
				61	const unsigned int input2_right_padding = ((input1_width + input2_width) / num_elems_processed_per_iteration) * num_elems_processed_per_iteration - input1_width + num_elems_processed_per_iteration -
				62	input2_width;
				63	AccessWindowStatic input2_access(input2, -input2_left_padding, 0, input2_width + input2_right_padding, input2->dimension(1));
				64
				65	const unsigned int input3_left_padding = (input1_width + input2_width) % num_elems_processed_per_iteration;
				66	const unsigned int input3_right_padding = ((input1_width + input2_width + input3_width) / num_elems_processed_per_iteration) * num_elems_processed_per_iteration - input1_width - input2_width +
				67	num_elems_processed_per_iteration - input3_width;
				68	AccessWindowStatic input3_access(input3, -input3_left_padding, 0, input3_width + input3_right_padding, input3->dimension(1));
				69
				70	const unsigned int input4_left_padding = (input1_width + input2_width + input3_width) % num_elems_processed_per_iteration;
				71	const unsigned int input4_right_padding = (output->dimension(0) / num_elems_processed_per_iteration) * num_elems_processed_per_iteration + num_elems_processed_per_iteration - output->dimension(0);
				72	AccessWindowStatic input4_access(input4, -input4_left_padding, 0, input4_width + input4_right_padding, input4->dimension(1));
				73
Michele Di Giorgio	27400b9	2018-11-01 13:44:05 +0000	[diff] [blame]	74	AccessWindowHorizontal output_access(output, 0, num_elems_processed_per_iteration);
				75	bool window_changed = update_window_and_padding(win, input1_access, input2_access, input3_access, input4_access, output_access);
				76
				77	Window win_collapsed = win.collapse(win, Window::DimZ);
				78
				79	Status err = (window_changed) ? ARM_COMPUTE_CREATE_ERROR(ErrorCode::RUNTIME_ERROR, "Insufficient Padding!") : Status{};
				80	return std::make_pair(err, win_collapsed);
				81	}
				82	Status validate_arguments(const ITensorInfo input1, const ITensorInfo input2, const ITensorInfo input3, const ITensorInfo input4, const ITensorInfo *output)
				83	{
				84	ARM_COMPUTE_RETURN_ERROR_ON_NULLPTR(input1, input2, input3, input4, output);
				85	ARM_COMPUTE_RETURN_ERROR_ON_F16_UNSUPPORTED(input1);
				86	ARM_COMPUTE_RETURN_ERROR_ON_DATA_TYPE_CHANNEL_NOT_IN(input1, 1, DataType::U8, DataType::S8, DataType::QASYMM8, DataType::U16, DataType::S16, DataType::F16, DataType::U32,
				87	DataType::F32);
				88	ARM_COMPUTE_RETURN_ERROR_ON_MISMATCHING_DATA_TYPES(input1, input2, input3, input4, output);
				89	ARM_COMPUTE_RETURN_ERROR_ON(input1->dimension(0) + input2->dimension(0) + input3->dimension(0) + input4->dimension(0) > output->dimension(0));
				90
				91	for(size_t i = 1; i < Coordinates::num_max_dimensions; ++i)
				92	{
				93	ARM_COMPUTE_RETURN_ERROR_ON(input1->dimension(i) != output->dimension(i));
				94	ARM_COMPUTE_RETURN_ERROR_ON(input2->dimension(i) != output->dimension(i));
				95	ARM_COMPUTE_RETURN_ERROR_ON(input3->dimension(i) != output->dimension(i));
				96	ARM_COMPUTE_RETURN_ERROR_ON(input4->dimension(i) != output->dimension(i));
				97	}
				98	ARM_COMPUTE_RETURN_ERROR_ON(input1->num_dimensions() > 4);
				99
				100	return Status{};
				101	}
				102	} // namespace
				103
				104	CLWidthConcatenate4TensorsKernel::CLWidthConcatenate4TensorsKernel()
				105	: _input1(nullptr), _input2(nullptr), _input3(nullptr), _input4(nullptr), _output(nullptr)
				106	{
				107	}
				108
				109	Status CLWidthConcatenate4TensorsKernel::validate(const ITensorInfo input1, const ITensorInfo input2, const ITensorInfo input3, const ITensorInfo input4, const ITensorInfo *output)
				110	{
				111	ARM_COMPUTE_RETURN_ON_ERROR(validate_arguments(input1, input2, input3, input4, output));
				112	ARM_COMPUTE_RETURN_ON_ERROR(validate_and_configure_window(input1->clone().get(), input2->clone().get(), input3->clone().get(), input4->clone().get(), output->clone().get()).first);
				113	return Status{};
				114	}
				115
				116	void CLWidthConcatenate4TensorsKernel::configure(const ICLTensor input1, const ICLTensor input2, const ICLTensor input3, const ICLTensor input4, ICLTensor *output)
				117	{
				118	ARM_COMPUTE_ERROR_ON_NULLPTR(input1, input2, input3, input4, output);
				119	ARM_COMPUTE_ERROR_THROW_ON(validate_arguments(input1->info(), input2->info(), input3->info(), input4->info(), output->info()));
				120
				121	_input1 = input1;
				122	_input2 = input2;
				123	_input3 = input3;
				124	_input4 = input4;
				125	_output = output;
				126
				127	// Add build options
				128	CLBuildOptions build_opts;
				129	build_opts.add_option("-DDATA_TYPE=" + get_underlying_cl_type_from_data_type(input1->info()->data_type()));
				130	build_opts.add_option("-DVEC_SIZE=" + support::cpp11::to_string(num_elems_processed_per_iteration));
				131	build_opts.add_option("-DDEPTH=" + support::cpp11::to_string(input1->info()->dimension(2)));
				132	build_opts.add_option("-DINPUT1_WIDTH=" + support::cpp11::to_string(input1->info()->dimension(0)));
				133	build_opts.add_option("-DINPUT2_WIDTH=" + support::cpp11::to_string(input2->info()->dimension(0)));
				134	build_opts.add_option("-DINPUT3_WIDTH=" + support::cpp11::to_string(input3->info()->dimension(0)));
				135	build_opts.add_option("-DELEMENT_SIZE=" + support::cpp11::to_string(input1->info()->element_size()));
				136
Georgios Pinitas	6631ac2	2019-04-17 12:12:56 +0100	[diff] [blame]	137	// If input have different quantization info set quantization parameters needed for the re-quantization process
				138	const bool have_different_qinfo = helpers::tensor_info::tensors_have_different_quantization_info(output->info(), input1->info(), input2->info(), input3->info(), input4->info());
				139	if(is_data_type_quantized_asymmetric(input1->info()->data_type()) && have_different_qinfo)
Pablo Tello	eb6c88a	2019-02-07 15:53:19 +0000	[diff] [blame]	140	{
Georgios Pinitas	4c5469b	2019-05-21 13:32:43 +0100	[diff] [blame]	141	const UniformQuantizationInfo iq1_info = input1->info()->quantization_info().uniform();
				142	const UniformQuantizationInfo iq2_info = input2->info()->quantization_info().uniform();
				143	const UniformQuantizationInfo iq3_info = input3->info()->quantization_info().uniform();
				144	const UniformQuantizationInfo iq4_info = input4->info()->quantization_info().uniform();
				145	const UniformQuantizationInfo oq_info = output->info()->quantization_info().uniform();
				146
				147	build_opts.add_option("-DOFFSET_IN1=" + float_to_string_with_full_precision(iq1_info.offset));
				148	build_opts.add_option("-DSCALE_IN1=" + float_to_string_with_full_precision(iq1_info.scale));
				149	build_opts.add_option("-DOFFSET_IN2=" + float_to_string_with_full_precision(iq2_info.offset));
				150	build_opts.add_option("-DSCALE_IN2=" + float_to_string_with_full_precision(iq2_info.scale));
				151	build_opts.add_option("-DOFFSET_IN3=" + float_to_string_with_full_precision(iq3_info.offset));
				152	build_opts.add_option("-DSCALE_IN3=" + float_to_string_with_full_precision(iq3_info.scale));
				153	build_opts.add_option("-DOFFSET_IN4=" + float_to_string_with_full_precision(iq4_info.offset));
				154	build_opts.add_option("-DSCALE_IN4=" + float_to_string_with_full_precision(iq4_info.scale));
				155	build_opts.add_option("-DOFFSET_OUT=" + float_to_string_with_full_precision(oq_info.offset));
				156	build_opts.add_option("-DSCALE_OUT=" + float_to_string_with_full_precision(oq_info.scale));
Pablo Tello	eb6c88a	2019-02-07 15:53:19 +0000	[diff] [blame]	157	}
				158
Michele Di Giorgio	27400b9	2018-11-01 13:44:05 +0000	[diff] [blame]	159	// Create kernel
				160	_kernel = static_cast<cl::Kernel>(CLKernelLibrary::get().create_kernel("concatenate_width_x4", build_opts.options()));
				161
				162	// Configure kernel window
				163	auto win_config = validate_and_configure_window(input1->info(), input2->info(), input3->info(), input4->info(), output->info());
				164	ARM_COMPUTE_ERROR_THROW_ON(std::get<0>(win_config));
				165
				166	ICLKernel::configure_internal(std::get<1>(win_config));
				167
Michele Di Giorgio	8e150a1	2018-12-21 15:20:56 +0000	[diff] [blame]	168	// Pass paddings as arguments to the kernel
				169	const unsigned int input1_width = input1->info()->dimension(0);
				170	const unsigned int input2_width = input2->info()->dimension(0);
				171	const unsigned int input3_width = input3->info()->dimension(0);
				172
				173	const unsigned int input1_right_padding = ceil_to_multiple(input1_width, num_elems_processed_per_iteration) - input1_width;
				174	const unsigned int input2_left_padding = input1_width % num_elems_processed_per_iteration;
				175	const unsigned int input2_right_padding = ((input1_width + input2_width) / num_elems_processed_per_iteration) * num_elems_processed_per_iteration - input1_width + num_elems_processed_per_iteration -
				176	input2_width;
				177	const unsigned int input3_left_padding = (input1_width + input2_width) % num_elems_processed_per_iteration;
				178	const unsigned int input3_right_padding = ((input1_width + input2_width + input3_width) / num_elems_processed_per_iteration) * num_elems_processed_per_iteration - input1_width - input2_width +
				179	num_elems_processed_per_iteration - input3_width;
				180	const unsigned int input4_left_padding = (input1_width + input2_width + input3_width) % num_elems_processed_per_iteration;
				181	unsigned int idx0 = 5 * num_arguments_per_4D_tensor();
				182	_kernel.setArg<cl_uint>(idx0++, input1_right_padding);
				183	_kernel.setArg<cl_uint>(idx0++, input2_left_padding);
				184	_kernel.setArg<cl_uint>(idx0++, input2_right_padding);
				185	_kernel.setArg<cl_uint>(idx0++, input3_left_padding);
				186	_kernel.setArg<cl_uint>(idx0++, input3_right_padding);
				187	_kernel.setArg<cl_uint>(idx0++, input4_left_padding);
				188
Michele Di Giorgio	27400b9	2018-11-01 13:44:05 +0000	[diff] [blame]	189	// Set config_id for enabling LWS tuning
				190	_config_id = "concatenate_width_x4_";
				191	_config_id += lower_string(string_from_data_type(input1->info()->data_type()));
				192	_config_id += "_";
				193	_config_id += support::cpp11::to_string(input1->info()->dimension(0));
				194	_config_id += "_";
				195	_config_id += support::cpp11::to_string(input1->info()->dimension(1));
				196	_config_id += "_";
				197	_config_id += support::cpp11::to_string(input2->info()->dimension(0));
				198	_config_id += "_";
				199	_config_id += support::cpp11::to_string(input2->info()->dimension(1));
				200	_config_id += "_";
				201	_config_id += support::cpp11::to_string(input3->info()->dimension(0));
				202	_config_id += "_";
				203	_config_id += support::cpp11::to_string(input3->info()->dimension(1));
				204	_config_id += "_";
				205	_config_id += support::cpp11::to_string(input4->info()->dimension(0));
				206	_config_id += "_";
				207	_config_id += support::cpp11::to_string(input4->info()->dimension(1));
				208	}
				209
				210	void CLWidthConcatenate4TensorsKernel::run(const Window &window, cl::CommandQueue &queue)
				211	{
				212	ARM_COMPUTE_ERROR_ON_UNCONFIGURED_KERNEL(this);
				213	ARM_COMPUTE_ERROR_ON_INVALID_SUBWINDOW(ICLKernel::window(), window);
				214
				215	Window slice = window.first_slice_window_4D();
				216
				217	do
				218	{
				219	unsigned int idx = 0;
				220	add_4D_tensor_argument(idx, _input1, slice);
				221	add_4D_tensor_argument(idx, _input2, slice);
				222	add_4D_tensor_argument(idx, _input3, slice);
				223	add_4D_tensor_argument(idx, _input4, slice);
				224	add_4D_tensor_argument(idx, _output, slice);
				225	enqueue(queue, *this, window, lws_hint());
				226	}
				227	while(window.slide_window_slice_4D(slice));
				228	}
				229	} // namespace arm_compute