Blame - src/core/GLES_COMPUTE/cs_shaders/transpose.cs - ml/ComputeLibrary

blob: 89bf9fbd89dac355ae122327581c69233cb49004 [file] [log] [blame]

Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	1	/*
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	2	* Copyright (c) 2017, 2018 ARM Limited.
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	3	*
				4	* SPDX-License-Identifier: MIT
				5	*
				6	* Permission is hereby granted, free of charge, to any person obtaining a copy
				7	* of this software and associated documentation files (the "Software"), to
				8	* deal in the Software without restriction, including without limitation the
				9	* rights to use, copy, modify, merge, publish, distribute, sublicense, and/or
				10	* sell copies of the Software, and to permit persons to whom the Software is
				11	* furnished to do so, subject to the following conditions:
				12	*
				13	* The above copyright notice and this permission notice shall be included in all
				14	* copies or substantial portions of the Software.
				15	*
				16	* THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
				17	* IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
				18	* FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
				19	* AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
				20	* LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
				21	* OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
				22	* SOFTWARE.
				23	*/
				24	layout(local_size_x = LOCAL_SIZE_X, local_size_y = LOCAL_SIZE_Y, local_size_z = LOCAL_SIZE_Z) in;
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	25
				26	#include "helpers_cs.h"
				27
				28	#if defined(DATA_TYPE_FP16)
				29	precision mediump float;
				30	#endif // DATA_TYPE_FP16
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	31
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	32	#define SWAP_ROW_func(u0, l0) \
				33	{ \
				34	tmp_swap = u0; \
				35	u0 = l0; \
				36	l0 = tmp_swap; \
				37	}
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	38
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	39	#define SWAP_4x4_func(u0, u1, u2, u3, l0, l1, l2, l3) \
				40	{ \
				41	vec4 tmp_swap; \
				42	SWAP_ROW_func(u0, l0); \
				43	SWAP_ROW_func(u1, l1); \
				44	SWAP_ROW_func(u2, l2); \
				45	SWAP_ROW_func(u3, l3); \
				46	}
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	47
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	48	#define TRANSPOSE_4x4_func(u0, u1, u2, u3) \
				49	{ \
				50	mat4x4 matin, matout; \
				51	matin[0] = u0; \
				52	matin[1] = u1; \
				53	matin[2] = u2; \
				54	matin[3] = u3; \
				55	matout = transpose(matin); \
				56	u0 = matout[0]; \
				57	u1 = matout[1]; \
				58	u2 = matout[2]; \
				59	u3 = matout[3]; \
				60	}
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	61
				62	/** This OpenGL ES kernel computes the matrix transposition of input matrix
				63	*
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	64	* @note The data type must be passed at compile time using "#define DATA_TYPE_NAME". e.g. "#define DATA_TYPE_FP32"
				65	* @note Optimization name must be passed using "#define OPTIMIZATION_NAME" for F16. e.g. "#define TRANSPOSE_8X8"
				66	*
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	67	* @param[in] src_ptr Pointer to the source matrix. Supported data types: F32/F16
				68	* @param[in] src_attrs The attributes of the source matrix
				69	* @param[out] dst_ptr Pointer to the destination matrix Supported data type: same as src_ptr
				70	* @param[in] dst_attrs The attributes of the destination matrix
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	71	*/
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	72	SHADER_PARAMS_DECLARATION
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	73	{
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	74	ImageAttributes src_attrs;
				75	ImageAttributes dst_attrs;
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	76	};
				77
				78	#ifdef DATA_TYPE_FP32
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	79	TENSOR_DECLARATION(1, srcBuffer, float, src_ptr, src_shift, 2, readonly);
				80	TENSOR_DECLARATION(2, dstBuffer, float, dst_ptr, dst_shift, 2, writeonly);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	81
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	82	void main(void)
				83	{
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	84	// compute source address
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	85	ImageIterator src_iter = CONVERT_TO_IMAGE_ITERATOR(src_attrs, src_shift);
				86	ImageIterator dst_iter = CONVERT_TO_IMAGE_ITERATOR_NO_STEP(dst_attrs, dst_shift);
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	87
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	88	// load the NxN block at (x, y)
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	89	vec4 u0 = VLOAD4(vec4, src_ptr, IMAGE_OFFSET(src_iter, 0, 0));
				90	vec4 u1 = VLOAD4(vec4, src_ptr, IMAGE_OFFSET(src_iter, 0, 1));
				91	vec4 u2 = VLOAD4(vec4, src_ptr, IMAGE_OFFSET(src_iter, 0, 2));
				92	vec4 u3 = VLOAD4(vec4, src_ptr, IMAGE_OFFSET(src_iter, 0, 3));
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	93
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	94	// transpose the block
				95	TRANSPOSE_4x4_func(u0, u1, u2, u3);
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	96
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	97	// store the block at (y, x)
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	98	TENSOR_ITERATOR_ADVANCE_IN_BYTES(dst_iter, uint(16) * uint(gl_GlobalInvocationID.y) + uint(4) * uint(gl_GlobalInvocationID.x) * (dst_attrs.stride_y));
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	99
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	100	VSTORE4(dst_ptr, IMAGE_OFFSET(dst_iter, 0, 0), u0);
				101	VSTORE4(dst_ptr, IMAGE_OFFSET(dst_iter, 0, 1), u1);
				102	VSTORE4(dst_ptr, IMAGE_OFFSET(dst_iter, 0, 2), u2);
				103	VSTORE4(dst_ptr, IMAGE_OFFSET(dst_iter, 0, 3), u3);
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	104	}
				105
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	106	#elif defined(DATA_TYPE_FP16) /* DATA_TYPE_FP16 */
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	107
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	108	#if defined(TRANSPOSE_4X4)
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	109	TENSOR_DECLARATION(1, srcBuffer, uvec2, src_ptr, src_shift, 3, readonly);
				110	TENSOR_DECLARATION(2, dstBuffer, uvec2, dst_ptr, dst_shift, 3, writeonly);
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	111
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	112	void main(void)
				113	{
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	114	// compute source address
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	115	ImageIterator src_iter = CONVERT_TO_IMAGE_ITERATOR(src_attrs, src_shift);
				116	ImageIterator dst_iter = CONVERT_TO_IMAGE_ITERATOR_NO_STEP(dst_attrs, dst_shift);
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	117
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	118	// load the NxN block at (x, y)
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	119	vec4 u0 = LOAD_UNPACK4_HALF(src_ptr, IMAGE_OFFSET(src_iter, 0, 0));
				120	vec4 u1 = LOAD_UNPACK4_HALF(src_ptr, IMAGE_OFFSET(src_iter, 0, 1));
				121	vec4 u2 = LOAD_UNPACK4_HALF(src_ptr, IMAGE_OFFSET(src_iter, 0, 2));
				122	vec4 u3 = LOAD_UNPACK4_HALF(src_ptr, IMAGE_OFFSET(src_iter, 0, 3));
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	123
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	124	// transpose the block
				125	TRANSPOSE_4x4_func(u0, u1, u2, u3);
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	126
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	127	// store the block at (y, x)
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	128	TENSOR_ITERATOR_ADVANCE_IN_BYTES(dst_iter, uint(8) * uint(gl_GlobalInvocationID.y) + uint(gl_GlobalInvocationID.x) * (dst_attrs.step_y));
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	129
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	130	STORE_PACK4_HALF(dst_ptr, IMAGE_OFFSET(dst_iter, 0, 0), u0);
				131	STORE_PACK4_HALF(dst_ptr, IMAGE_OFFSET(dst_iter, 0, 1), u1);
				132	STORE_PACK4_HALF(dst_ptr, IMAGE_OFFSET(dst_iter, 0, 2), u2);
				133	STORE_PACK4_HALF(dst_ptr, IMAGE_OFFSET(dst_iter, 0, 3), u3);
Anthony Barbier	7068f99	2017-10-26 15:23:08 +0100	[diff] [blame]	134	}
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	135
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	136	#elif defined(TRANSPOSE_8X8) /* TRANSPOSE_8X8 */
				137	TENSOR_DECLARATION(1, srcBuffer, uvec4, src_ptr, src_shift, 4, readonly);
				138	TENSOR_DECLARATION(2, dstBuffer, uvec4, dst_ptr, dst_shift, 4, writeonly);
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	139
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	140	void main(void)
				141	{
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	142	// compute source address
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	143	ImageIterator src_iter = CONVERT_TO_IMAGE_ITERATOR(src_attrs, src_shift);
				144	ImageIterator dst_iter = CONVERT_TO_IMAGE_ITERATOR_NO_STEP(dst_attrs, dst_shift);
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	145
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	146	vec4 u[8][2];
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	147
				148	for(int i = 0; i < 8; i++)
				149	{
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	150	u[i] = LOAD_UNPACK8_HALF(src_ptr, IMAGE_OFFSET(src_iter, 0, i));
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	151	}
				152
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	153	// transpose the block
				154	TRANSPOSE_4x4_func(u[0][0], u[1][0], u[2][0], u[3][0]);
				155	TRANSPOSE_4x4_func(u[0][1], u[1][1], u[2][1], u[3][1]);
				156	TRANSPOSE_4x4_func(u[4][0], u[5][0], u[6][0], u[7][0]);
				157	TRANSPOSE_4x4_func(u[4][1], u[5][1], u[6][1], u[7][1]);
				158	SWAP_4x4_func(u[0][1], u[1][1], u[2][1], u[3][1], u[4][0], u[5][0], u[6][0], u[7][0]);
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	159
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	160	// store the block at (y, x)
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	161	TENSOR_ITERATOR_ADVANCE_IN_BYTES(dst_iter, uint(16) * uint(gl_GlobalInvocationID.y) + uint(gl_GlobalInvocationID.x) * (dst_attrs.step_y));
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	162
				163	for(int i = 0; i < 8; i++)
				164	{
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	165	STORE_PACK8_HALF(dst_ptr, IMAGE_OFFSET(dst_iter, 0, i), u[i]);
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	166	}
				167	}
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	168
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	169	#elif defined(TRANSPOSE_8X8_SQUARE) /* TRANSPOSE_8x8_SQUARE */
				170	TENSOR_DECLARATION(1, srcBuffer, uvec4, src_ptr, src_shift, 4, readonly);
				171	TENSOR_DECLARATION(2, dstBuffer, uvec4, dst_ptr, dst_shift, 4, writeonly);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	172
				173	void main(void)
				174	{
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	175	ImageIterator src_iter = CONVERT_TO_IMAGE_ITERATOR(src_attrs, src_shift);
				176	ImageIterator dst_iter = CONVERT_TO_IMAGE_ITERATOR_NO_STEP(dst_attrs, dst_shift);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	177
				178	if(gl_GlobalInvocationID.x <= gl_GlobalInvocationID.y)
				179	{
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	180	uint blk1_offset_in_bytes = CURRENT_ITEM_OFFSET_IN_BYTES(src_iter);
				181	TENSOR_ITERATOR_ADVANCE_IN_BYTES(dst_iter, uint(16) * uint(gl_GlobalInvocationID.y) + uint(gl_GlobalInvocationID.x) * (dst_attrs.step_y));
				182	uint blk2_offset_in_bytes = CURRENT_ITEM_OFFSET_IN_BYTES(dst_iter);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	183
				184	// load block1
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	185	vec4 u1[8][2];
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	186
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	187	SET_TENSOR_ITERATOR_OFFSET_IN_BYTES(src_iter, blk1_offset_in_bytes);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	188	for(int i = 0; i < 8; i++)
				189	{
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	190	u1[i] = LOAD_UNPACK8_HALF(src_ptr, IMAGE_OFFSET(src_iter, 0, i));
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	191	}
				192
				193	// transpose block1
				194	TRANSPOSE_4x4_func(u1[0][0], u1[1][0], u1[2][0], u1[3][0]);
				195	TRANSPOSE_4x4_func(u1[0][1], u1[1][1], u1[2][1], u1[3][1]);
				196	TRANSPOSE_4x4_func(u1[4][0], u1[5][0], u1[6][0], u1[7][0]);
				197	TRANSPOSE_4x4_func(u1[4][1], u1[5][1], u1[6][1], u1[7][1]);
				198	SWAP_4x4_func(u1[0][1], u1[1][1], u1[2][1], u1[3][1], u1[4][0], u1[5][0], u1[6][0], u1[7][0]);
				199
				200	// write to block2
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	201	SET_TENSOR_ITERATOR_OFFSET_IN_BYTES(dst_iter, blk2_offset_in_bytes);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	202	for(int i = 0; i < 8; i++)
				203	{
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	204	STORE_PACK8_HALF(dst_ptr, IMAGE_OFFSET(dst_iter, 0, i), u1[i]);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	205	}
				206
				207	// load block2
				208	vec4 u2[8][2];
				209
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	210	SET_TENSOR_ITERATOR_OFFSET_IN_BYTES(src_iter, blk2_offset_in_bytes);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	211	for(int i = 0; i < 8; i++)
				212	{
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	213	u2[i] = LOAD_UNPACK8_HALF(src_ptr, IMAGE_OFFSET(src_iter, 0, i));
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	214	}
				215
				216	// transpose block2
				217	TRANSPOSE_4x4_func(u2[0][0], u2[1][0], u2[2][0], u2[3][0]);
				218	TRANSPOSE_4x4_func(u2[0][1], u2[1][1], u2[2][1], u2[3][1]);
				219	TRANSPOSE_4x4_func(u2[4][0], u2[5][0], u2[6][0], u2[7][0]);
				220	TRANSPOSE_4x4_func(u2[4][1], u2[5][1], u2[6][1], u2[7][1]);
				221	SWAP_4x4_func(u2[0][1], u2[1][1], u2[2][1], u2[3][1], u2[4][0], u2[5][0], u2[6][0], u2[7][0]);
				222
				223	// write to block1
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	224	SET_TENSOR_ITERATOR_OFFSET_IN_BYTES(dst_iter, blk1_offset_in_bytes);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	225	for(int i = 0; i < 8; i++)
				226	{
zhenglin	aa1209a	2018-01-08 13:54:52 +0800	[diff] [blame]	227	STORE_PACK8_HALF(dst_ptr, IMAGE_OFFSET(dst_iter, 0, i), u2[i]);
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	228	}
				229	}
				230	}
				231
Frank Lei	b9d38ee	2017-12-05 10:43:33 +0800	[diff] [blame]	232	#endif /* TRANSPOSE_4X4 */
steli01	7d473dd	2017-12-06 18:53:32 +0800	[diff] [blame]	233
				234	#endif /* DATA_TYPE_FP32 */