Blame - src/core/GLES_COMPUTE/cs_shaders/helpers_cs.h - ml/ComputeLibrary

ImageIterator update_image_iter_offset(uint element_shift, uint offset_first_element_in_bytes, uint stride_x, uint step_x, uint stride_y, uint step_y)

157

{

158

ImageIterator image_iter;

159

image_iter.element_shift = int(element_shift);

160

image_iter.stride_x = int(stride_x);

161

image_iter.stride_y = int(stride_y);

162

image_iter.current_offset_in_bytes = int(offset_first_element_in_bytes + gl_GlobalInvocationID.x * step_x + gl_GlobalInvocationID.y * step_y);

return image_iter;

}

/** Wrap 3D tensor information into a Tensor3DIterator structure, and make the offset to be this workitem's position.

168

*

169

* @param[in] element_shift The number of bits to shift by for one element

170

* @param[in] offset_first_element_in_bytes The offset of the first element in the source tersor

171

* @param[in] stride_x Stride of the tersor in X dimension (in bytes)

172

* @param[in] step_x stride_x * number of elements along X processed per workitem (in bytes)

173

* @param[in] stride_y Stride of the tersor in Y dimension (in bytes)

174

* @param[in] step_y stride_y * number of elements along Y processed per workitem (in bytes)

175

* @param[in] stride_z Stride of the tersor in Z dimension (in bytes)

176

* @param[in] step_z stride_z * number of elements along Z processed per workitem (in bytes)

177

*

178

* @return A 3D Tensor3DIterator object

179

*/

180

Tensor3DIterator update_tensor3D_iter_offset(uint element_shift, uint offset_first_element_in_bytes, uint stride_x, uint step_x, uint stride_y, uint step_y, uint stride_z, uint step_z)

181

{

182

Tensor3DIterator tensor_iter;

183

tensor_iter.element_shift = int(element_shift);

184

tensor_iter.stride_x = int(stride_x);

185

tensor_iter.stride_y = int(stride_y);

186

tensor_iter.stride_z = int(stride_z);

187

tensor_iter.current_offset_in_bytes = int(offset_first_element_in_bytes + gl_GlobalInvocationID.x * step_x + gl_GlobalInvocationID.y * step_y + gl_GlobalInvocationID.z * step_z);

return tensor_iter;

}

/** Wrap 3D tensor information into an ImageIterator structure, and make the offset to be this workitem's position.

193

*

194

* @param[in] element_shift The number of bits to shift by for one element

195

* @param[in] offset_first_element_in_bytes The offset of the first element in the source tensor

196

* @param[in] stride_x Stride of the tensor in X dimension (in bytes)

197

* @param[in] step_x stride_x * number of elements along X processed per workitem (in bytes)

198

* @param[in] stride_y Stride of the tensor in Y dimension (in bytes)

199

* @param[in] step_y stride_y * number of elements along Y processed per workitem (in bytes)

200

* @param[in] stride_z Stride of the tensor in Z dimension (in bytes)

201

* @param[in] step_z stride_z * number of elements along Z processed per workitem (in bytes)

202

*

203

* @return An ImageIterator object

204

*/

205

ImageIterator update_image_from_tensor3D_iter_offset(uint element_shift, uint offset_first_element_in_bytes, uint stride_x, uint step_x, uint stride_y, uint step_y, uint stride_z, uint step_z)

206

{

207

ImageIterator image_iter;

208

image_iter.element_shift = int(element_shift);

209

image_iter.stride_x = int(stride_x);

210

image_iter.stride_y = int(stride_y);

211

image_iter.current_offset_in_bytes = int(offset_first_element_in_bytes + gl_GlobalInvocationID.x * step_x + gl_GlobalInvocationID.y * step_y + gl_GlobalInvocationID.z * step_z);

return image_iter;

}

#define VECTOR_OFFSET(tensor_iter, x) \

217

uint(vector_offset_in_bytes(tensor_iter, int(x)) >> tensor_iter.element_shift)

218

219

#define IMAGE_OFFSET(tensor_iter, x, y) \

220

uint(image_offset_in_bytes(tensor_iter, int(x), int(y)) >> tensor_iter.element_shift)

221

222

#define TENSOR3D_OFFSET(tensor_iter, x, y, z) \

223

uint(tensor3D_offset_in_bytes(tensor_iter, int(x), int(y), int(z)) >> tensor_iter.element_shift)

224

zhenglin

19e9142

2018-01-03 12:14:13 +0800

[diff] [blame]

225

#define TENSOR_OFFSET_ADVANCE(tensor_iter, n) \

226

uint((tensor_iter.current_offset_in_bytes >> tensor_iter.element_shift) + int(n))

227

zhenglin

4f7f255

2017-12-06 16:41:20 +0800

[diff] [blame]

228

#define TENSOR_OFFSET_ADVANCE_IN_BYTES(tensor_iter, n) \

229

uint((tensor_iter.current_offset_in_bytes + int(n)) >> tensor_iter.element_shift)

230

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

231

#define CURRENT_ITEM_OFFSET(tensor_iter) \

232

uint(tensor_iter.current_offset_in_bytes >> tensor_iter.element_shift)

233

234

#define CURRENT_ITEM_OFFSET_IN_BYTES(tensor_iter) \

235

uint(tensor_iter.current_offset_in_bytes)

236

zhenglin

19e9142

2018-01-03 12:14:13 +0800

[diff] [blame]

237

#define TENSOR_ITERATOR_ADVANCE(tensor_iter, n) \

238

tensor_iter.current_offset_in_bytes += (int(n) << tensor_iter.element_shift)

239

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

240

#define TENSOR_ITERATOR_ADVANCE_IN_BYTES(tensor_iter, n) \

241

tensor_iter.current_offset_in_bytes += int(n)

242

Joel Liang

6387543

2018-01-02 14:05:06 +0800

[diff] [blame]

243

#define SET_TENSOR_ITERATOR_OFFSET_IN_BYTES(tensor_iter, n) \

244

tensor_iter.current_offset_in_bytes = int(n)

245

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

246

/** Get the offset of a VectorIterator

247

*

248

* @param[in] vector_iter The VectorIterator object pointed to the starting position of the buffer

249

* @param[in] x Relative X position

250

*

251

* @return The relative offset of the VectorIterator object (in bytes)

252

*/

253

uint vector_offset_in_bytes(VectorIterator vector_iter, int x)

254

{

255

return uint(vector_iter.current_offset_in_bytes + x * vector_iter.stride_x);

256

}

257

258

/** Get the offset of an ImageIterator

259

*

260

* @param[in] vector_iter The ImageIterator object pointed to the starting position of the buffer

261

* @param[in] x Relative X position

262

* @param[in] y Relative Y position

263

*

264

* @return The relative offset of the ImageIterator object (in bytes)

265

*/

266

uint image_offset_in_bytes(ImageIterator image_iter, int x, int y)

267

{

268

return uint(image_iter.current_offset_in_bytes + x * image_iter.stride_x + y * image_iter.stride_y);

269

}

270

271

/** Get the offset of a Tensor3DIterator

272

*

273

* @param[in] vector_iter The Tensor3DIterator object pointed to the starting position of the buffer

274

* @param[in] x Relative X position

275

* @param[in] y Relative Y position

276

* @param[in] z Relative Z position

277

*

278

* @return The relative offset of the Tensor3DIterator object (in bytes)

279

*/

280

uint tensor3D_offset_in_bytes(Tensor3DIterator tensor_iter, int x, int y, int z)

281

{

282

return uint(tensor_iter.current_offset_in_bytes + x * tensor_iter.stride_x + y * tensor_iter.stride_y + z * tensor_iter.stride_z);

283

}

284

285

#define LOAD(tensor_ptr, offset) tensor_ptr[offset]

286

#define STORE(tensor_ptr, offset, data) tensor_ptr[offset] = data

287

#define LOAD_CURRENT_ITEM(tensor_ptr, tensor_iter) tensor_ptr[CURRENT_ITEM_OFFSET(tensor_iter)]

288

#define STORE_CURRENT_ITEM(tensor_ptr, tensor_iter, data) tensor_ptr[CURRENT_ITEM_OFFSET(tensor_iter)] = data

289

290

#define VLOAD2(return_type, tensor_ptr, offset) \

291

return_type(LOAD(tensor_ptr, offset), \

292

LOAD(tensor_ptr, (offset) + uint(1)))

293

294

#define VSTORE2(tensor_ptr, offset, data) \

295

STORE(tensor_ptr, offset, data[0]); \

296

STORE(tensor_ptr, (offset) + uint(1), data[1])

297

298

#define VLOAD2_CURRENT_ITEM(return_type, tensor_ptr, tensor_iter) VLOAD2(return_type, tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

299

#define VSTORE2_CURRENT_ITEM(tensor_ptr, tensor_iter, data) VSTORE2(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

300

301

#define VLOAD3(return_type, tensor_ptr, offset) \

302

return_type(LOAD(tensor_ptr, offset), \

303

LOAD(tensor_ptr, (offset) + uint(1)), \

304

LOAD(tensor_ptr, (offset) + uint(2)))

305

306

#define VSTORE3(tensor_ptr, offset, data) \

307

STORE(tensor_ptr, offset, data[0]); \

308

STORE(tensor_ptr, (offset) + uint(1), data[1]); \

309

STORE(tensor_ptr, (offset) + uint(2), data[2])

310

311

#define VLOAD3_CURRENT_ITEM(return_type, tensor_ptr, tensor_iter) VLOAD3(return_type, tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

312

#define VSTORE3_CURRENT_ITEM(tensor_ptr, tensor_iter, data) VSTORE3(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

313

314

#define VLOAD4(return_type, tensor_ptr, offset) \

315

return_type(LOAD(tensor_ptr, offset), \

316

LOAD(tensor_ptr, (offset) + uint(1)), \

317

LOAD(tensor_ptr, (offset) + uint(2)), \

318

LOAD(tensor_ptr, (offset) + uint(3)))

319

320

#define VSTORE4(tensor_ptr, offset, data) \

321

STORE(tensor_ptr, offset, data[0]); \

322

STORE(tensor_ptr, (offset) + uint(1), data[1]); \

323

STORE(tensor_ptr, (offset) + uint(2), data[2]); \

324

STORE(tensor_ptr, (offset) + uint(3), data[3])

325

326

#define VLOAD4_CURRENT_ITEM(return_type, tensor_ptr, tensor_iter) VLOAD4(return_type, tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

327

#define VSTORE4_CURRENT_ITEM(tensor_ptr, tensor_iter, data) VSTORE4(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

328

Joel Liang

09849a0

2018-01-05 15:12:53 +0800

[diff] [blame]

329

#define VLOAD5(return_type, tensor_ptr, offset) \

330

return_type(LOAD(tensor_ptr, offset), \

331

LOAD(tensor_ptr, (offset) + uint(1)), \

332

LOAD(tensor_ptr, (offset) + uint(2)), \

333

LOAD(tensor_ptr, (offset) + uint(3)), \

334

LOAD(tensor_ptr, (offset) + uint(4)))

335

336

#define VSTORE5(tensor_ptr, offset, data) \

337

STORE(tensor_ptr, offset, data[0]); \

338

STORE(tensor_ptr, (offset) + uint(1), data[1]); \

339

STORE(tensor_ptr, (offset) + uint(2), data[2]); \

340

STORE(tensor_ptr, (offset) + uint(3), data[3]); \

341

STORE(tensor_ptr, (offset) + uint(4), data[4])

342

343

#define VLOAD5_CURRENT_ITEM(return_type, tensor_ptr, tensor_iter) VLOAD5(return_type, tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

344

#define VSTORE5_CURRENT_ITEM(tensor_ptr, tensor_iter, data) VSTORE5(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

345

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

346

/** Converting the vec4 object to 4 half-precision (16-bits) floating point values and packing into a uvec2 object

347

*

348

* @param[in] data The vec4 object to be packed

349

*

350

* @return The packed uvec2 object

351

*/

352

highp uvec2 pack4_half(mediump vec4 data)

353

{

354

return uvec2(packHalf2x16(data.xy), packHalf2x16(data.zw));

355

}

356

357

/** Unpacking the uvec2 object to 4 half-precision (16-bits) floating point values and converting to a vec4 object

358

*

359

* @param[in] packed_data The uvec2 object to be unpacked

360

*

361

* @return The unpacked vec4 object

362

*/

363

mediump vec4 unpack4_half(highp uvec2 packed_data)

364

{

365

return vec4(unpackHalf2x16(packed_data.x), unpackHalf2x16(packed_data.y));

366

}

367

Joel Liang

09849a0

2018-01-05 15:12:53 +0800

[diff] [blame]

368

/** Unpacking the uvec3 object to 6 half-precision (16-bits) floating point values and converting to a vec2[3] object

369

*

370

* @param[in] packed_data The uvec3 object to be unpacked

371

*

372

* @return The unpacked vec2[3] object

373

*/

374

mediump vec2[3] unpack6_half(highp uvec3 packed_data)

375

{

376

return vec2[3](unpackHalf2x16(packed_data[0]),

377

unpackHalf2x16(packed_data[1]),

378

unpackHalf2x16(packed_data[2]));

379

}

380

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

381

/** Converting the vec4[2] object to 8 half-precision (16-bits) floating point values and packing into a uvec4 object

382

*

383

* @param[in] data The vec4[2] object to be packed

384

*

385

* @return The packed uvec4 object

386

*/

387

highp uvec4 pack8_half(mediump vec4 data[2])

388

{

389

return uvec4(packHalf2x16(data[0].xy), packHalf2x16(data[0].zw),

390

packHalf2x16(data[1].xy), packHalf2x16(data[1].zw));

391

}

392

393

/** Unpacking the uvec4 object to 8 half-precision (16-bits) floating point values and converting to a vec4[2] object

394

*

395

* @param[in] packed_data The uvec4 object to be unpacked

396

*

397

* @return The unpacked vec4[2] object

398

*/

399

mediump vec4[2] unpack8_half(highp uvec4 packed_data)

400

{

401

return vec4[2](vec4(unpackHalf2x16(packed_data.x), unpackHalf2x16(packed_data.y)),

402

vec4(unpackHalf2x16(packed_data.z), unpackHalf2x16(packed_data.w)));

403

}

404

Joel Liang

6387543

2018-01-02 14:05:06 +0800

[diff] [blame]

405

/** Unpacking the uvec2[3] object to 12 half-precision (16-bits) floating point values and converting to a vec4[3] object

406

*

407

* @param[in] packed_data The uvec2[3] object to be unpacked

408

*

409

* @return The unpacked vec4[3] object

410

*/

411

mediump vec4[3] unpack12_half(highp uvec2[3] packed_data)

412

{

413

return vec4[3](vec4(unpackHalf2x16(packed_data[0].x), unpackHalf2x16(packed_data[0].y)),

414

vec4(unpackHalf2x16(packed_data[1].x), unpackHalf2x16(packed_data[1].y)),

415

vec4(unpackHalf2x16(packed_data[2].x), unpackHalf2x16(packed_data[2].y)));

416

}

417

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

418

// For half-precision (16-bits) floating point packed into a "uint" element

Joel Liang

aa29fde

2017-11-15 12:13:59 +0800

[diff] [blame]

419

#define LOAD_UNPACK2_HALF(tensor_ptr, offset) unpackHalf2x16(uint(LOAD(tensor_ptr, offset)))

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

420

#define STORE_PACK2_HALF(tensor_ptr, offset, data) STORE(tensor_ptr, offset, packHalf2x16(data))

421

#define LOAD_UNPACK2_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter) LOAD_UNPACK2_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

422

#define STORE_PACK2_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter, data) STORE_PACK2_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

423

424

#define VLOAD2_UNPACK4_HALF(tensor_ptr, offset) unpack4_half(VLOAD2(uvec2, tensor_ptr, offset))

425

#define VSTORE2_PACK4_HALF(tensor_ptr, offset, data) VSTORE2(tensor_ptr, offset, pack4_half(data))

426

#define VLOAD2_UNPACK4_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter) VLOAD2_UNPACK4_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

427

#define VSTORE2_PACK4_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter, data) VSTORE2_PACK4_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

428

Joel Liang

09849a0

2018-01-05 15:12:53 +0800

[diff] [blame]

429

#define VLOAD3_UNPACK6_HALF(tensor_ptr, offset) unpack6_half(VLOAD3(uvec3, tensor_ptr, offset))

430

#define VLOAD3_UNPACK6_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter) VLOAD3_UNPACK6_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

431

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

432

#define VLOAD4_UNPACK8_HALF(tensor_ptr, offset) unpack8_half(VLOAD4(uvec4, tensor_ptr, offset))

433

#define VSTORE4_PACK8_HALF(tensor_ptr, offset, data) VSTORE4(tensor_ptr, offset, pack8_half(data))

434

#define VLOAD4_UNPACK8_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter) VLOAD4_UNPACK8_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

435

#define VSTORE4_PACK8_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter, data) VSTORE4_PACK8_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

436

437

// For half-precision (16-bits) floating point packed into a "uvec2" element

Joel Liang

aa29fde

2017-11-15 12:13:59 +0800

[diff] [blame]

438

#define LOAD_UNPACK4_HALF(tensor_ptr, offset) unpack4_half(uvec2(LOAD(tensor_ptr, offset)))

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

439

#define STORE_PACK4_HALF(tensor_ptr, offset, data) STORE(tensor_ptr, offset, pack4_half(data))

440

#define LOAD_UNPACK4_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter) LOAD_UNPACK4_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

441

#define STORE_PACK4_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter, data) STORE_PACK4_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

442

443

#define VLOAD2_UNPACK8_HALF(tensor_ptr, offset) unpack8_half(VLOAD2(uvec4, tensor_ptr, offset))

444

#define VSTORE2_PACK8_HALF(tensor_ptr, offset, data) VSTORE2(tensor_ptr, offset, pack8_half(data))

445

#define VLOAD2_UNPACK8_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter) VLOAD2_UNPACK8_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

446

#define VSTORE2_PACK8_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter, data) VSTORE2_PACK8_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

447

Joel Liang

6387543

2018-01-02 14:05:06 +0800

[diff] [blame]

448

#define VLOAD3_UNPACK12_HALF(tensor_ptr, offset) unpack12_half(VLOAD3(uvec2[3], tensor_ptr, offset))

449

#define VLOAD3_UNPACK12_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter) VLOAD3_UNPACK12_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

450

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

451

// For half-precision (16-bits) floating point packed into a "uvec4" element

Joel Liang

aa29fde

2017-11-15 12:13:59 +0800

[diff] [blame]

452

#define LOAD_UNPACK8_HALF(tensor_ptr, offset) unpack8_half(uvec4(LOAD(tensor_ptr, offset)))

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

453

#define STORE_PACK8_HALF(tensor_ptr, offset, data) STORE(tensor_ptr, offset, pack8_half(data))

454

#define LOAD_UNPACK8_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter) LOAD_UNPACK8_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

455

#define STORE_PACK8_CURRENT_ITEM_HALF(tensor_ptr, tensor_iter, data) STORE_PACK8_HALF(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

456

Joel Liang

c5114d3

2017-12-04 15:30:53 +0800

[diff] [blame]

457

/** Converting the uvec4 object to 4 low-precision uint values and packing into a uint object

458

*

459

* @param[in] data The uvec4 object to be packed

460

*

461

* @return The packed uint object

462

*/

463

highp uint pack4_u8(lowp uvec4 data)

464

{

465

highp uint r = uint(0);

466

467

for(int i = 0; i < 4; i++)

468

{

469

r |= data[i] << uint(i * 8);

}

return r;

}

/** Unpacking the uint object to 4 low-precision uint values and converting to a uvec4 object

476

*

477

* @param[in] packed_data The uint object to be unpacked

478

*

479

* @return The unpacked uvec4 object

480

*/

481

lowp uvec4 unpack4_u8(highp uint packed_data)

{

lowp uvec4 uvec;

for(int i = 0; i < 4; i++)

486

{

487

uvec[i] = (packed_data >> uint(i * 8)) & uint(0xFF);

}

return uvec;

}

#define LOAD_UNPACK4_U8(tensor_ptr, offset) unpack4_u8(uint(LOAD(tensor_ptr, offset)))

494

#define STORE_PACK4_U8(tensor_ptr, offset, data) STORE(tensor_ptr, offset, pack4_u8(data))

495

#define LOAD_UNPACK4_CURRENT_ITEM_U8(tensor_ptr, tensor_iter) LOAD_UNPACK4_U8(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter))

496

#define STORE_PACK4_CURRENT_ITEM_U8(tensor_ptr, tensor_iter, data) STORE_PACK4_U8(tensor_ptr, CURRENT_ITEM_OFFSET(tensor_iter), data)

497

Joel Liang

f1f3ebd

2017-11-10 09:59:19 +0800

[diff] [blame]

498

#endif // ARM_COMPUTE_HELPER_CS_H