> а на GPU часто ещё лучше.На проц типа х86-64 1 копия рабочего набора переменных как правило и так уместится по регистрам - сильно лучше не станет.
Хотя если ты хотел гонять 100500 потоков впараллель, получится как-то так...
--------------------------------------------------------------------------------
OCL 0: 61.0C | 268.0/265.9/ 0.00Mh/s | A:0 R:0+0(none) HW:0/none
CPU 0: | 2.19/ 2.18/ 0.00Mh/s | A:0 R:0+0(none) HW:0/none
CPU 1: | 2.18/ 2.16/ 0.00Mh/s | A:0 R:0+0(none) HW:0/none
CPU 2: | 2.24/ 2.21/ 0.00Mh/s | A:0 R:0+0(none) HW:0/none
CPU 3: | 2.18/ 2.18/ 0.00Mh/s | A:0 R:0+0(none) HW:0/none
CPU 4: | 2.15/ 2.19/ 0.00Mh/s | A:0 R:0+0(none) HW:0/none
CPU 5: | 2.21/ 2.20/ 0.00Mh/s | A:0 R:0+0(none) HW:0/none
CPU 6: | 2.20/ 2.21/ 0.00Mh/s | A:0 R:0+0(none) HW:0/none
CPU 7: | 2.25/ 2.24/ 0.00Mh/s | A:0 R:0+0(none) HW:0/none
--------------------------------------------------------------------------------
(да, GPU весьма иллюстративно вставляет CPU).