asmb:
.LFB2:
xor %rdx, %rdx
- xor %ecx, %ecx
//soll einfach null sein
pxor %xmm14, %xmm14
-.nextround:
/*init %xmm8 mit "'Z' + 1 + min_t - 'A'" fuer jedes byte
* 'Z' + 1 + min_t - 'A' = 90 + 1 - 128 - 65 = -102
* 102 = 01100110
* ~102 = 10011001
* (~102)+1 = 10011010 = 0x9A */
mov $0x9a9a9a9a9a9a9a9a, %rax
- movq %rax, %xmm15
- movddup %xmm15, %xmm8
+ movq %rax, %xmm8
+ punpcklbw %xmm8, %xmm8
//init %xmm9 mit "'a'-'A'= 97-65 = 32 = 0x20
mov $0x2020202020202020, %rax
- movq %rax, %xmm15
- movddup %xmm15, %xmm9
-
- //speicheradresse des pointers zeigt auf 16*8 feld = 128bit
- movdqu (%rdi, %rdx, 8), %xmm11
- movdqu (%rdi, %rdx, 8), %xmm12
+ movq %rax, %xmm9
+ punpcklbw %xmm9, %xmm9
/*addiere in %xmm11 "min_t-'A'"
* = -128 - 65 = 63 = 0x3f */
mov $0x3f3f3f3f3f3f3f3f, %rax
- movq %rax, %xmm15
- movddup %xmm15, %xmm10
+ movq %rax, %xmm10
+ punpcklbw %xmm10, %xmm10
+
+.nextround:
+ //speicheradresse des pointers zeigt auf 16*8 feld = 128bit
+ movdqu (%rdi, %rdx, 8), %xmm11
+ movdqu (%rdi, %rdx, 8), %xmm12
//c+min_t-'A'
paddb %xmm10, %xmm11
+ //0x9a9a... zwischenspeichern
+ movdqa %xmm8, %xmm15
+
/*"Packed COMpare Greater Than (Byte)"
* X = 'Z' + 1 + min_t - 'A' > c + min_t - 'A' ? 0xff : 0
* achtung beim intuitiven lesen des befehles. 'kleiner'
* ist mit 'groesser' vertauscht und vice versa */
- pcmpgtb %xmm11, %xmm8
+ pcmpgtb %xmm11, %xmm15
//Y = min(X, 'a' - 'A')
- pminub %xmm9, %xmm8
+ pminub %xmm9, %xmm15
//c += Y
- paddb %xmm8, %xmm12
+ paddb %xmm15, %xmm12
//retuniere an die richtige speicheradresse
movapd %xmm12, (%rdi, %rdx, 8)