.type asma, @function
asma:
.LFB2:
- movq %rdi, %rax
+ /*init %xmm1 mit "'Z' + 1 + min_t - 'A'" fuer jedes byte
+ * 'Z' + 1 + min_t - 'A' = 90 + 1 - 128 - 65 = -102
+ * 102 = 01100110
+ * ~102 = 10011001
+ * (~102)+1 = 10011010 = 0x9A */
+ mov $0x9a9a9a9a9a9a9a9a, %rbx
+ movq %rbx, %xmm1
+ pslldq $8, %xmm1
+ movq %rbx, %xmm1
+
+ //init %xmm2 mit "'a'-'A'= 97-65 = 32 = 0x20
+ mov $0x2020202020202020, %rbx
+ movq %rbx, %xmm2
+ pslldq $8, %xmm2
+ movq %rbx, %xmm2
+
+ //speicheradresse des pointers zeigt auf 16*8 feld = 128bit
+ movdqu (%rdi), %xmm4
+ movdqu (%rdi), %xmm5
+
+ /*addiere in %xmm4 "min_t-'A'"
+ * = -128 - 65 = 63 = 0x3f */
+ mov $0x3f3f3f3f3f3f3f3f, %rbx
+ movq %rbx, %xmm3
+ pslldq $8, %xmm3
+ movq %rbx, %xmm3
+
+ //c+min_t-'A'
+ paddb %xmm3, %xmm4
+
+ /*"Packed COMpare Greater Than (Byte)"
+ * X = 'Z' + 1 + min_t - 'A' > c + min_t - 'A' ? 0xff : 0
+ * achtung beim intuitiven lesen des befehles. 'kleiner'
+ * ist mit 'groesser' vertauscht und vice versa */
+ pcmpgtb %xmm4, %xmm1
+
+ //Y = min(X, 'a' - 'A')
+ pminub %xmm2, %xmm1
+
+ //c += Y
+ paddb %xmm1, %xmm5
+
+ //retuniere an die richtige speicheradresse
+ mov %rdi, %rax
+ movq %xmm5, (%rax)
ret
.LFE2:
.size asma, .-asma