.file "asmb.c" .text .globl asmb .type asmb, @function asmb: .LFB2: xor %rdx, %rdx //soll einfach null sein pxor %xmm14, %xmm14 /*init %xmm8 mit "'Z' + 1 + min_t - 'A'" fuer jedes byte * 'Z' + 1 + min_t - 'A' = 90 + 1 - 128 - 65 = -102 * 102 = 01100110 * ~102 = 10011001 * (~102)+1 = 10011010 = 0x9A */ mov $0x9a9a9a9a9a9a9a9a, %rax movq %rax, %xmm8 punpcklbw %xmm8, %xmm8 //init %xmm9 mit "'a'-'A'= 97-65 = 32 = 0x20 mov $0x2020202020202020, %rax movq %rax, %xmm9 punpcklbw %xmm9, %xmm9 /*addiere in %xmm11 "min_t-'A'" * = -128 - 65 = 63 = 0x3f */ mov $0x3f3f3f3f3f3f3f3f, %rax movq %rax, %xmm10 punpcklbw %xmm10, %xmm10 .nextround: //speicheradresse des pointers zeigt auf 16*8 feld = 128bit movdqu (%rdi, %rdx, 8), %xmm11 movdqu (%rdi, %rdx, 8), %xmm12 //c+min_t-'A' paddb %xmm10, %xmm11 //0x9a9a... zwischenspeichern movdqa %xmm8, %xmm15 /*"Packed COMpare Greater Than (Byte)" * X = 'Z' + 1 + min_t - 'A' > c + min_t - 'A' ? 0xff : 0 * achtung beim intuitiven lesen des befehles. 'kleiner' * ist mit 'groesser' vertauscht und vice versa */ pcmpgtb %xmm11, %xmm15 .differenz: //Y = min(X, 'a' - 'A') pminub %xmm9, %xmm15 //c += Y paddb %xmm15, %xmm12 //retuniere an die richtige speicheradresse movapd %xmm12, (%rdi, %rdx, 8) //entspricht ein byte dem nullbyte dann steht an jener stelle 0xff sonst 0x00 pcmpeqb %xmm14, %xmm12 //hol die MSBs aller bytes raus pmovmskb %xmm12, %ecx add $2, %rdx //ist %ecx gleich null? dann die naechsten 16byte bitte jecxz .nextround //speicheradresse des parameters zurueckgeben (wird noch modifziert) mov %rdi, %rax /*=============== * ab hier uebler hax um nach \0 trotzdem die gleichen bytes wie * input zu haben, also um selbiges verhalten wie asmb_ref zu erzwingen */ //\0 byte stelle durch rausfinden des MSB des %ecx bsf %ecx, %r11d //das ergebnis zweimal abspeichern mov %r11d, %ecx //hint: in %xmm15 ist differenz gespeichert (vgl .differenz) //leider shiften nur mit immediate! :( btr $3, %r11d jnc .rechtsshift1 psrldq $8, %xmm15 .rechtsshift1: btr $2, %r11d jnc .rechtsshift2 psrldq $4, %xmm15 .rechtsshift2: btr $1, %r11d jnc .rechtsshift3 psrldq $2, %xmm15 .rechtsshift3: btr $0, %r11d jnc .linksshift psrldq $1, %xmm15 #================== .linksshift: btr $3, %ecx jnc .linksshift1 pslldq $8, %xmm15 .linksshift1: btr $2, %ecx jnc .linksshift2 pslldq $4, %xmm15 .linksshift2: btr $1, %ecx jnc .linksshift3 pslldq $2, %xmm15 .linksshift3: btr $0, %ecx jnc .endshift pslldq $1, %xmm15 .endshift: //betreffende speicherstelle in %xmm11 laden movdqu -16(%rax, %rdx, 8), %xmm11 //und overhead wieder subtrahieren psubb %xmm15, %xmm11 //ergebnis zurueckspielen und fertig \o/ movapd %xmm11, -16(%rax, %rdx, 8) ret .LFE2: .size asmb, .-asmb .section .eh_frame,"a",@progbits .Lframe1: .long .LECIE1-.LSCIE1 .LSCIE1: .long 0x0 .byte 0x1 .string "zR" .uleb128 0x1 .sleb128 -8 .byte 0x10 .uleb128 0x1 .byte 0x3 .byte 0xc .uleb128 0x7 .uleb128 0x8 .byte 0x90 .uleb128 0x1 .align 8 .LECIE1: .LSFDE1: .long .LEFDE1-.LASFDE1 .LASFDE1: .long .LASFDE1-.Lframe1 .long .LFB2 .long .LFE2-.LFB2 .uleb128 0x0 .align 8 .LEFDE1: .ident "GCC: (Debian 4.3.2-1.1) 4.3.2" .section .note.GNU-stack,"",@progbits