Compiler Explorer

Source code

global miraQueCoincidencia

section .rodata
gris: dd 0.114, 0.587, 0.299, 0.0
blanco: dd 255.0, 255.0, 255.0, 255.0

;########### SECCION DE TEXTO (PROGRAMA)
section .text

; (rdi: uint8_t* A, rsi: uint8_t* B, rdx: uint32_t N, rcx: uint8_t* laCoincidencia) -> void
miraQueCoincidencia:

; si n=0 no hay nada para hacer
test edx, edx
jz .end

; r8d = high32(edx*edx)
; edx = low32(edx*edx)
mulx r8d, edx, edx
; laburamos de a 16 bytes (4 píxeles)
shr edx, 2

; Armamos registros de todos unos
pcmpeqd xmm7, xmm7
mov r8d, 0xFFFFFFFF

; Cargamos los coeficientes para convertir a escala de grises
movups xmm6, [gris]
; Cargamos un registro lleno de floats blancos
movups xmm5, [blanco]

.loop:
	movdqu xmm1, [rdi]
	movdqu xmm2, [rsi]

movdqu xmm0, xmm1
	; Revisamos si los píxeles son iguales
	pcmpeqd xmm0, xmm2
	; Invertimos la máscara (nos interesan los que son distintos)
	pxor xmm0, xmm7
	; Chequeamos si son todos unos
	ptest xmm0, xmm7
	cmovc eax, r8d   ; Si son todos unos entonces cargo los cuatro píxeles resultantes a eax
	jc .write_pixels ; Si son todos unos evito calcular la escala de grises para los píxeles

; Registro para el resultado final
	pxor xmm4, xmm4

pmovzxbd xmm3, xmm1          ; Cargo un pixel extendiendo cada canal a dword
	cvtdq2ps xmm3, xmm3          ; Convierto cada canal a float
	dpps xmm3, xmm6, 0b1110_0001 ; Calculo la escala de grises
	orps xmm4, xmm3              ; Agrego el resultado al acumulador
	psrldq xmm1, 4               ; Avanzo al siguiente píxel

pmovzxbd xmm3, xmm1
	cvtdq2ps xmm3, xmm3
	dpps xmm3, xmm6, 0b1110_0010
	orps xmm4, xmm3
	psrldq xmm1, 4

pmovzxbd xmm3, xmm1
	cvtdq2ps xmm3, xmm3
	dpps xmm3, xmm6, 0b1110_0100
	orps xmm4, xmm3
	psrldq xmm1, 4

pmovzxbd xmm3, xmm1
	cvtdq2ps xmm3, xmm3
	dpps xmm3, xmm6, 0b1110_1000
	orps xmm4, xmm3

blendvps xmm4, xmm5  ; Reemplazo por blanco los píxeles que eran iguales (xmm0 es máscara implícita)
	cvttps2dq xmm4, xmm4 ; Convierto a entero (truncando)
	packusdw xmm4, xmm4  ; Empaqueto dword a word
	packuswb xmm4, xmm4  ; Empaqueto word a byte
	movd eax, xmm4       ; Cargo los 4 píxeles resultantes en eax

.write_pixels:
	mov [rcx], eax
	add rdi, 16
	add rsi, 16
	add rcx, 4
	dec rdx
	jnz .loop

.end:
ret