Compiler Explorer

Source code

vpbroadcastw    xmm8, xmm8
        vpslld  xmm3, xmm1, 16
        vpsrldq xmm6, xmm9, 2                   # xmm6 = xmm9[2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero,zero
        vpunpcklwd      xmm3, xmm6, xmm3        # xmm3 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3]
        vpblendd        ymm6, ymm2, ymm4, 146           # ymm6 = ymm2[0],ymm4[1],ymm2[2,3],ymm4[4],ymm2[5,6],ymm4[7]
        vpshufb xmm7, xmm6, xmmword ptr [rip + .LCPI0_0] # xmm7 = xmm6[0,1,12,13,u,u,4,5,u,u,u,u,12,13,14,15]
        vextracti128    xmm5, ymm6, 1
        vpshufd xmm0, xmm5, 200                 # xmm0 = xmm5[0,2,0,3]
        vpshufhw        xmm0, xmm0, 232                 # xmm0 = xmm0[0,1,2,3,4,6,6,7]
        vpblendw        xmm0, xmm7, xmm0, 52            # xmm0 = xmm7[0,1],xmm0[2],xmm7[3],xmm0[4,5],xmm7[6,7]
        vpblendd        xmm10, xmm0, xmm3, 8            # xmm10 = xmm0[0,1,2],xmm3[3]
        vpunpcklwd      xmm0, xmm8, xmm1        # xmm0 = xmm8[0],xmm1[0],xmm8[1],xmm1[1],xmm8[2],xmm1[2],xmm8[3],xmm1[3]
        vpshufb xmm5, xmm5, xmmword ptr [rip + .LCPI0_1] # xmm5 = xmm5[u,u,u,u,10,11,u,u,2,3,14,15,u,u,u,u]
        vpshufb xmm6, xmm6, xmmword ptr [rip + .LCPI0_2] # xmm6 = xmm6[2,3,14,15,u,u,6,7,u,u,u,u,12,13,14,15]
        vpblendw        xmm5, xmm6, xmm5, 52            # xmm5 = xmm6[0,1],xmm5[2],xmm6[3],xmm5[4,5],xmm6[6,7]
        vpblendd        xmm8, xmm5, xmm0, 8             # xmm8 = xmm5[0,1,2],xmm0[3]
        vpblendd        ymm0, ymm2, ymm4, 36            # ymm0 = ymm2[0,1],ymm4[2],ymm2[3,4],ymm4[5],ymm2[6,7]
        vpshufd xmm6, xmm0, 230                 # xmm6 = xmm0[2,1,2,3]
        vpshuflw        xmm7, xmm6, 38                  # xmm7 = xmm6[2,1,2,0,4,5,6,7]
        vextracti128    xmm0, ymm0, 1
        vpshufd xmm0, xmm0, 108                 # xmm0 = xmm0[0,3,2,1]
        vpshuflw        xmm3, xmm0, 224                 # xmm3 = xmm0[0,0,2,3,4,5,6,7]
        vpshufd xmm3, xmm3, 244                 # xmm3 = xmm3[0,1,3,3]
        vpblendw        xmm3, xmm3, xmm7, 9             # xmm3 = xmm7[0],xmm3[1,2],xmm7[3],xmm3[4,5,6,7]
        vpblendd        xmm7, xmm9, xmm1, 4             # xmm7 = xmm9[0,1],xmm1[2],xmm9[3]
        vpshufb xmm5, xmm7, xmmword ptr [rip + .LCPI0_3] # xmm5 = xmm7[u,u,u,u,u,u,u,u,u,u,0,1,12,13,8,9]
        vpblendw        xmm3, xmm3, xmm5, 224           # xmm3 = xmm3[0,1,2,3,4],xmm5[5,6,7]
        vpshuflw        xmm5, xmm6, 103                 # xmm5 = xmm6[3,1,2,1,4,5,6,7]
        vpshuflw        xmm0, xmm0, 244                 # xmm0 = xmm0[0,1,3,3,4,5,6,7]
        vpshufhw        xmm0, xmm0, 255                 # xmm0 = xmm0[0,1,2,3,7,7,7,7]
        vpblendw        xmm0, xmm0, xmm5, 9             # xmm0 = xmm5[0],xmm0[1,2],xmm5[3],xmm0[4,5,6,7]
        vpshufb xmm5, xmm7, xmmword ptr [rip + .LCPI0_4] # xmm5 = xmm7[u,u,u,u,u,u,u,u,u,u,2,3,14,15,10,11]
        vpblendw        xmm0, xmm0, xmm5, 224           # xmm0 = xmm0[0,1,2,3,4],xmm5[5,6,7]
        vpblendd        ymm2, ymm4, ymm2, 36            # ymm2 = ymm4[0,1],ymm2[2],ymm4[3,4],ymm2[5],ymm4[6,7]
        vextracti128    xmm4, ymm2, 1
        vpshuflw        xmm5, xmm4, 170                 # xmm5 = xmm4[2,2,2,2,4,5,6,7]
        vpshufb xmm6, xmm2, xmmword ptr [rip + .LCPI0_5] # xmm6 = xmm2[8,9,u,u,0,1,12,13,u,u,u,u,u,u,u,u]
        vpblendw        xmm5, xmm6, xmm5, 18            # xmm5 = xmm6[0],xmm5[1],xmm6[2,3],xmm5[4],xmm6[5,6,7]
        vpblendd        xmm1, xmm1, xmm9, 2             # xmm1 = xmm1[0],xmm9[1],xmm1[2,3]
        vpshufb xmm6, xmm1, xmmword ptr [rip + .LCPI0_6] # xmm6 = xmm1[u,u,u,u,u,u,u,u,u,u,4,5,0,1,12,13]
        vpblendw        xmm5, xmm5, xmm6, 224           # xmm5 = xmm5[0,1,2,3,4],xmm6[5,6,7]
        vpshufb xmm2, xmm2, xmmword ptr [rip + .LCPI0_7] # xmm2 = xmm2[10,11,u,u,2,3,14,15,u,u,u,u,u,u,u,u]
        vpshufd xmm4, xmm4, 229                 # xmm4 = xmm4[1,1,2,3]
        vpshufhw        xmm4, xmm4, 85                  # xmm4 = xmm4[0,1,2,3,5,5,5,5]
        vpblendw        xmm2, xmm2, xmm4, 18            # xmm2 = xmm2[0],xmm4[1],xmm2[2,3],xmm4[4],xmm2[5,6,7]
        vpshufb xmm1, xmm1, xmmword ptr [rip + .LCPI0_8] # xmm1 = xmm1[u,u,u,u,u,u,u,u,u,u,6,7,2,3,14,15]
        vpblendw        xmm1, xmm2, xmm1, 224           # xmm1 = xmm2[0,1,2,3,4],xmm1[5,6,7]