Compiler Explorer

Source code

vpxor   xmm0, xmm0, xmm0
        vpblendw        xmm1, xmm13, xmm0, 238          # xmm1 = xmm13[0],xmm0[1,2,3],xmm13[4],xmm0[5,6,7]
        vpblendw        xmm3, xmm12, xmm0, 238          # xmm3 = xmm12[0],xmm0[1,2,3],xmm12[4],xmm0[5,6,7]
        vpackusdw       xmm1, xmm3, xmm1
        vpblendw        xmm3, xmm11, xmm0, 238          # xmm3 = xmm11[0],xmm0[1,2,3],xmm11[4],xmm0[5,6,7]
        vpblendw        xmm4, xmm10, xmm0, 238          # xmm4 = xmm10[0],xmm0[1,2,3],xmm10[4],xmm0[5,6,7]
        vpackusdw       xmm3, xmm4, xmm3
        vpackusdw       xmm1, xmm3, xmm1
        vpblendw        xmm3, xmm2, xmm0, 238           # xmm3 = xmm2[0],xmm0[1,2,3],xmm2[4],xmm0[5,6,7]
        vpblendw        xmm4, xmm7, xmm0, 238           # xmm4 = xmm7[0],xmm0[1,2,3],xmm7[4],xmm0[5,6,7]
        vpackusdw       xmm3, xmm4, xmm3
        vpackusdw       xmm3, xmm3, xmm3
        vinserti128     ymm3, ymm0, xmm3, 1
        vpblendw        xmm4, xmm6, xmm0, 238           # xmm4 = xmm6[0],xmm0[1,2,3],xmm6[4],xmm0[5,6,7]
        vpblendw        xmm0, xmm5, xmm0, 238           # xmm0 = xmm5[0],xmm0[1,2,3],xmm5[4],xmm0[5,6,7]
        vpackusdw       xmm0, xmm0, xmm4
        vpackusdw       xmm0, xmm0, xmm0
        vinserti128     ymm0, ymm0, xmm0, 1
        vpblendd        ymm0, ymm0, ymm3, 192           # ymm0 = ymm0[0,1,2,3,4,5],ymm3[6,7]
        vpblendd        ymm0, ymm1, ymm0, 240           # ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
        vmovdqu ymmword ptr [rsp - 40], ymm0    # 32-byte Spill
        vpshufd xmm0, xmm2, 232                 # xmm0 = xmm2[0,2,2,3]
        vpshuflw        xmm0, xmm0, 212                 # xmm0 = xmm0[0,1,1,3,4,5,6,7]
        vpshufd xmm1, xmm7, 232                 # xmm1 = xmm7[0,2,2,3]
        vpshuflw        xmm1, xmm1, 212                 # xmm1 = xmm1[0,1,1,3,4,5,6,7]
        vpunpckldq      xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
        vinserti128     ymm0, ymm0, xmm0, 1
        vpshufd xmm1, xmm6, 232                 # xmm1 = xmm6[0,2,2,3]
        vpshuflw        xmm1, xmm1, 237                 # xmm1 = xmm1[1,3,2,3,4,5,6,7]
        vpshufd xmm3, xmm5, 232                 # xmm3 = xmm5[0,2,2,3]
        vpshuflw        xmm3, xmm3, 237                 # xmm3 = xmm3[1,3,2,3,4,5,6,7]
        vpunpckldq      xmm1, xmm3, xmm1        # xmm1 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
        vinserti128     ymm1, ymm0, xmm1, 1
        vpblendd        ymm0, ymm1, ymm0, 192           # ymm0 = ymm1[0,1,2,3,4,5],ymm0[6,7]
        vpshufd xmm1, xmm13, 232                # xmm1 = xmm13[0,2,2,3]
        vpshuflw        xmm1, xmm1, 212                 # xmm1 = xmm1[0,1,1,3,4,5,6,7]
        vpshufd xmm3, xmm12, 232                # xmm3 = xmm12[0,2,2,3]
        vpshuflw        xmm3, xmm3, 212                 # xmm3 = xmm3[0,1,1,3,4,5,6,7]
        vpunpckldq      xmm1, xmm3, xmm1        # xmm1 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
        vpshufd xmm3, xmm11, 232                # xmm3 = xmm11[0,2,2,3]
        vpshuflw        xmm3, xmm3, 237                 # xmm3 = xmm3[1,3,2,3,4,5,6,7]
        vpshufd xmm4, xmm10, 232                # xmm4 = xmm10[0,2,2,3]
        vpshuflw        xmm4, xmm4, 237                 # xmm4 = xmm4[1,3,2,3,4,5,6,7]
        vpunpckldq      xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
        vpblendd        xmm1, xmm3, xmm1, 12            # xmm1 = xmm3[0,1],xmm1[2,3]
        vpblendd        ymm9, ymm1, ymm0, 240           # ymm9 = ymm1[0,1,2,3],ymm0[4,5,6,7]
        vpshufd xmm15, xmm2, 231                # xmm15 = xmm2[3,1,2,3]
        vpshuflw        xmm1, xmm15, 36                 # xmm1 = xmm15[0,1,2,0,4,5,6,7]
        vpshufd xmm8, xmm7, 231                 # xmm8 = xmm7[3,1,2,3]
        vpshuflw        xmm3, xmm8, 36                  # xmm3 = xmm8[0,1,2,0,4,5,6,7]
        vpunpckldq      xmm1, xmm3, xmm1        # xmm1 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
        vinserti128     ymm1, ymm0, xmm1, 1
        vpshufd xmm3, xmm6, 231                 # xmm3 = xmm6[3,1,2,3]
        vpshuflw        xmm4, xmm3, 226                 # xmm4 = xmm3[2,0,2,3,4,5,6,7]
        vpshufd xmm5, xmm5, 231                 # xmm5 = xmm5[3,1,2,3]
        vpshuflw        xmm6, xmm5, 226                 # xmm6 = xmm5[2,0,2,3,4,5,6,7]
        vpunpckldq      xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0],xmm6[1],xmm4[1]
        vinserti128     ymm4, ymm0, xmm4, 1
        vpblendd        ymm14, ymm4, ymm1, 192          # ymm14 = ymm4[0,1,2,3,4,5],ymm1[6,7]
        vpshufd xmm13, xmm13, 231               # xmm13 = xmm13[3,1,2,3]
        vpshuflw        xmm6, xmm13, 36                 # xmm6 = xmm13[0,1,2,0,4,5,6,7]
        vpshufd xmm7, xmm12, 231                # xmm7 = xmm12[3,1,2,3]
        vpshuflw        xmm1, xmm7, 36                  # xmm1 = xmm7[0,1,2,0,4,5,6,7]
        vpunpckldq      xmm1, xmm1, xmm6        # xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1]
        vpshufd xmm6, xmm11, 231                # xmm6 = xmm11[3,1,2,3]
        vpshuflw        xmm0, xmm6, 226                 # xmm0 = xmm6[2,0,2,3,4,5,6,7]
        vpshufd xmm4, xmm10, 231                # xmm4 = xmm10[3,1,2,3]
        vpshuflw        xmm2, xmm4, 226                 # xmm2 = xmm4[2,0,2,3,4,5,6,7]
        vpunpckldq      xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
        vpblendd        xmm0, xmm0, xmm1, 12            # xmm0 = xmm0[0,1],xmm1[2,3]
        vpblendd        ymm0, ymm0, ymm14, 240          # ymm0 = ymm0[0,1,2,3],ymm14[4,5,6,7]
        vpshuflw        xmm1, xmm15, 116                # xmm1 = xmm15[0,1,3,1,4,5,6,7]
        vpshuflw        xmm2, xmm8, 116                 # xmm2 = xmm8[0,1,3,1,4,5,6,7]
        vpunpckldq      xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
        vinserti128     ymm1, ymm0, xmm1, 1
        vpshuflw        xmm2, xmm3, 231                 # xmm2 = xmm3[3,1,2,3,4,5,6,7]
        vpshuflw        xmm3, xmm5, 231                 # xmm3 = xmm5[3,1,2,3,4,5,6,7]
        vpunpckldq      xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
        vinserti128     ymm2, ymm0, xmm2, 1
        vpblendd        ymm1, ymm2, ymm1, 192           # ymm1 = ymm2[0,1,2,3,4,5],ymm1[6,7]
        vpshuflw        xmm2, xmm13, 116                # xmm2 = xmm13[0,1,3,1,4,5,6,7]
        vpshuflw        xmm3, xmm7, 116                 # xmm3 = xmm7[0,1,3,1,4,5,6,7]
        vpunpckldq      xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
        vpshuflw        xmm3, xmm6, 231                 # xmm3 = xmm6[3,1,2,3,4,5,6,7]
        vpshuflw        xmm4, xmm4, 231                 # xmm4 = xmm4[3,1,2,3,4,5,6,7]
        vpunpckldq      xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
        vpblendd        xmm2, xmm3, xmm2, 12            # xmm2 = xmm3[0,1],xmm2[2,3]
        vpblendd        ymm1, ymm2, ymm1, 240           # ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
        vmovups ymm2, ymmword ptr [rsp - 40]    # 32-byte Reload