Compiler Explorer

Source code

.text
        .intel_syntax noprefix
        .file   "example.ll"
        .globl  store_i64_stride3_vf16          # -- Begin function store_i64_stride3_vf16
        .p2align        4, 0x90
        .type   store_i64_stride3_vf16,@function
store_i64_stride3_vf16:                 # @store_i64_stride3_vf16
# %bb.0:
        vmovaps ymm0, ymmword ptr [rdi]
        vmovaps ymm4, ymmword ptr [rdi + 32]
        vmovaps ymm7, ymmword ptr [rdi + 64]
        vmovaps ymm3, ymmword ptr [rdi + 96]
        vmovaps ymm2, ymmword ptr [rdx]
        vmovaps ymm6, ymmword ptr [rdx + 96]
        vmovaps ymm8, ymmword ptr [rdx + 32]
        vmovaps ymm10, ymmword ptr [rdx + 64]
        vinsertf128     ymm1, ymm0, xmmword ptr [rdx], 1
        vmovddup        xmm5, qword ptr [rsi]           # xmm5 = mem[0,0]
        vpermpd ymm9, ymm0, 100                 # ymm9 = ymm0[0,1,2,1]
        vblendps        ymm5, ymm9, ymm5, 12            # ymm5 = ymm9[0,1],ymm5[2,3],ymm9[4,5,6,7]
        vblendps        ymm1, ymm5, ymm1, 48            # ymm1 = ymm5[0,1,2,3],ymm1[4,5],ymm5[6,7]
        vmovups ymmword ptr [rsp - 40], ymm1    # 32-byte Spill
        vinsertf128     ymm5, ymm0, xmmword ptr [rdx + 64], 1
        vmovddup        xmm9, qword ptr [rsi + 64]      # xmm9 = mem[0,0]
        vpermpd ymm11, ymm7, 100                # ymm11 = ymm7[0,1,2,1]
        vblendps        ymm9, ymm11, ymm9, 12           # ymm9 = ymm11[0,1],ymm9[2,3],ymm11[4,5,6,7]
        vblendps        ymm5, ymm9, ymm5, 48            # ymm5 = ymm9[0,1,2,3],ymm5[4,5],ymm9[6,7]
        vperm2f128      ymm9, ymm7, ymm10, 49   # ymm9 = ymm7[2,3],ymm10[2,3]
        vmovaps xmm11, xmmword ptr [rdx + 80]
        vblendps        ymm9, ymm11, ymm9, 204          # ymm9 = ymm11[0,1],ymm9[2,3],ymm11[4,5],ymm9[6,7]
        vbroadcastsd    ymm11, qword ptr [rsi + 88]
        vblendps        ymm9, ymm9, ymm11, 48           # ymm9 = ymm9[0,1,2,3],ymm11[4,5],ymm9[6,7]
        vinsertf128     ymm11, ymm0, xmmword ptr [rdx + 32], 1
        vmovddup        xmm12, qword ptr [rsi + 32]     # xmm12 = mem[0,0]
        vpermpd ymm13, ymm4, 100                # ymm13 = ymm4[0,1,2,1]
        vblendps        ymm12, ymm13, ymm12, 12         # ymm12 = ymm13[0,1],ymm12[2,3],ymm13[4,5,6,7]
        vblendps        ymm11, ymm12, ymm11, 48         # ymm11 = ymm12[0,1,2,3],ymm11[4,5],ymm12[6,7]
        vperm2f128      ymm12, ymm4, ymm8, 49   # ymm12 = ymm4[2,3],ymm8[2,3]
        vmovaps xmm13, xmmword ptr [rdx + 48]
        vblendps        ymm12, ymm13, ymm12, 204        # ymm12 = ymm13[0,1],ymm12[2,3],ymm13[4,5],ymm12[6,7]
        vbroadcastsd    ymm13, qword ptr [rsi + 56]
        vblendps        ymm12, ymm12, ymm13, 48         # ymm12 = ymm12[0,1,2,3],ymm13[4,5],ymm12[6,7]
        vinsertf128     ymm13, ymm0, xmmword ptr [rdx + 96], 1
        vmovddup        xmm14, qword ptr [rsi + 96]     # xmm14 = mem[0,0]
        vpermpd ymm15, ymm3, 100                # ymm15 = ymm3[0,1,2,1]
        vblendps        ymm14, ymm15, ymm14, 12         # ymm14 = ymm15[0,1],ymm14[2,3],ymm15[4,5,6,7]
        vblendps        ymm13, ymm14, ymm13, 48         # ymm13 = ymm14[0,1,2,3],ymm13[4,5],ymm14[6,7]
        vperm2f128      ymm14, ymm3, ymm6, 49   # ymm14 = ymm3[2,3],ymm6[2,3]
        vmovaps xmm15, xmmword ptr [rdx + 112]
        vblendps        ymm14, ymm15, ymm14, 204        # ymm14 = ymm15[0,1],ymm14[2,3],ymm15[4,5],ymm14[6,7]
        vbroadcastsd    ymm15, qword ptr [rsi + 120]
        vblendps        ymm14, ymm14, ymm15, 48         # ymm14 = ymm14[0,1,2,3],ymm15[4,5],ymm14[6,7]
        vperm2f128      ymm15, ymm0, ymm2, 49   # ymm15 = ymm0[2,3],ymm2[2,3]
        vmovaps xmm1, xmmword ptr [rdx + 16]
        vblendps        ymm1, ymm1, ymm15, 204          # ymm1 = ymm1[0,1],ymm15[2,3],ymm1[4,5],ymm15[6,7]
        vbroadcastsd    ymm15, qword ptr [rsi + 24]
        vblendps        ymm1, ymm1, ymm15, 48           # ymm1 = ymm1[0,1,2,3],ymm15[4,5],ymm1[6,7]
        vpermilps       ymm15, ymmword ptr [rsi + 64], 78 # ymm15 = mem[2,3,0,1,6,7,4,5]
        vblendps        ymm10, ymm15, ymm10, 12         # ymm10 = ymm15[0,1],ymm10[2,3],ymm15[4,5,6,7]
        vblendps        ymm7, ymm10, ymm7, 48           # ymm7 = ymm10[0,1,2,3],ymm7[4,5],ymm10[6,7]
        vpermilps       ymm10, ymmword ptr [rsi + 32], 78 # ymm10 = mem[2,3,0,1,6,7,4,5]
        vblendps        ymm8, ymm10, ymm8, 12           # ymm8 = ymm10[0,1],ymm8[2,3],ymm10[4,5,6,7]
        vblendps        ymm4, ymm8, ymm4, 48            # ymm4 = ymm8[0,1,2,3],ymm4[4,5],ymm8[6,7]
        vpermilps       ymm8, ymmword ptr [rsi + 96], 78 # ymm8 = mem[2,3,0,1,6,7,4,5]
        vblendps        ymm6, ymm8, ymm6, 12            # ymm6 = ymm8[0,1],ymm6[2,3],ymm8[4,5,6,7]
        vblendps        ymm3, ymm6, ymm3, 48            # ymm3 = ymm6[0,1,2,3],ymm3[4,5],ymm6[6,7]
        vpermilps       ymm6, ymmword ptr [rsi], 78 # ymm6 = mem[2,3,0,1,6,7,4,5]
        vblendps        ymm2, ymm6, ymm2, 12            # ymm2 = ymm6[0,1],ymm2[2,3],ymm6[4,5,6,7]
        vblendps        ymm0, ymm2, ymm0, 48            # ymm0 = ymm2[0,1,2,3],ymm0[4,5],ymm2[6,7]