AVX-512: Added some comments to ERI scalar intrinsics.

[oota-llvm.git] / lib / Target / X86 / X86InstrAVX512.td
diff --git a/lib/Target/X86/X86InstrAVX512.td b/lib/Target/X86/X86InstrAVX512.td

index 01e9ce7078ff1e7ec83239e1c32e848d14f19edf..d378bd736a5a4cb398d02b389468862200d0ce78 100644 (file)
--- a/lib/Target/X86/X86InstrAVX512.td
+++ b/lib/Target/X86/X86InstrAVX512.td
@@ -2,6 +2,7 @@
  // EltVT).  These are things like the register class for the writemask, etc.
  // The idea is to pass one of these as the template argument rather than the
  // individual arguments.
+// The template is also used for scalar types, in this case numelts is 1.
  class X86VectorVTInfo<int numelts, ValueType EltVT, RegisterClass rc,
                        string suffix = ""> {
    RegisterClass RC = rc;
@@ -23,11 +24,13 @@ class X86VectorVTInfo<int numelts, ValueType EltVT, RegisterClass rc,
    // Suffix used in the instruction mnemonic.
    string Suffix = suffix;
  
-  int NumEltsInVT = !if (!eq (NumElts, 1),
-                         !if (!eq (EltVT.Size, 32), 4,
-                         !if (!eq (EltVT.Size, 64), 2, NumElts)), NumElts);
-                         
-  string VTName = "v" # NumEltsInVT # EltVT;
+  // VTName is a string name for vector VT. For vector types it will be
+  // v # NumElts # EltVT, so for vector of 8 elements of i32 it will be v8i32
+  // It is a little bit complex for scalar types, where NumElts = 1.
+  // In this case we build v4f32 or v2f64
+  string VTName = "v" # !if (!eq (NumElts, 1),
+                        !if (!eq (EltVT.Size, 32), 4,
+                        !if (!eq (EltVT.Size, 64), 2, NumElts)), NumElts) # EltVT;
  
    // The vector VT.
    ValueType VT = !cast<ValueType>(VTName);
@@ -120,7 +123,8 @@ def v2i64x_info  : X86VectorVTInfo<2,  i64, VR128X, "q">;
  def v4f32x_info  : X86VectorVTInfo<4,  f32, VR128X, "ps">;
  def v2f64x_info  : X86VectorVTInfo<2,  f64, VR128X, "pd">;
  
-// the scalar staff
+// We map scalar types to the smallest (128-bit) vector type
+// with the appropriate element type. This allows to use the same masking logic.
  def f32x_info    : X86VectorVTInfo<1,  f32, VR128X, "ss">;
  def f64x_info    : X86VectorVTInfo<1,  f64, VR128X, "sd">;
  
@@ -662,9 +666,9 @@ multiclass avx512_int_broadcast_reg<bits<8> opc, string OpcodeStr,
    def Zrr : AVX5128I<opc, MRMSrcReg, (outs VR512:$dst), (ins SrcRC:$src),
                     !strconcat(OpcodeStr, "\t{$src, $dst|$dst, $src}"),
                     []>, EVEX, EVEX_V512;
-  def Zkrr : AVX5128I<opc, MRMSrcReg, (outs VR512:$dst), 
+  def Zkrr : AVX5128I<opc, MRMSrcReg, (outs VR512:$dst),
                     (ins KRC:$mask, SrcRC:$src),
-                   !strconcat(OpcodeStr, 
+                   !strconcat(OpcodeStr,
                          "\t{$src, $dst {${mask}} {z}|$dst {${mask}} {z}, $src}"),
                     []>, EVEX, EVEX_V512, EVEX_KZ;
  }
@@ -672,7 +676,7 @@ multiclass avx512_int_broadcast_reg<bits<8> opc, string OpcodeStr,
  defm VPBROADCASTDr  : avx512_int_broadcast_reg<0x7C, "vpbroadcastd", GR32, VK16WM>;
  defm VPBROADCASTQr  : avx512_int_broadcast_reg<0x7C, "vpbroadcastq", GR64, VK8WM>,
                                              VEX_W;
-                                            
+
  def : Pat <(v16i32 (X86vzext VK16WM:$mask)),
             (VPBROADCASTDrZkrr VK16WM:$mask, (i32 (MOV32ri 0x1)))>;
  
@@ -710,7 +714,7 @@ multiclass avx512_int_broadcast_rm<bits<8> opc, string OpcodeStr,
                      (OpVT (X86VBroadcast (SrcVT VR128X:$src))))]>, EVEX;
    def krr : AVX5128I<opc, MRMSrcReg, (outs DstRC:$dst), (ins KRC:$mask,
                                                           VR128X:$src),
-                    !strconcat(OpcodeStr, 
+                    !strconcat(OpcodeStr,
                      "\t{$src, ${dst} {${mask}} {z}|${dst} {${mask}} {z}, $src}"),
                      [(set DstRC:$dst,
                        (OpVT (X86VBroadcastm KRC:$mask, (SrcVT VR128X:$src))))]>,
@@ -718,13 +722,13 @@ multiclass avx512_int_broadcast_rm<bits<8> opc, string OpcodeStr,
    let mayLoad = 1 in {
    def rm : AVX5128I<opc, MRMSrcMem, (outs DstRC:$dst), (ins x86memop:$src),
                    !strconcat(OpcodeStr, "\t{$src, $dst|$dst, $src}"),
-                  [(set DstRC:$dst, 
+                  [(set DstRC:$dst,
                      (OpVT (X86VBroadcast (ld_frag addr:$src))))]>, EVEX;
    def krm : AVX5128I<opc, MRMSrcMem, (outs DstRC:$dst), (ins KRC:$mask,
                                                           x86memop:$src),
-                  !strconcat(OpcodeStr, 
+                  !strconcat(OpcodeStr,
                        "\t{$src, ${dst} {${mask}} {z}|${dst} {${mask}} {z}, $src}"),
-                  [(set DstRC:$dst, (OpVT (X86VBroadcastm KRC:$mask, 
+                  [(set DstRC:$dst, (OpVT (X86VBroadcastm KRC:$mask,
                                       (ld_frag addr:$src))))]>, EVEX, EVEX_KZ;
    }
  }
@@ -777,7 +781,7 @@ def : Pat<(v16f32 (int_x86_avx512_vbroadcast_ss_ps_512 (v4f32 VR128X:$src))),
            (VBROADCASTSSZr VR128X:$src)>;
  def : Pat<(v8f64 (int_x86_avx512_vbroadcast_sd_pd_512 (v2f64 VR128X:$src))),
            (VBROADCASTSDZr VR128X:$src)>;
-    
+
  // Provide fallback in case the load node that is used in the patterns above
  // is used by additional users, which prevents the pattern selection.
  def : Pat<(v16f32 (X86VBroadcast FR32X:$src)),
@@ -788,7 +792,7 @@ def : Pat<(v8f64 (X86VBroadcast FR64X:$src)),
  
  let Predicates = [HasAVX512] in {
  def : Pat<(v8i32 (X86VBroadcastm (v8i1 VK8WM:$mask), (loadi32 addr:$src))),
-           (EXTRACT_SUBREG 
+           (EXTRACT_SUBREG
                (v16i32 (VPBROADCASTDZkrm (COPY_TO_REGCLASS VK8WM:$mask, VK16WM),
                         addr:$src)), sub_ymm)>;
  }
@@ -802,7 +806,7 @@ let Predicates = [HasCDI] in
  def Zrr : AVX512XS8I<opc, MRMSrcReg, (outs VR512:$dst), (ins KRC:$src),
                    !strconcat(OpcodeStr, "\t{$src, $dst|$dst, $src}"),
                    []>, EVEX, EVEX_V512;
-                  
+
  let Predicates = [HasCDI, HasVLX] in {
  def Z128rr : AVX512XS8I<opc, MRMSrcReg, (outs VR128:$dst), (ins KRC:$src),
                    !strconcat(OpcodeStr, "\t{$src, $dst|$dst, $src}"),
@@ -884,7 +888,7 @@ def : Pat<(v8i64 (X86VPermilpi VR512:$src1, (i8 imm:$imm))),
            (VPERMILPDZri VR512:$src1, imm:$imm)>;
  
  // -- VPERM - register form --
-multiclass avx512_perm<bits<8> opc, string OpcodeStr, RegisterClass RC, 
+multiclass avx512_perm<bits<8> opc, string OpcodeStr, RegisterClass RC,
                       PatFrag mem_frag, X86MemOperand x86memop, ValueType OpVT> {
  
    def rr : AVX5128I<opc, MRMSrcReg, (outs RC:$dst),
@@ -905,13 +909,13 @@ multiclass avx512_perm<bits<8> opc, string OpcodeStr, RegisterClass RC,
  
  defm VPERMDZ   : avx512_perm<0x36, "vpermd",  VR512,  memopv16i32, i512mem,
                             v16i32>, EVEX_V512, EVEX_CD8<32, CD8VF>;
-defm VPERMQZ   : avx512_perm<0x36, "vpermq",  VR512,  memopv8i64,  i512mem, 
+defm VPERMQZ   : avx512_perm<0x36, "vpermq",  VR512,  memopv8i64,  i512mem,
                             v8i64>,  EVEX_V512, VEX_W, EVEX_CD8<64, CD8VF>;
  let ExeDomain = SSEPackedSingle in
  defm VPERMPSZ  : avx512_perm<0x16, "vpermps", VR512,  memopv16f32, f512mem,
                             v16f32>, EVEX_V512, EVEX_CD8<32, CD8VF>;
  let ExeDomain = SSEPackedDouble in
-defm VPERMPDZ  : avx512_perm<0x16, "vpermpd", VR512,  memopv8f64, f512mem, 
+defm VPERMPDZ  : avx512_perm<0x16, "vpermpd", VR512,  memopv8f64, f512mem,
                             v8f64>, EVEX_V512, VEX_W, EVEX_CD8<64, CD8VF>;
  
  // -- VPERM2I - 3 source operands form --
@@ -1050,14 +1054,14 @@ multiclass avx512_blendmask<bits<8> opc, string OpcodeStr,
  }
  
  let ExeDomain = SSEPackedSingle in
-defm VBLENDMPSZ : avx512_blendmask<0x65, "vblendmps", 
+defm VBLENDMPSZ : avx512_blendmask<0x65, "vblendmps",
                                VK16WM, VR512, f512mem,
-                              memopv16f32, vselect, v16f32>, 
+                              memopv16f32, vselect, v16f32>,
                                EVEX_CD8<32, CD8VF>, EVEX_V512;
  let ExeDomain = SSEPackedDouble in
-defm VBLENDMPDZ : avx512_blendmask<0x65, "vblendmpd", 
+defm VBLENDMPDZ : avx512_blendmask<0x65, "vblendmpd",
                                VK8WM, VR512, f512mem,
-                              memopv8f64, vselect, v8f64>, 
+                              memopv8f64, vselect, v8f64>,
                                VEX_W, EVEX_CD8<64, CD8VF>, EVEX_V512;
  
  def : Pat<(v16f32 (int_x86_avx512_mask_blend_ps_512 (v16f32 VR512:$src1),
@@ -1070,14 +1074,14 @@ def : Pat<(v8f64 (int_x86_avx512_mask_blend_pd_512 (v8f64 VR512:$src1),
          (VBLENDMPDZrr (COPY_TO_REGCLASS GR8:$mask, VK8WM),
           VR512:$src1, VR512:$src2)>;
  
-defm VPBLENDMDZ : avx512_blendmask<0x64, "vpblendmd", 
-                              VK16WM, VR512, f512mem, 
-                              memopv16i32, vselect, v16i32>, 
+defm VPBLENDMDZ : avx512_blendmask<0x64, "vpblendmd",
+                              VK16WM, VR512, f512mem,
+                              memopv16i32, vselect, v16i32>,
                                EVEX_CD8<32, CD8VF>, EVEX_V512;
  
-defm VPBLENDMQZ : avx512_blendmask<0x64, "vpblendmq", 
-                              VK8WM, VR512, f512mem, 
-                              memopv8i64, vselect, v8i64>, 
+defm VPBLENDMQZ : avx512_blendmask<0x64, "vpblendmq",
+                              VK8WM, VR512, f512mem,
+                              memopv8i64, vselect, v8i64>,
                                VEX_W, EVEX_CD8<64, CD8VF>, EVEX_V512;
  
  def : Pat<(v16i32 (int_x86_avx512_mask_blend_d_512 (v16i32 VR512:$src1),
@@ -1093,15 +1097,15 @@ def : Pat<(v8i64 (int_x86_avx512_mask_blend_q_512 (v8i64 VR512:$src1),
  let Predicates = [HasAVX512] in {
  def : Pat<(v8f32 (vselect (v8i1 VK8WM:$mask), (v8f32 VR256X:$src1),
                              (v8f32 VR256X:$src2))),
-            (EXTRACT_SUBREG 
-              (v16f32 (VBLENDMPSZrr (COPY_TO_REGCLASS VK8WM:$mask, VK16WM), 
+            (EXTRACT_SUBREG
+              (v16f32 (VBLENDMPSZrr (COPY_TO_REGCLASS VK8WM:$mask, VK16WM),
              (v16f32 (SUBREG_TO_REG (i32 0), VR256X:$src2, sub_ymm)),
              (v16f32 (SUBREG_TO_REG (i32 0), VR256X:$src1, sub_ymm)))), sub_ymm)>;
  
  def : Pat<(v8i32 (vselect (v8i1 VK8WM:$mask), (v8i32 VR256X:$src1),
                              (v8i32 VR256X:$src2))),
-            (EXTRACT_SUBREG 
-                (v16i32 (VPBLENDMDZrr (COPY_TO_REGCLASS VK8WM:$mask, VK16WM), 
+            (EXTRACT_SUBREG
+                (v16i32 (VPBLENDMDZrr (COPY_TO_REGCLASS VK8WM:$mask, VK16WM),
              (v16i32 (SUBREG_TO_REG (i32 0), VR256X:$src2, sub_ymm)),
              (v16i32 (SUBREG_TO_REG (i32 0), VR256X:$src1, sub_ymm)))), sub_ymm)>;
  }
@@ -1494,7 +1498,7 @@ def : Pat<(i16 (int_x86_avx512_mask_cmp_ps_512 (v16f32 VR512:$src1),
                   FROUND_NO_EXC)),
            (COPY_TO_REGCLASS (VCMPPSZrrib VR512:$src1, VR512:$src2,
                               (I8Imm imm:$cc)), GR16)>;
-           
+
  def : Pat<(i8 (int_x86_avx512_mask_cmp_pd_512 (v8f64 VR512:$src1),
                  (v8f64 VR512:$src2), imm:$cc, (i8 -1),
                   FROUND_NO_EXC)),
@@ -2122,6 +2126,41 @@ def: Pat<(int_x86_avx512_mask_storeu_pd_512 addr:$ptr, (v8f64 VR512:$src),
           (VMOVUPDZmrk addr:$ptr, (v8i1 (COPY_TO_REGCLASS GR8:$mask, VK8WM)),
              VR512:$src)>;
  
+def: Pat<(masked_store addr:$ptr, VK8WM:$mask, (v8f32 VR256:$src)),
+         (VMOVUPSZmrk addr:$ptr,
+         (v16i1 (COPY_TO_REGCLASS VK8WM:$mask, VK16WM)),
+         (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)), VR256:$src, sub_ymm))>;
+
+def: Pat<(v8f32 (masked_load addr:$ptr, VK8WM:$mask, undef)),
+         (v8f32 (EXTRACT_SUBREG (v16f32 (VMOVUPSZrmkz 
+          (v16i1 (COPY_TO_REGCLASS VK8WM:$mask, VK16WM)), addr:$ptr)), sub_ymm))>;
+
+def: Pat<(masked_store addr:$ptr, VK16WM:$mask, (v16f32 VR512:$src)),
+         (VMOVUPSZmrk addr:$ptr, VK16WM:$mask, VR512:$src)>;
+
+def: Pat<(masked_store addr:$ptr, VK8WM:$mask, (v8f64 VR512:$src)),
+         (VMOVUPDZmrk addr:$ptr, VK8WM:$mask, VR512:$src)>;
+
+def: Pat<(v16f32 (masked_load addr:$ptr, VK16WM:$mask, undef)),
+         (VMOVUPSZrmkz VK16WM:$mask, addr:$ptr)>;
+
+def: Pat<(v16f32 (masked_load addr:$ptr, VK16WM:$mask,
+                              (bc_v16f32 (v16i32 immAllZerosV)))),
+         (VMOVUPSZrmkz VK16WM:$mask, addr:$ptr)>;
+
+def: Pat<(v16f32 (masked_load addr:$ptr, VK16WM:$mask, (v16f32 VR512:$src0))),
+         (VMOVUPSZrmk VR512:$src0, VK16WM:$mask, addr:$ptr)>;
+
+def: Pat<(v8f64 (masked_load addr:$ptr, VK8WM:$mask, undef)),
+         (VMOVUPDZrmkz VK8WM:$mask, addr:$ptr)>;
+
+def: Pat<(v8f64 (masked_load addr:$ptr, VK8WM:$mask,
+                             (bc_v8f64 (v16i32 immAllZerosV)))),
+         (VMOVUPDZrmkz VK8WM:$mask, addr:$ptr)>;
+
+def: Pat<(v8f64 (masked_load addr:$ptr, VK8WM:$mask, (v8f64 VR512:$src0))),
+         (VMOVUPDZrmk VR512:$src0, VK8WM:$mask, addr:$ptr)>;
+
  defm VMOVDQA32 : avx512_load_vl<0x6F, "vmovdqa32", "alignedload", "i", "32",
                                  "16", "8", "4", SSEPackedInt, HasAVX512>,
                   avx512_store_vl<0x7F, "vmovdqa32", "alignedstore",
@@ -2196,6 +2235,46 @@ def : Pat<(v16i32 (vselect VK16WM:$mask, (v16i32 immAllZerosV),
                    (VMOVDQU32Zrrkz (KNOTWrr VK16WM:$mask), VR512:$src)>;
  }
  
+def: Pat<(v16i32 (masked_load addr:$ptr, VK16WM:$mask, (v16i32 immAllZerosV))),
+         (VMOVDQU32Zrmkz VK16WM:$mask, addr:$ptr)>;
+
+def: Pat<(v16i32 (masked_load addr:$ptr, VK16WM:$mask, undef)),
+         (VMOVDQU32Zrmkz VK16WM:$mask, addr:$ptr)>;
+
+def: Pat<(v16i32 (masked_load addr:$ptr, VK16WM:$mask, (v16i32 VR512:$src0))),
+         (VMOVDQU32Zrmk VR512:$src0, VK16WM:$mask, addr:$ptr)>;
+
+def: Pat<(v8i64 (masked_load addr:$ptr, VK8WM:$mask,
+                             (bc_v8i64 (v16i32 immAllZerosV)))),
+         (VMOVDQU64Zrmkz VK8WM:$mask, addr:$ptr)>;
+
+def: Pat<(v8i64 (masked_load addr:$ptr, VK8WM:$mask, undef)),
+         (VMOVDQU64Zrmkz VK8WM:$mask, addr:$ptr)>;
+
+def: Pat<(v8i64 (masked_load addr:$ptr, VK8WM:$mask, (v8i64 VR512:$src0))),
+         (VMOVDQU64Zrmk VR512:$src0, VK8WM:$mask, addr:$ptr)>;
+
+def: Pat<(masked_store addr:$ptr, VK16WM:$mask, (v16i32 VR512:$src)),
+         (VMOVDQU32Zmrk addr:$ptr, VK16WM:$mask, VR512:$src)>;
+
+def: Pat<(masked_store addr:$ptr, VK8WM:$mask, (v8i64 VR512:$src)),
+         (VMOVDQU64Zmrk addr:$ptr, VK8WM:$mask, VR512:$src)>;
+
+// SKX replacement
+def: Pat<(masked_store addr:$ptr, VK8WM:$mask, (v8i32 VR256:$src)),
+         (VMOVDQU32Z256mrk addr:$ptr, VK8WM:$mask, VR256:$src)>;
+
+// KNL replacement
+def: Pat<(masked_store addr:$ptr, VK8WM:$mask, (v8i32 VR256:$src)),
+         (VMOVDQU32Zmrk addr:$ptr,
+         (v16i1 (COPY_TO_REGCLASS VK8WM:$mask, VK16WM)),
+         (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)), VR256:$src, sub_ymm))>;
+
+def: Pat<(v8i32 (masked_load addr:$ptr, VK8WM:$mask, undef)),
+         (v8i32 (EXTRACT_SUBREG (v16i32 (VMOVDQU32Zrmkz 
+          (v16i1 (COPY_TO_REGCLASS VK8WM:$mask, VK16WM)), addr:$ptr)), sub_ymm))>;
+
+
  // Move Int Doubleword to Packed Double Int
  //
  def VMOVDI2PDIZrr : AVX512BI<0x6E, MRMSrcReg, (outs VR128X:$dst), (ins GR32:$src),
@@ -2302,11 +2381,11 @@ def VMOVQI2PQIZrm : AVX512BI<0x6E, MRMSrcMem, (outs VR128X:$dst),
  // AVX-512  MOVSS, MOVSD
  //===----------------------------------------------------------------------===//
  
-multiclass avx512_move_scalar <string asm, RegisterClass RC, 
+multiclass avx512_move_scalar <string asm, RegisterClass RC,
                                SDNode OpNode, ValueType vt,
                                X86MemOperand x86memop, PatFrag mem_pat> {
    let hasSideEffects = 0 in {
-  def rr : SI<0x10, MRMSrcReg, (outs VR128X:$dst), (ins VR128X:$src1, RC:$src2), 
+  def rr : SI<0x10, MRMSrcReg, (outs VR128X:$dst), (ins VR128X:$src1, RC:$src2),
                !strconcat(asm, "\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
                [(set VR128X:$dst, (vt (OpNode VR128X:$src1,
                                        (scalar_to_vector RC:$src2))))],
@@ -2384,7 +2463,7 @@ let Predicates = [HasAVX512] in {
    // Move low f32 and clear high bits.
    def : Pat<(v8f32 (X86vzmovl (v8f32 VR256X:$src))),
              (SUBREG_TO_REG (i32 0),
-             (VMOVSSZrr (v4f32 (V_SET0)), 
+             (VMOVSSZrr (v4f32 (V_SET0)),
                (EXTRACT_SUBREG (v8f32 VR256X:$src), sub_xmm)), sub_xmm)>;
    def : Pat<(v8i32 (X86vzmovl (v8i32 VR256X:$src))),
              (SUBREG_TO_REG (i32 0),
@@ -2513,7 +2592,7 @@ let AddedComplexity = 15 in
  def VMOVZPQILo2PQIZrr : AVX512XSI<0x7E, MRMSrcReg, (outs VR128X:$dst),
                                  (ins VR128X:$src),
                                  "vmovq\t{$src, $dst|$dst, $src}",
-                                [(set VR128X:$dst, (v2i64 (X86vzmovl 
+                                [(set VR128X:$dst, (v2i64 (X86vzmovl
                                                     (v2i64 VR128X:$src))))],
                                  IIC_SSE_MOVQ_RR>, EVEX, VEX_W;
  
@@ -2535,7 +2614,7 @@ let Predicates = [HasAVX512] in {
                (VMOV64toPQIZrr GR64:$src)>;
      def : Pat<(v4i32 (X86vzmovl (v4i32 (scalar_to_vector GR32:$src)))),
                (VMOVDI2PDIZrr GR32:$src)>;
-              
+
      def : Pat<(v4i32 (X86vzmovl (bc_v4i32 (loadv4f32 addr:$src)))),
                (VMOVDI2PDIZrm addr:$src)>;
      def : Pat<(v4i32 (X86vzmovl (bc_v4i32 (loadv2i64 addr:$src)))),
@@ -2946,7 +3025,7 @@ multiclass avx512_unpack_int<bits<8> opc, string OpcodeStr, SDNode OpNode,
    def rr : AVX512BI<opc, MRMSrcReg, (outs RC:$dst),
         (ins RC:$src1, RC:$src2),
         !strconcat(OpcodeStr, "\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-       [(set RC:$dst, (OpVT (OpNode (OpVT RC:$src1), (OpVT RC:$src2))))], 
+       [(set RC:$dst, (OpVT (OpNode (OpVT RC:$src1), (OpVT RC:$src2))))],
         IIC_SSE_UNPCK>, EVEX_4V;
    def rm : AVX512BI<opc, MRMSrcMem, (outs RC:$dst),
         (ins RC:$src1, x86memop:$src2),
@@ -2972,7 +3051,7 @@ defm VPUNPCKHQDQZ : avx512_unpack_int<0x6D, "vpunpckhqdq", X86Unpckh, v8i64,
  //
  
  multiclass avx512_pshuf_imm<bits<8> opc, string OpcodeStr, RegisterClass RC,
-                         SDNode OpNode, PatFrag mem_frag, 
+                         SDNode OpNode, PatFrag mem_frag,
                           X86MemOperand x86memop, ValueType OpVT> {
    def ri : AVX512Ii8<opc, MRMSrcReg, (outs RC:$dst),
                       (ins RC:$src1, i8imm:$src2),
@@ -3108,18 +3187,18 @@ def : Pat<(v8f64 (int_x86_avx512_mask_min_pd_512 (v8f64 VR512:$src1),
  // AVX-512  VPTESTM instructions
  //===----------------------------------------------------------------------===//
  
-multiclass avx512_vptest<bits<8> opc, string OpcodeStr, RegisterClass KRC, 
-              RegisterClass RC, X86MemOperand x86memop, PatFrag memop_frag, 
+multiclass avx512_vptest<bits<8> opc, string OpcodeStr, RegisterClass KRC,
+              RegisterClass RC, X86MemOperand x86memop, PatFrag memop_frag,
                SDNode OpNode, ValueType vt> {
    def rr : AVX512PI<opc, MRMSrcReg,
-             (outs KRC:$dst), (ins RC:$src1, RC:$src2), 
+             (outs KRC:$dst), (ins RC:$src1, RC:$src2),
               !strconcat(OpcodeStr, "\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
               [(set KRC:$dst, (OpNode (vt RC:$src1), (vt RC:$src2)))],
               SSEPackedInt>, EVEX_4V;
    def rm : AVX512PI<opc, MRMSrcMem,
-             (outs KRC:$dst), (ins RC:$src1, x86memop:$src2), 
+             (outs KRC:$dst), (ins RC:$src1, x86memop:$src2),
               !strconcat(OpcodeStr, "\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-             [(set KRC:$dst, (OpNode (vt RC:$src1), 
+             [(set KRC:$dst, (OpNode (vt RC:$src1),
                (bitconvert (memop_frag addr:$src2))))], SSEPackedInt>, EVEX_4V;
  }
  
@@ -3151,7 +3230,7 @@ def : Pat <(i8 (int_x86_avx512_mask_ptestm_q_512 (v8i64 VR512:$src1),
  // AVX-512  Shift instructions
  //===----------------------------------------------------------------------===//
  multiclass avx512_shift_rmi<bits<8> opc, Format ImmFormR, Format ImmFormM,
-                         string OpcodeStr, SDNode OpNode, X86VectorVTInfo _> { 
+                         string OpcodeStr, SDNode OpNode, X86VectorVTInfo _> {
    defm ri : AVX512_maskable<opc, ImmFormR, _, (outs _.RC:$dst),
                     (ins _.RC:$src1, i8imm:$src2), OpcodeStr,
                        "$src2, $src1", "$src1, $src2",
@@ -3184,11 +3263,11 @@ multiclass avx512_varshift_sizes<bits<8> opc, string OpcodeStr, SDNode OpNode,
    defm Z : avx512_shift_rrm<opc, OpcodeStr, OpNode, SrcVT, bc_frag, _>, EVEX_V512;
  }
  
-multiclass avx512_varshift_types<bits<8> opcd, bits<8> opcq, string OpcodeStr, 
+multiclass avx512_varshift_types<bits<8> opcd, bits<8> opcq, string OpcodeStr,
                                   SDNode OpNode> {
-  defm D : avx512_varshift_sizes<opcd, OpcodeStr#"d", OpNode, v4i32, bc_v4i32, 
-                                 v16i32_info>, EVEX_CD8<32, CD8VQ>; 
-  defm Q : avx512_varshift_sizes<opcq, OpcodeStr#"q", OpNode, v2i64, bc_v2i64, 
+  defm D : avx512_varshift_sizes<opcd, OpcodeStr#"d", OpNode, v4i32, bc_v4i32,
+                                 v16i32_info>, EVEX_CD8<32, CD8VQ>;
+  defm Q : avx512_varshift_sizes<opcq, OpcodeStr#"q", OpNode, v2i64, bc_v2i64,
                                   v8i64_info>, EVEX_CD8<64, CD8VQ>, VEX_W;
  }
  
@@ -3237,22 +3316,22 @@ multiclass avx512_var_shift<bits<8> opc, string OpcodeStr, SDNode OpNode,
               EVEX_4V;
  }
  
-defm VPSLLVDZ : avx512_var_shift<0x47, "vpsllvd", shl, VR512, v16i32, 
+defm VPSLLVDZ : avx512_var_shift<0x47, "vpsllvd", shl, VR512, v16i32,
                                 i512mem, memopv16i32>, EVEX_V512,
                                 EVEX_CD8<32, CD8VF>;
-defm VPSLLVQZ : avx512_var_shift<0x47, "vpsllvq", shl, VR512, v8i64, 
+defm VPSLLVQZ : avx512_var_shift<0x47, "vpsllvq", shl, VR512, v8i64,
                                 i512mem, memopv8i64>, EVEX_V512, VEX_W,
                                 EVEX_CD8<64, CD8VF>;
-defm VPSRLVDZ : avx512_var_shift<0x45, "vpsrlvd", srl, VR512, v16i32, 
+defm VPSRLVDZ : avx512_var_shift<0x45, "vpsrlvd", srl, VR512, v16i32,
                                 i512mem, memopv16i32>, EVEX_V512,
                                 EVEX_CD8<32, CD8VF>;
-defm VPSRLVQZ : avx512_var_shift<0x45, "vpsrlvq", srl, VR512, v8i64, 
+defm VPSRLVQZ : avx512_var_shift<0x45, "vpsrlvq", srl, VR512, v8i64,
                                 i512mem, memopv8i64>, EVEX_V512, VEX_W,
                                 EVEX_CD8<64, CD8VF>;
-defm VPSRAVDZ : avx512_var_shift<0x46, "vpsravd", sra, VR512, v16i32, 
+defm VPSRAVDZ : avx512_var_shift<0x46, "vpsravd", sra, VR512, v16i32,
                                 i512mem, memopv16i32>, EVEX_V512,
                                 EVEX_CD8<32, CD8VF>;
-defm VPSRAVQZ : avx512_var_shift<0x46, "vpsravq", sra, VR512, v8i64, 
+defm VPSRAVQZ : avx512_var_shift<0x46, "vpsravq", sra, VR512, v8i64,
                                 i512mem, memopv8i64>, EVEX_V512, VEX_W,
                                 EVEX_CD8<64, CD8VF>;
  
@@ -3260,7 +3339,7 @@ defm VPSRAVQZ : avx512_var_shift<0x46, "vpsravq", sra, VR512, v8i64,
  // AVX-512 - MOVDDUP
  //===----------------------------------------------------------------------===//
  
-multiclass avx512_movddup<string OpcodeStr, RegisterClass RC, ValueType VT, 
+multiclass avx512_movddup<string OpcodeStr, RegisterClass RC, ValueType VT,
                          X86MemOperand x86memop, PatFrag memop_frag> {
  def rr  : AVX512PDI<0x12, MRMSrcReg, (outs RC:$dst), (ins RC:$src),
                      !strconcat(OpcodeStr, "\t{$src, $dst|$dst, $src}"),
@@ -3465,9 +3544,9 @@ let ExeDomain = SSEPackedDouble in {
  
  // Scalar FMA
  let Constraints = "$src1 = $dst" in {
-multiclass avx512_fma3s_rm<bits<8> opc, string OpcodeStr, SDNode OpNode, 
-                 RegisterClass RC, ValueType OpVT, 
-                 X86MemOperand x86memop, Operand memop, 
+multiclass avx512_fma3s_rm<bits<8> opc, string OpcodeStr, SDNode OpNode,
+                 RegisterClass RC, ValueType OpVT,
+                 X86MemOperand x86memop, Operand memop,
                   PatFrag mem_frag> {
    let isCommutable = 1 in
    def r     : AVX512FMA3<opc, MRMSrcReg, (outs RC:$dst),
@@ -3765,8 +3844,8 @@ def : Pat<(extloadf32 addr:$src),
  def : Pat<(f32 (fround FR64X:$src)), (VCVTSD2SSZrr FR64X:$src, FR64X:$src)>,
             Requires<[HasAVX512]>;
  
-multiclass avx512_vcvt_fp_with_rc<bits<8> opc, string asm, RegisterClass SrcRC, 
-               RegisterClass DstRC, SDNode OpNode, PatFrag mem_frag, 
+multiclass avx512_vcvt_fp_with_rc<bits<8> opc, string asm, RegisterClass SrcRC,
+               RegisterClass DstRC, SDNode OpNode, PatFrag mem_frag,
                 X86MemOperand x86memop, ValueType OpVT, ValueType InVT,
                 Domain d> {
  let hasSideEffects = 0 in {
@@ -3813,7 +3892,7 @@ defm VCVTPS2PDZ : avx512_vcvt_fp<0x5A, "vcvtps2pd", VR256X, VR512, fextend,
                                  EVEX_CD8<32, CD8VH>;
  def : Pat<(v8f64 (extloadv8f32 addr:$src)),
              (VCVTPS2PDZrm addr:$src)>;
-            
+
  def : Pat<(v8f32 (int_x86_avx512_mask_cvtpd2ps_512 (v8f64 VR512:$src),
                     (bc_v8f32(v8i32 immAllZerosV)), (i8 -1), (i32 FROUND_CURRENT))),
            (VCVTPD2PSZrr VR512:$src)>;
@@ -3842,7 +3921,7 @@ defm VCVTTPS2DQZ : avx512_vcvt_fp<0x5B, "vcvttps2dq", VR512, VR512, fp_to_sint,
                                   EVEX_CD8<32, CD8VF>;
  
  defm VCVTTPD2DQZ : avx512_vcvt_fp<0xE6, "vcvttpd2dq", VR512, VR256X, fp_to_sint,
-                                 memopv8f64, f512mem, v8i32, v8f64, 
+                                 memopv8f64, f512mem, v8i32, v8f64,
                                   SSEPackedDouble>, EVEX_V512, PD, VEX_W,
                                   EVEX_CD8<64, CD8VF>;
  
@@ -3860,7 +3939,7 @@ defm VCVTTPD2UDQZ : avx512_vcvt_fp<0x78, "vcvttpd2udq", VR512, VR256X, fp_to_uin
                                   memopv8f64, f512mem, v8i32, v8f64,
                                   SSEPackedDouble>, EVEX_V512, PS, VEX_W,
                                   EVEX_CD8<64, CD8VF>;
-                                 
+
  // cvttpd2udq (src, 0, mask-all-ones, sae-current)
  def : Pat<(v8i32 (int_x86_avx512_mask_cvttpd2udq_512 (v8f64 VR512:$src),
                     (v8i32 immAllZerosV), (i8 -1), FROUND_CURRENT)),
@@ -3870,16 +3949,16 @@ defm VCVTUDQ2PDZ : avx512_vcvt_fp<0x7A, "vcvtudq2pd", VR256X, VR512, uint_to_fp,
                                   memopv4i64, f256mem, v8f64, v8i32,
                                   SSEPackedDouble>, EVEX_V512, XS,
                                   EVEX_CD8<32, CD8VH>;
-                                 
+
  defm VCVTUDQ2PSZ : avx512_vcvt_fp_with_rc<0x7A, "vcvtudq2ps", VR512, VR512, uint_to_fp,
                                   memopv16i32, f512mem, v16f32, v16i32,
                                   SSEPackedSingle>, EVEX_V512, XD,
                                   EVEX_CD8<32, CD8VF>;
  
  def : Pat<(v8i32 (fp_to_uint (v8f32 VR256X:$src1))),
-          (EXTRACT_SUBREG (v16i32 (VCVTTPS2UDQZrr 
+          (EXTRACT_SUBREG (v16i32 (VCVTTPS2UDQZrr
             (v16f32 (SUBREG_TO_REG (i32 0), VR256X:$src1, sub_ymm)))), sub_ymm)>;
-                                 
+
  def : Pat<(v4i32 (fp_to_uint (v4f32 VR128X:$src1))),
            (EXTRACT_SUBREG (v16i32 (VCVTTPS2UDQZrr
             (v16f32 (SUBREG_TO_REG (i32 0), VR128X:$src1, sub_xmm)))), sub_xmm)>;
@@ -3887,7 +3966,7 @@ def : Pat<(v4i32 (fp_to_uint (v4f32 VR128X:$src1))),
  def : Pat<(v8f32 (uint_to_fp (v8i32 VR256X:$src1))),
            (EXTRACT_SUBREG (v16f32 (VCVTUDQ2PSZrr
             (v16i32 (SUBREG_TO_REG (i32 0), VR256X:$src1, sub_ymm)))), sub_ymm)>;
-           
+
  def : Pat<(v4f32 (uint_to_fp (v4i32 VR128X:$src1))),
            (EXTRACT_SUBREG (v16f32 (VCVTUDQ2PSZrr
             (v16i32 (SUBREG_TO_REG (i32 0), VR128X:$src1, sub_xmm)))), sub_xmm)>;
@@ -4032,7 +4111,7 @@ let Defs = [EFLAGS], Predicates = [HasAVX512] in {
                                VEX_LIG, VEX_W, EVEX_CD8<64, CD8VT1>;
    }
  }
-  
+
  /// avx512_fp14_s rcp14ss, rcp14sd, rsqrt14ss, rsqrt14sd
  multiclass avx512_fp14_s<bits<8> opc, string OpcodeStr, RegisterClass RC,
                              X86MemOperand x86memop> {
@@ -4210,7 +4289,7 @@ multiclass  avx512_eri<bits<8> opc, string OpcodeStr, SDNode OpNode> {
  }
  
  let Predicates = [HasERI], hasSideEffects = 0 in {
-  
+
   defm VRSQRT28 : avx512_eri<0xCC, "vrsqrt28", X86rsqrt28>, EVEX, EVEX_V512, T8PD;
   defm VRCP28   : avx512_eri<0xCA, "vrcp28",   X86rcp28>,   EVEX, EVEX_V512, T8PD;
   defm VEXP2    : avx512_eri<0xC8, "vexp2",    X86exp2>,    EVEX, EVEX_V512, T8PD;
@@ -4249,7 +4328,7 @@ multiclass avx512_sqrt_scalar<bits<8> opc, string OpcodeStr,
                 (ins VR128X:$src1, VR128X:$src2),
                 !strconcat(OpcodeStr,
                  "ss\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-               [(set VR128X:$dst, 
+               [(set VR128X:$dst,
                   (F32Int VR128X:$src1, VR128X:$src2))],
                 itins_s.rr>, XS, EVEX_4V;
    let mayLoad = 1 in {
@@ -4263,7 +4342,7 @@ multiclass avx512_sqrt_scalar<bits<8> opc, string OpcodeStr,
                     (ins VR128X:$src1, ssmem:$src2),
                     !strconcat(OpcodeStr,
                   "ss\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-                   [(set VR128X:$dst, 
+                   [(set VR128X:$dst,
                       (F32Int VR128X:$src1, sse_load_f32:$src2))],
                     itins_s.rm>, XS, EVEX_4V, EVEX_CD8<32, CD8VT1>;
    }
@@ -4277,7 +4356,7 @@ multiclass avx512_sqrt_scalar<bits<8> opc, string OpcodeStr,
                 (ins VR128X:$src1, VR128X:$src2),
                 !strconcat(OpcodeStr,
                  "sd\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-               [(set VR128X:$dst, 
+               [(set VR128X:$dst,
                   (F64Int VR128X:$src1, VR128X:$src2))],
                 itins_s.rr>, XD, EVEX_4V, VEX_W;
    let mayLoad = 1 in {
@@ -4291,8 +4370,8 @@ multiclass avx512_sqrt_scalar<bits<8> opc, string OpcodeStr,
                    (ins VR128X:$src1, sdmem:$src2),
                     !strconcat(OpcodeStr,
                    "sd\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-                  [(set VR128X:$dst, 
-                    (F64Int VR128X:$src1, sse_load_f64:$src2))]>, 
+                  [(set VR128X:$dst,
+                    (F64Int VR128X:$src1, sse_load_f64:$src2))]>,
                    XD, EVEX_4V, VEX_W, EVEX_CD8<64, CD8VT1>;
    }
  }
@@ -4324,8 +4403,8 @@ multiclass avx512_sqrt_packed_all<bits<8> opc, string OpcodeStr,
  
  defm VSQRT : avx512_sqrt_packed_all<0x51, "vsqrt", fsqrt>;
  
-defm VSQRT  : avx512_sqrt_scalar<0x51, "sqrt", 
-                int_x86_avx512_sqrt_ss, int_x86_avx512_sqrt_sd, 
+defm VSQRT  : avx512_sqrt_scalar<0x51, "sqrt",
+                int_x86_avx512_sqrt_ss, int_x86_avx512_sqrt_sd,
                  SSE_SQRTSS, SSE_SQRTSD>;
  
  let Predicates = [HasAVX512] in {
@@ -4335,7 +4414,7 @@ let Predicates = [HasAVX512] in {
    def : Pat<(v8f64 (int_x86_avx512_sqrt_pd_512 (v8f64 VR512:$src1),
                      (bc_v8f64 (v16i32 immAllZerosV)), (i8 -1), FROUND_CURRENT)),
                     (VSQRTPDZr VR512:$src1)>;
-  
+
    def : Pat<(f32 (fsqrt FR32X:$src)),
              (VSQRTSSZr (f32 (IMPLICIT_DEF)), FR32X:$src)>;
    def : Pat<(f32 (fsqrt (load addr:$src))),
@@ -4444,7 +4523,7 @@ let ExeDomain = GenericDomain in {
                       (ins VR128X:$src1, ssmem:$src2, i32i8imm:$src3),
                       !strconcat(OpcodeStr,
                     "ss\t{$src3, $src2, $src1, $dst|$dst, $src1, $src2, $src3}"),
-                     [(set VR128X:$dst, (F32Int VR128X:$src1, 
+                     [(set VR128X:$dst, (F32Int VR128X:$src1,
                                           sse_load_f32:$src2, imm:$src3))]>,
                       EVEX_CD8<32, CD8VT1>;
  
@@ -4536,7 +4615,7 @@ let ExeDomain = d in {
  
  defm VRNDSCALESS : avx512_rndscale_scalar<0x0A, "vrndscaless", ssmem, FR32X,
                                  SSEPackedSingle>, EVEX_CD8<32, CD8VT1>;
-                                
+
  defm VRNDSCALESD : avx512_rndscale_scalar<0x0B, "vrndscalesd", sdmem, FR64X,
                                  SSEPackedDouble>, EVEX_CD8<64, CD8VT1>;
  
@@ -4617,7 +4696,7 @@ multiclass avx512_trunc_sat<bits<8> opc, string OpcodeStr,
                 []>, EVEX, EVEX_K;
  
  }
-defm VPMOVQB    : avx512_trunc_sat<0x32, "vpmovqb",   VR128X, VR512, VK8WM, 
+defm VPMOVQB    : avx512_trunc_sat<0x32, "vpmovqb",   VR128X, VR512, VK8WM,
                                   i128mem>, EVEX_V512, EVEX_CD8<8, CD8VO>;
  defm VPMOVSQB   : avx512_trunc_sat<0x22, "vpmovsqb",  VR128X, VR512, VK8WM,
                                   i128mem>, EVEX_V512, EVEX_CD8<8, CD8VO>;
@@ -4765,7 +4844,7 @@ defm VGATHERDPSZ : avx512_gather<0x92, "vgatherdps", VK16WM, VR512, vz32mem>,
  defm VGATHERQPSZ : avx512_gather<0x93, "vgatherqps", VK8WM, VR256X, vz64mem>,
                                   EVEX_V512, EVEX_CD8<32, CD8VT1>;
  }
-  
+
  defm VPGATHERDQZ : avx512_gather<0x90, "vpgatherdq", VK8WM, VR512,  vy64xmem>,
                                   EVEX_V512, VEX_W, EVEX_CD8<64, CD8VT1>;
  defm VPGATHERDDZ : avx512_gather<0x90, "vpgatherdd", VK16WM, VR512, vz32mem>,
@@ -4830,7 +4909,7 @@ defm VGATHERPF0DPD: avx512_gather_scatter_prefetch<0xC6, MRM1m, "vgatherpf0dpd",
  
  defm VGATHERPF0QPD: avx512_gather_scatter_prefetch<0xC7, MRM1m, "vgatherpf0qpd",
                       VK8WM, vz64mem>, EVEX_V512, VEX_W, EVEX_CD8<64, CD8VT1>;
-                     
+
  defm VGATHERPF1DPS: avx512_gather_scatter_prefetch<0xC6, MRM2m, "vgatherpf1dps",
                       VK16WM, vz32mem>, EVEX_V512, EVEX_CD8<32, CD8VT1>;
  
@@ -5004,7 +5083,7 @@ def : Pat<(v8i64 (int_x86_avx512_mask_pabs_q_512 (v8i64 VR512:$src),
                     (bc_v8i64 (v16i32 immAllZerosV)), (i8 -1))),
            (VPABSQZrr VR512:$src)>;
  
-multiclass avx512_conflict<bits<8> opc, string OpcodeStr, 
+multiclass avx512_conflict<bits<8> opc, string OpcodeStr,
                          RegisterClass RC, RegisterClass KRC,
                          X86MemOperand x86memop,
                          X86MemOperand x86scalar_mop, string BrdcstStr> {
@@ -5037,7 +5116,7 @@ multiclass avx512_conflict<bits<8> opc, string OpcodeStr,
                    ", ${dst} {${mask}} {z}|${dst} {${mask}} {z}, ${src}",
                    BrdcstStr, "}"),
         []>, EVEX, EVEX_KZ, EVEX_B;
-       
+
    let Constraints = "$src1 = $dst" in {
    def rrk : AVX5128I<opc, MRMSrcReg, (outs RC:$dst),
         (ins RC:$src1, KRC:$mask, RC:$src2),
@@ -5130,7 +5209,7 @@ def rr : AVX512XS8I<opc, MRMDestReg, (outs Vec.RC:$dst), (ins Vec.KRC:$src),
                    !strconcat(OpcodeStr##Vec.Suffix, "\t{$src, $dst|$dst, $src}"),
                    [(set Vec.RC:$dst, (Vec.VT (X86vsext Vec.KRC:$src)))]>, EVEX;
  }
-          
+
  multiclass cvt_mask_by_elt_width<bits<8> opc, AVX512VLVectorVTInfo VTInfo,
                                   string OpcodeStr, Predicate prd> {
  let Predicates = [prd] in
@@ -5152,5 +5231,5 @@ multiclass avx512_convert_mask_to_vector<string OpcodeStr> {
    defm NAME##Q : cvt_mask_by_elt_width<0x38, avx512vl_i64_info, OpcodeStr,
                                         HasDQI>, VEX_W;
  }
-          
+
  defm VPMOVM2 : avx512_convert_mask_to_vector<"vpmovm2">;