[X86][PCLMUL] Enable commutation for PCLMUL instructions

[oota-llvm.git] / lib / Target / X86 / X86InstrSSE.td
diff --git a/lib/Target/X86/X86InstrSSE.td b/lib/Target/X86/X86InstrSSE.td

index d0d390a8f398d3bc4940f868e6b0236db0e351a0..f58a0037f602f4666aaffa5577dd63597cd8bc22 100644 (file)
--- a/lib/Target/X86/X86InstrSSE.td
+++ b/lib/Target/X86/X86InstrSSE.td
@@ -3647,8 +3647,10 @@ let Predicates = [HasAVX] in {
  }
  
  /// sse2_fp_unop_s - SSE2 unops in scalar form.
+// FIXME: Combine the following sse2 classes with the sse1 classes above.
+// The only usage of these is for SQRT[S/P]D. See sse12_fp_binop* for example.
  multiclass sse2_fp_unop_s<bits<8> opc, string OpcodeStr,
-                          SDNode OpNode, Intrinsic F64Int, OpndItins itins> {
+                          SDNode OpNode, OpndItins itins> {
  let Predicates = [HasAVX], hasSideEffects = 0 in {
    def V#NAME#SDr : SDI<opc, MRMSrcReg, (outs FR64:$dst),
                        (ins FR64:$src1, FR64:$src2),
@@ -3681,16 +3683,18 @@ let Predicates = [HasAVX], hasSideEffects = 0 in {
                  !strconcat(OpcodeStr, "sd\t{$src, $dst|$dst, $src}"),
                  [(set FR64:$dst, (OpNode (load addr:$src)))], itins.rm>, XD,
              Requires<[UseSSE2, OptForSize]>, Sched<[itins.Sched.Folded]>;
-let isCodeGenOnly = 1 in {
-  def SDr_Int : SDI<opc, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src),
-                    !strconcat(OpcodeStr, "sd\t{$src, $dst|$dst, $src}"),
-                    [(set VR128:$dst, (F64Int VR128:$src))], itins.rr>,
-                Sched<[itins.Sched]>;
-  def SDm_Int : SDI<opc, MRMSrcMem, (outs VR128:$dst), (ins sdmem:$src),
-                    !strconcat(OpcodeStr, "sd\t{$src, $dst|$dst, $src}"),
-                    [(set VR128:$dst, (F64Int sse_load_f64:$src))], itins.rm>,
-                Sched<[itins.Sched.Folded]>;
-}
+  let isCodeGenOnly = 1, Constraints = "$src1 = $dst" in {
+  def SDr_Int :
+    SDI<opc, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src1, VR128:$src2),
+    !strconcat(OpcodeStr, "sd\t{$src2, $dst|$dst, $src2}"),
+    [], itins.rr>, Sched<[itins.Sched]>;
+  
+  let mayLoad = 1, hasSideEffects = 0 in
+  def SDm_Int :
+    SDI<opc, MRMSrcMem, (outs VR128:$dst), (ins VR128:$src1, sdmem:$src2),
+    !strconcat(OpcodeStr, "sd\t{$src2, $dst|$dst, $src2}"),
+    [], itins.rm>, Sched<[itins.Sched.Folded, ReadAfterLd]>;
+  } // isCodeGenOnly, Constraints
  }
  
  /// sse2_fp_unop_p - SSE2 unops in vector forms.
@@ -3732,8 +3736,7 @@ let Predicates = [HasAVX] in {
  // Square root.
  defm SQRT  : sse1_fp_unop_s<0x51, "sqrt", fsqrt, SSE_SQRTSS>,
               sse1_fp_unop_p<0x51, "sqrt", fsqrt, SSE_SQRTPS>,
-             sse2_fp_unop_s<0x51, "sqrt", fsqrt, int_x86_sse2_sqrt_sd,
-                            SSE_SQRTSD>,
+             sse2_fp_unop_s<0x51, "sqrt", fsqrt, SSE_SQRTSD>,
               sse2_fp_unop_p<0x51, "sqrt", fsqrt, SSE_SQRTPD>;
  
  // Reciprocal approximations. Note that these typically require refinement
@@ -3812,6 +3815,8 @@ let Predicates = [UseSSE1] in {
              (RCPSSr_Int VR128:$src, VR128:$src)>;
    def : Pat<(int_x86_sse_sqrt_ss VR128:$src),
              (SQRTSSr_Int VR128:$src, VR128:$src)>;
+  def : Pat<(int_x86_sse2_sqrt_sd VR128:$src),
+            (SQRTSDr_Int VR128:$src, VR128:$src)>;
  }
  
  // There is no f64 version of the reciprocal approximation instructions.
@@ -4323,13 +4328,13 @@ defm VPSRAD : PDI_binop_rmi<0xE2, 0x72, MRM4r, "vpsrad", X86vsra, X86vsrai,
  let ExeDomain = SSEPackedInt, SchedRW = [WriteVecShift] in {
    // 128-bit logical shifts.
    def VPSLLDQri : PDIi8<0x73, MRM7r,
-                    (outs VR128:$dst), (ins VR128:$src1, i32i8imm:$src2),
+                    (outs VR128:$dst), (ins VR128:$src1, i32u8imm:$src2),
                      "vpslldq\t{$src2, $src1, $dst|$dst, $src1, $src2}",
                      [(set VR128:$dst,
                        (int_x86_sse2_psll_dq_bs VR128:$src1, imm:$src2))]>,
                      VEX_4V;
    def VPSRLDQri : PDIi8<0x73, MRM3r,
-                    (outs VR128:$dst), (ins VR128:$src1, i32i8imm:$src2),
+                    (outs VR128:$dst), (ins VR128:$src1, i32u8imm:$src2),
                      "vpsrldq\t{$src2, $src1, $dst|$dst, $src1, $src2}",
                      [(set VR128:$dst,
                        (int_x86_sse2_psrl_dq_bs VR128:$src1, imm:$src2))]>,
@@ -4369,13 +4374,13 @@ defm VPSRADY : PDI_binop_rmi<0xE2, 0x72, MRM4r, "vpsrad", X86vsra, X86vsrai,
  let ExeDomain = SSEPackedInt, SchedRW = [WriteVecShift] in {
    // 256-bit logical shifts.
    def VPSLLDQYri : PDIi8<0x73, MRM7r,
-                    (outs VR256:$dst), (ins VR256:$src1, i32i8imm:$src2),
+                    (outs VR256:$dst), (ins VR256:$src1, i32u8imm:$src2),
                      "vpslldq\t{$src2, $src1, $dst|$dst, $src1, $src2}",
                      [(set VR256:$dst,
                        (int_x86_avx2_psll_dq_bs VR256:$src1, imm:$src2))]>,
                      VEX_4V, VEX_L;
    def VPSRLDQYri : PDIi8<0x73, MRM3r,
-                    (outs VR256:$dst), (ins VR256:$src1, i32i8imm:$src2),
+                    (outs VR256:$dst), (ins VR256:$src1, i32u8imm:$src2),
                      "vpsrldq\t{$src2, $src1, $dst|$dst, $src1, $src2}",
                      [(set VR256:$dst,
                        (int_x86_avx2_psrl_dq_bs VR256:$src1, imm:$src2))]>,
@@ -4415,13 +4420,13 @@ defm PSRAD : PDI_binop_rmi<0xE2, 0x72, MRM4r, "psrad", X86vsra, X86vsrai,
  let ExeDomain = SSEPackedInt, SchedRW = [WriteVecShift] in {
    // 128-bit logical shifts.
    def PSLLDQri : PDIi8<0x73, MRM7r,
-                       (outs VR128:$dst), (ins VR128:$src1, i32i8imm:$src2),
+                       (outs VR128:$dst), (ins VR128:$src1, i32u8imm:$src2),
                         "pslldq\t{$src2, $dst|$dst, $src2}",
                         [(set VR128:$dst,
                           (int_x86_sse2_psll_dq_bs VR128:$src1, imm:$src2))],
                           IIC_SSE_INTSHDQ_P_RI>;
    def PSRLDQri : PDIi8<0x73, MRM3r,
-                       (outs VR128:$dst), (ins VR128:$src1, i32i8imm:$src2),
+                       (outs VR128:$dst), (ins VR128:$src1, i32u8imm:$src2),
                         "psrldq\t{$src2, $dst|$dst, $src2}",
                         [(set VR128:$dst,
                           (int_x86_sse2_psrl_dq_bs VR128:$src1, imm:$src2))],
@@ -4805,7 +4810,7 @@ let ExeDomain = SSEPackedInt in {
  multiclass sse2_pinsrw<bit Is2Addr = 1> {
    def rri : Ii8<0xC4, MRMSrcReg,
         (outs VR128:$dst), (ins VR128:$src1,
-        GR32orGR64:$src2, i32i8imm:$src3),
+        GR32orGR64:$src2, u8imm:$src3),
         !if(Is2Addr,
             "pinsrw\t{$src3, $src2, $dst|$dst, $src2, $src3}",
             "vpinsrw\t{$src3, $src2, $src1, $dst|$dst, $src1, $src2, $src3}"),
@@ -4814,7 +4819,7 @@ multiclass sse2_pinsrw<bit Is2Addr = 1> {
         IIC_SSE_PINSRW>, Sched<[WriteShuffle]>;
    def rmi : Ii8<0xC4, MRMSrcMem,
                         (outs VR128:$dst), (ins VR128:$src1,
-                        i16mem:$src2, i32i8imm:$src3),
+                        i16mem:$src2, u8imm:$src3),
         !if(Is2Addr,
             "pinsrw\t{$src3, $src2, $dst|$dst, $src2, $src3}",
             "vpinsrw\t{$src3, $src2, $src1, $dst|$dst, $src1, $src2, $src3}"),
@@ -6337,7 +6342,7 @@ multiclass SS41I_extract8<bits<8> opc, string OpcodeStr> {
                   !strconcat(OpcodeStr,
                              "\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
                   [(store (i8 (trunc (assertzext (X86pextrb (v16i8 VR128:$src1),
-                                                imm:$src2)))), addr:$dst)]>;
+                                                 imm:$src2)))), addr:$dst)]>;
  }
  
  let Predicates = [HasAVX] in
@@ -6607,7 +6612,7 @@ let ExeDomain = SSEPackedSingle in {
    // Intrinsic operation, reg.
    // Vector intrinsic operation, reg
    def PSr : SS4AIi8<opcps, MRMSrcReg,
-                    (outs RC:$dst), (ins RC:$src1, i32i8imm:$src2),
+                    (outs RC:$dst), (ins RC:$src1, i32u8imm:$src2),
                      !strconcat(OpcodeStr,
                      "ps\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
                      [(set RC:$dst, (V4F32Int RC:$src1, imm:$src2))],
@@ -6615,7 +6620,7 @@ let ExeDomain = SSEPackedSingle in {
  
    // Vector intrinsic operation, mem
    def PSm : SS4AIi8<opcps, MRMSrcMem,
-                    (outs RC:$dst), (ins x86memop:$src1, i32i8imm:$src2),
+                    (outs RC:$dst), (ins x86memop:$src1, i32u8imm:$src2),
                      !strconcat(OpcodeStr,
                      "ps\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
                      [(set RC:$dst,
@@ -6626,7 +6631,7 @@ let ExeDomain = SSEPackedSingle in {
  let ExeDomain = SSEPackedDouble in {
    // Vector intrinsic operation, reg
    def PDr : SS4AIi8<opcpd, MRMSrcReg,
-                    (outs RC:$dst), (ins RC:$src1, i32i8imm:$src2),
+                    (outs RC:$dst), (ins RC:$src1, i32u8imm:$src2),
                      !strconcat(OpcodeStr,
                      "pd\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
                      [(set RC:$dst, (V2F64Int RC:$src1, imm:$src2))],
@@ -6634,7 +6639,7 @@ let ExeDomain = SSEPackedDouble in {
  
    // Vector intrinsic operation, mem
    def PDm : SS4AIi8<opcpd, MRMSrcMem,
-                    (outs RC:$dst), (ins x86memop:$src1, i32i8imm:$src2),
+                    (outs RC:$dst), (ins x86memop:$src1, i32u8imm:$src2),
                      !strconcat(OpcodeStr,
                      "pd\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
                      [(set RC:$dst,
@@ -6651,7 +6656,7 @@ let ExeDomain = GenericDomain in {
    // Operation, reg.
    let hasSideEffects = 0 in
    def SSr : SS4AIi8<opcss, MRMSrcReg,
-      (outs FR32:$dst), (ins FR32:$src1, FR32:$src2, i32i8imm:$src3),
+      (outs FR32:$dst), (ins FR32:$src1, FR32:$src2, i32u8imm:$src3),
        !if(Is2Addr,
            !strconcat(OpcodeStr,
                "ss\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
@@ -6662,7 +6667,7 @@ let ExeDomain = GenericDomain in {
    // Intrinsic operation, reg.
    let isCodeGenOnly = 1 in
    def SSr_Int : SS4AIi8<opcss, MRMSrcReg,
-        (outs VR128:$dst), (ins VR128:$src1, VR128:$src2, i32i8imm:$src3),
+        (outs VR128:$dst), (ins VR128:$src1, VR128:$src2, i32u8imm:$src3),
          !if(Is2Addr,
              !strconcat(OpcodeStr,
                  "ss\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
@@ -6673,7 +6678,7 @@ let ExeDomain = GenericDomain in {
  
    // Intrinsic operation, mem.
    def SSm : SS4AIi8<opcss, MRMSrcMem,
-        (outs VR128:$dst), (ins VR128:$src1, ssmem:$src2, i32i8imm:$src3),
+        (outs VR128:$dst), (ins VR128:$src1, ssmem:$src2, i32u8imm:$src3),
          !if(Is2Addr,
              !strconcat(OpcodeStr,
                  "ss\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
@@ -6686,7 +6691,7 @@ let ExeDomain = GenericDomain in {
    // Operation, reg.
    let hasSideEffects = 0 in
    def SDr : SS4AIi8<opcsd, MRMSrcReg,
-        (outs FR64:$dst), (ins FR64:$src1, FR64:$src2, i32i8imm:$src3),
+        (outs FR64:$dst), (ins FR64:$src1, FR64:$src2, i32u8imm:$src3),
          !if(Is2Addr,
              !strconcat(OpcodeStr,
                  "sd\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
@@ -6697,7 +6702,7 @@ let ExeDomain = GenericDomain in {
    // Intrinsic operation, reg.
    let isCodeGenOnly = 1 in
    def SDr_Int : SS4AIi8<opcsd, MRMSrcReg,
-        (outs VR128:$dst), (ins VR128:$src1, VR128:$src2, i32i8imm:$src3),
+        (outs VR128:$dst), (ins VR128:$src1, VR128:$src2, i32u8imm:$src3),
          !if(Is2Addr,
              !strconcat(OpcodeStr,
                  "sd\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
@@ -6708,7 +6713,7 @@ let ExeDomain = GenericDomain in {
  
    // Intrinsic operation, mem.
    def SDm : SS4AIi8<opcsd, MRMSrcMem,
-        (outs VR128:$dst), (ins VR128:$src1, sdmem:$src2, i32i8imm:$src3),
+        (outs VR128:$dst), (ins VR128:$src1, sdmem:$src2, i32u8imm:$src3),
          !if(Is2Addr,
              !strconcat(OpcodeStr,
                  "sd\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
@@ -6734,7 +6739,9 @@ let Predicates = [HasAVX] in {
    defm VROUND  : sse41_fp_binop_rm<0x0A, 0x0B, "vround",
                                    int_x86_sse41_round_ss,
                                    int_x86_sse41_round_sd, 0>, VEX_4V, VEX_LIG;
+}
  
+let Predicates = [UseAVX] in {
    def : Pat<(ffloor FR32:$src),
              (VROUNDSSr (f32 (IMPLICIT_DEF)), FR32:$src, (i32 0x1))>;
    def : Pat<(f64 (ffloor FR64:$src)),
@@ -6755,7 +6762,9 @@ let Predicates = [HasAVX] in {
              (VROUNDSSr (f32 (IMPLICIT_DEF)), FR32:$src, (i32 0x3))>;
    def : Pat<(f64 (ftrunc FR64:$src)),
              (VROUNDSDr (f64 (IMPLICIT_DEF)), FR64:$src, (i32 0x3))>;
+}
  
+let Predicates = [HasAVX] in {
    def : Pat<(v4f32 (ffloor VR128:$src)),
              (VROUNDPSr VR128:$src, (i32 0x1))>;
    def : Pat<(v4f32 (fnearbyint VR128:$src)),
@@ -7932,6 +7941,7 @@ def AESKEYGENASSIST128rm : AESAI<0xDF, MRMSrcMem, (outs VR128:$dst),
  //===----------------------------------------------------------------------===//
  
  // AVX carry-less Multiplication instructions
+let isCommutable = 1 in
  def VPCLMULQDQrr : AVXPCLMULIi8<0x44, MRMSrcReg, (outs VR128:$dst),
             (ins VR128:$src1, VR128:$src2, u8imm:$src3),
             "vpclmulqdq\t{$src3, $src2, $src1, $dst|$dst, $src1, $src2, $src3}",
@@ -7948,6 +7958,7 @@ def VPCLMULQDQrm : AVXPCLMULIi8<0x44, MRMSrcMem, (outs VR128:$dst),
  
  // Carry-less Multiplication instructions
  let Constraints = "$src1 = $dst" in {
+let isCommutable = 1 in
  def PCLMULQDQrr : PCLMULIi8<0x44, MRMSrcReg, (outs VR128:$dst),
             (ins VR128:$src1, VR128:$src2, u8imm:$src3),
             "pclmulqdq\t{$src3, $src2, $dst|$dst, $src2, $src3}",
@@ -8482,14 +8493,14 @@ multiclass f16c_ph2ps<RegisterClass RC, X86MemOperand x86memop, Intrinsic Int> {
  
  multiclass f16c_ps2ph<RegisterClass RC, X86MemOperand x86memop, Intrinsic Int> {
    def rr : Ii8<0x1D, MRMDestReg, (outs VR128:$dst),
-               (ins RC:$src1, i32i8imm:$src2),
+               (ins RC:$src1, i32u8imm:$src2),
                 "vcvtps2ph\t{$src2, $src1, $dst|$dst, $src1, $src2}",
                 [(set VR128:$dst, (Int RC:$src1, imm:$src2))]>,
                 TAPD, VEX, Sched<[WriteCvtF2F]>;
    let hasSideEffects = 0, mayStore = 1,
        SchedRW = [WriteCvtF2FLd, WriteRMW] in
    def mr : Ii8<0x1D, MRMDestMem, (outs),
-               (ins x86memop:$dst, RC:$src1, i32i8imm:$src2),
+               (ins x86memop:$dst, RC:$src1, i32u8imm:$src2),
                 "vcvtps2ph\t{$src2, $src1, $dst|$dst, $src1, $src2}", []>,
                 TAPD, VEX;
  }