AMDGPU: Improve accuracy of instruction rates for VOPC

[oota-llvm.git] / lib / Target / AMDGPU / SIInstructions.td
diff --git a/lib/Target/AMDGPU/SIInstructions.td b/lib/Target/AMDGPU/SIInstructions.td

index 8ad9d53831c716c9dafdfc6ec1058b3f83b7067b..796e21fdf6df78b5fb0d99e272a22775820d70ee 100644 (file)
--- a/lib/Target/AMDGPU/SIInstructions.td
+++ b/lib/Target/AMDGPU/SIInstructions.td
@@ -30,7 +30,9 @@ def isGCN : Predicate<"Subtarget->getGeneration() "
                        ">= AMDGPUSubtarget::SOUTHERN_ISLANDS">,
              AssemblerPredicate<"FeatureGCN">;
  def isSI : Predicate<"Subtarget->getGeneration() "
-                      "== AMDGPUSubtarget::SOUTHERN_ISLANDS">;
+                      "== AMDGPUSubtarget::SOUTHERN_ISLANDS">,
+           AssemblerPredicate<"FeatureSouthernIslands">;
+
  
  def has16BankLDS : Predicate<"Subtarget->getLDSBankCount() == 16">;
  def has32BankLDS : Predicate<"Subtarget->getLDSBankCount() == 32">;
@@ -62,36 +64,38 @@ let mayLoad = 1 in {
  // We are using the SGPR_32 and not the SReg_32 register class for 32-bit
  // SMRD instructions, because the SGPR_32 register class does not include M0
  // and writing to M0 from an SMRD instruction will hang the GPU.
-defm S_LOAD_DWORD : SMRD_Helper <0x00, "s_load_dword", SReg_64, SGPR_32>;
-defm S_LOAD_DWORDX2 : SMRD_Helper <0x01, "s_load_dwordx2", SReg_64, SReg_64>;
-defm S_LOAD_DWORDX4 : SMRD_Helper <0x02, "s_load_dwordx4", SReg_64, SReg_128>;
-defm S_LOAD_DWORDX8 : SMRD_Helper <0x03, "s_load_dwordx8", SReg_64, SReg_256>;
-defm S_LOAD_DWORDX16 : SMRD_Helper <0x04, "s_load_dwordx16", SReg_64, SReg_512>;
+defm S_LOAD_DWORD : SMRD_Helper <smrd<0x00>, "s_load_dword", SReg_64, SGPR_32>;
+defm S_LOAD_DWORDX2 : SMRD_Helper <smrd<0x01>, "s_load_dwordx2", SReg_64, SReg_64>;
+defm S_LOAD_DWORDX4 : SMRD_Helper <smrd<0x02>, "s_load_dwordx4", SReg_64, SReg_128>;
+defm S_LOAD_DWORDX8 : SMRD_Helper <smrd<0x03>, "s_load_dwordx8", SReg_64, SReg_256>;
+defm S_LOAD_DWORDX16 : SMRD_Helper <smrd<0x04>, "s_load_dwordx16", SReg_64, SReg_512>;
  
  defm S_BUFFER_LOAD_DWORD : SMRD_Helper <
-  0x08, "s_buffer_load_dword", SReg_128, SGPR_32
+  smrd<0x08>, "s_buffer_load_dword", SReg_128, SGPR_32
  >;
  
  defm S_BUFFER_LOAD_DWORDX2 : SMRD_Helper <
-  0x09, "s_buffer_load_dwordx2", SReg_128, SReg_64
+  smrd<0x09>, "s_buffer_load_dwordx2", SReg_128, SReg_64
  >;
  
  defm S_BUFFER_LOAD_DWORDX4 : SMRD_Helper <
-  0x0a, "s_buffer_load_dwordx4", SReg_128, SReg_128
+  smrd<0x0a>, "s_buffer_load_dwordx4", SReg_128, SReg_128
  >;
  
  defm S_BUFFER_LOAD_DWORDX8 : SMRD_Helper <
-  0x0b, "s_buffer_load_dwordx8", SReg_128, SReg_256
+  smrd<0x0b>, "s_buffer_load_dwordx8", SReg_128, SReg_256
  >;
  
  defm S_BUFFER_LOAD_DWORDX16 : SMRD_Helper <
-  0x0c, "s_buffer_load_dwordx16", SReg_128, SReg_512
+  smrd<0x0c>, "s_buffer_load_dwordx16", SReg_128, SReg_512
  >;
  
  } // mayLoad = 1
  
  //def S_MEMTIME : SMRD_ <0x0000001e, "s_memtime", []>;
-//def S_DCACHE_INV : SMRD_ <0x0000001f, "s_dcache_inv", []>;
+
+defm S_DCACHE_INV : SMRD_Inval <smrd<0x1f, 0x20>, "s_dcache_inv",
+  int_amdgcn_s_dcache_inv>;
  
  //===----------------------------------------------------------------------===//
  // SOP1 Instructions
@@ -479,11 +483,11 @@ let hasSideEffects = 1 in {
  def S_BARRIER : SOPP <0x0000000a, (ins), "s_barrier",
    [(int_AMDGPU_barrier_local)]
  > {
+  let SchedRW = [WriteBarrier];
    let simm16 = 0;
-  let isBarrier = 1;
-  let hasCtrlDep = 1;
    let mayLoad = 1;
    let mayStore = 1;
+  let isConvergent = 1;
  }
  
  def S_WAITCNT : SOPP <0x0000000c, (ins WAIT_FLAG:$simm16), "s_waitcnt $simm16">;
@@ -1028,9 +1032,12 @@ defm BUFFER_ATOMIC_XOR : MUBUF_Atomic <
  //def BUFFER_ATOMIC_FCMPSWAP_X2 : MUBUF_X2 <mubuf<0x5e>, "buffer_atomic_fcmpswap_x2", []>; // isn't on VI
  //def BUFFER_ATOMIC_FMIN_X2 : MUBUF_X2 <mubuf<0x5f>, "buffer_atomic_fmin_x2", []>; // isn't on VI
  //def BUFFER_ATOMIC_FMAX_X2 : MUBUF_X2 <mubuf<0x60>, "buffer_atomic_fmax_x2", []>; // isn't on VI
-//def BUFFER_WBINVL1_SC : MUBUF_WBINVL1 <mubuf<0x70>, "buffer_wbinvl1_sc", []>; // isn't on CI & VI
-//def BUFFER_WBINVL1_VOL : MUBUF_WBINVL1 <mubuf<0x70, 0x3f>, "buffer_wbinvl1_vol", []>; // isn't on SI
-//def BUFFER_WBINVL1 : MUBUF_WBINVL1 <mubuf<0x71, 0x3e>, "buffer_wbinvl1", []>;
+
+let SubtargetPredicate = isSI in {
+defm BUFFER_WBINVL1_SC : MUBUF_Invalidate <mubuf<0x70>, "buffer_wbinvl1_sc", int_amdgcn_buffer_wbinvl1_sc>; // isn't on CI & VI
+}
+
+defm BUFFER_WBINVL1 : MUBUF_Invalidate <mubuf<0x71, 0x3e>, "buffer_wbinvl1", int_amdgcn_buffer_wbinvl1>;
  
  //===----------------------------------------------------------------------===//
  // MTBUF Instructions
@@ -1286,7 +1293,9 @@ defm V_SQRT_F64 : VOP1Inst <vop1<0x34, 0x28>, "v_sqrt_f64",
    VOP_F64_F64, fsqrt
  >;
  
-} // let SchedRW = [WriteDouble]
+} // End SchedRW = [WriteDouble]
+
+let SchedRW = [WriteQuarterRate32] in {
  
  defm V_SIN_F32 : VOP1Inst <vop1<0x35, 0x29>, "v_sin_f32",
    VOP_F32_F32, AMDGPUsin
@@ -1294,6 +1303,9 @@ defm V_SIN_F32 : VOP1Inst <vop1<0x35, 0x29>, "v_sin_f32",
  defm V_COS_F32 : VOP1Inst <vop1<0x36, 0x2a>, "v_cos_f32",
    VOP_F32_F32, AMDGPUcos
  >;
+
+} // End SchedRW = [WriteQuarterRate32]
+
  defm V_NOT_B32 : VOP1Inst <vop1<0x37, 0x2b>, "v_not_b32", VOP_I32_I32>;
  defm V_BFREV_B32 : VOP1Inst <vop1<0x38, 0x2c>, "v_bfrev_b32", VOP_I32_I32>;
  defm V_FFBH_U32 : VOP1Inst <vop1<0x39, 0x2d>, "v_ffbh_u32", VOP_I32_I32>;
@@ -1302,10 +1314,18 @@ defm V_FFBH_I32 : VOP1Inst <vop1<0x3b, 0x2f>, "v_ffbh_i32", VOP_I32_I32>;
  defm V_FREXP_EXP_I32_F64 : VOP1Inst <vop1<0x3c,0x30>, "v_frexp_exp_i32_f64",
    VOP_I32_F64
  >;
+
+let SchedRW = [WriteDoubleAdd] in {
  defm V_FREXP_MANT_F64 : VOP1Inst <vop1<0x3d, 0x31>, "v_frexp_mant_f64",
    VOP_F64_F64
  >;
-defm V_FRACT_F64 : VOP1Inst <vop1<0x3e, 0x32>, "v_fract_f64", VOP_F64_F64>;
+
+defm V_FRACT_F64 : VOP1Inst <vop1<0x3e, 0x32>, "v_fract_f64",
+  VOP_F64_F64
+>;
+} // End SchedRW = [WriteDoubleAdd]
+
+
  defm V_FREXP_EXP_I32_F32 : VOP1Inst <vop1<0x3f, 0x33>, "v_frexp_exp_i32_f32",
    VOP_I32_F32
  >;
@@ -1337,7 +1357,7 @@ defm V_RSQ_LEGACY_F32 : VOP1InstSI <vop1<0x2d>, "v_rsq_legacy_f32",
    VOP_F32_F32, AMDGPUrsq_legacy
  >;
  
-} // End let SchedRW = [WriteQuarterRate32]
+} // End SchedRW = [WriteQuarterRate32]
  
  let SchedRW = [WriteDouble] in {
  
@@ -1354,7 +1374,7 @@ defm V_RSQ_CLAMP_F64 : VOP1InstSI <vop1<0x32>, "v_rsq_clamp_f64",
  // VINTRP Instructions
  //===----------------------------------------------------------------------===//
  
-let Uses = [M0] in {
+let Uses = [M0, EXEC] in {
  
  // FIXME: Specify SchedRW for VINTRP insturctions.
  
@@ -1399,7 +1419,7 @@ defm V_INTERP_MOV_F32 : VINTRP_m <
    [(set f32:$dst, (AMDGPUinterp_mov (i32 imm:$src0), (i32 imm:$attr_chan),
                                      (i32 imm:$attr)))]>;
  
-} // End Uses = [M0]
+} // End Uses = [M0, EXEC]
  
  //===----------------------------------------------------------------------===//
  // VOP2 Instructions
@@ -1494,34 +1514,32 @@ let isCommutable = 1 in {
  defm V_MADAK_F32 : VOP2MADK <vop2<0x21, 0x18>, "v_madak_f32">;
  } // End isCommutable = 1
  
-let isCommutable = 1, Defs = [VCC] in { // Carry-out goes to VCC
+let isCommutable = 1 in {
  // No patterns so that the scalar instructions are always selected.
  // The scalar versions will be replaced with vector when needed later.
  
  // V_ADD_I32, V_SUB_I32, and V_SUBREV_I32 where renamed to *_U32 in VI,
  // but the VI instructions behave the same as the SI versions.
  defm V_ADD_I32 : VOP2bInst <vop2<0x25, 0x19>, "v_add_i32",
-  VOP_I32_I32_I32, add
+  VOP2b_I32_I1_I32_I32
  >;
-defm V_SUB_I32 : VOP2bInst <vop2<0x26, 0x1a>, "v_sub_i32", VOP_I32_I32_I32>;
+defm V_SUB_I32 : VOP2bInst <vop2<0x26, 0x1a>, "v_sub_i32", VOP2b_I32_I1_I32_I32>;
  
  defm V_SUBREV_I32 : VOP2bInst <vop2<0x27, 0x1b>, "v_subrev_i32",
-  VOP_I32_I32_I32, null_frag, "v_sub_i32"
+  VOP2b_I32_I1_I32_I32, null_frag, "v_sub_i32"
  >;
  
-let Uses = [VCC] in { // Carry-in comes from VCC
  defm V_ADDC_U32 : VOP2bInst <vop2<0x28, 0x1c>, "v_addc_u32",
-  VOP_I32_I32_I32_VCC
+  VOP2b_I32_I1_I32_I32_I1
  >;
  defm V_SUBB_U32 : VOP2bInst <vop2<0x29, 0x1d>, "v_subb_u32",
-  VOP_I32_I32_I32_VCC
+  VOP2b_I32_I1_I32_I32_I1
  >;
  defm V_SUBBREV_U32 : VOP2bInst <vop2<0x2a, 0x1e>, "v_subbrev_u32",
-  VOP_I32_I32_I32_VCC, null_frag, "v_subb_u32"
+  VOP2b_I32_I1_I32_I32_I1, null_frag, "v_subb_u32"
  >;
  
-} // End Uses = [VCC]
-} // End isCommutable = 1, Defs = [VCC]
+} // End isCommutable = 1
  
  defm V_READLANE_B32 : VOP2SI_3VI_m <
    vop3 <0x001, 0x289>,
@@ -1698,15 +1716,15 @@ defm V_DIV_FIXUP_F32 : VOP3Inst <
    vop3<0x15f, 0x1de>, "v_div_fixup_f32", VOP_F32_F32_F32_F32, AMDGPUdiv_fixup
  >;
  
-let SchedRW = [WriteDouble] in {
+let SchedRW = [WriteDoubleAdd] in {
  
  defm V_DIV_FIXUP_F64 : VOP3Inst <
    vop3<0x160, 0x1df>, "v_div_fixup_f64", VOP_F64_F64_F64_F64, AMDGPUdiv_fixup
  >;
  
-} // let SchedRW = [WriteDouble]
+} // End SchedRW = [WriteDouble]
  
-let SchedRW = [WriteDouble] in {
+let SchedRW = [WriteDoubleAdd] in {
  let isCommutable = 1 in {
  
  defm V_ADD_F64 : VOP3Inst <vop3<0x164, 0x280>, "v_add_f64",
@@ -1729,7 +1747,7 @@ defm V_LDEXP_F64 : VOP3Inst <vop3<0x168, 0x284>, "v_ldexp_f64",
    VOP_F64_F64_I32, AMDGPUldexp
  >;
  
-} // let SchedRW = [WriteDouble]
+} // let SchedRW = [WriteDoubleAdd]
  
  let isCommutable = 1, SchedRW = [WriteQuarterRate32] in {
  
@@ -1758,8 +1776,9 @@ let SchedRW = [WriteDouble, WriteSALU] in {
  defm V_DIV_SCALE_F64 : VOP3b_64 <vop3<0x16e, 0x1e1>, "v_div_scale_f64", []>;
  } // let SchedRW = [WriteDouble]
  
-let isCommutable = 1, Uses = [VCC] in {
+let isCommutable = 1, Uses = [VCC, EXEC] in {
  
+let SchedRW = [WriteFloatFMA] in {
  // v_div_fmas_f32:
  //   result = src0 * src1 + src2
  //   if (vcc)
@@ -1768,6 +1787,7 @@ let isCommutable = 1, Uses = [VCC] in {
  defm V_DIV_FMAS_F32 : VOP3_VCC_Inst <vop3<0x16f, 0x1e2>, "v_div_fmas_f32",
    VOP_F32_F32_F32_F32, AMDGPUdiv_fmas
  >;
+}
  
  let SchedRW = [WriteDouble] in {
  // v_div_fmas_f64:
@@ -1780,7 +1800,7 @@ defm V_DIV_FMAS_F64 : VOP3_VCC_Inst <vop3<0x170, 0x1e3>, "v_div_fmas_f64",
  >;
  
  } // End SchedRW = [WriteDouble]
-} // End isCommutable = 1
+} // End isCommutable = 1, Uses = [VCC, EXEC]
  
  //def V_MSAD_U8 : VOP3_U8 <0x00000171, "v_msad_u8", []>;
  //def V_QSAD_U8 : VOP3_U8 <0x00000172, "v_qsad_u8", []>;
@@ -1829,7 +1849,7 @@ def V_CNDMASK_B64_PSEUDO : VOP3Common <(outs VReg_64:$dst),
    (ins VSrc_64:$src0, VSrc_64:$src1, SSrc_64:$src2), "", []
  >;
  
-let hasSideEffects = 0, mayLoad = 0, mayStore = 0 in {
+let hasSideEffects = 0, mayLoad = 0, mayStore = 0, Uses = [EXEC] in {
  // 64-bit vector move instruction.  This is mainly used by the SIFoldOperands
  // pass to enable folding of inline immediates.
  def V_MOV_B64_PSEUDO : InstSI <(outs VReg_64:$dst), (ins VSrc_64:$src0), "", []>;
@@ -1971,19 +1991,25 @@ def SI_INDIRECT_DST_V16 : SI_INDIRECT_DST<VReg_512>;
  
  multiclass SI_SPILL_SGPR <RegisterClass sgpr_class> {
  
-  let UseNamedOperandTable = 1 in {
+  let UseNamedOperandTable = 1, Uses = [EXEC] in {
      def _SAVE : InstSI <
        (outs),
        (ins sgpr_class:$src, i32imm:$frame_idx, SReg_128:$scratch_rsrc,
             SReg_32:$scratch_offset),
        "", []
-    >;
+    > {
+      let mayStore = 1;
+      let mayLoad = 0;
+    }
  
      def _RESTORE : InstSI <
        (outs sgpr_class:$dst),
        (ins i32imm:$frame_idx, SReg_128:$scratch_rsrc, SReg_32:$scratch_offset),
        "", []
-    >;
+    > {
+      let mayStore = 0;
+      let mayLoad = 1;
+    }
    } // End UseNamedOperandTable = 1
  }
  
@@ -1997,19 +2023,25 @@ defm SI_SPILL_S256 : SI_SPILL_SGPR <SReg_256>;
  defm SI_SPILL_S512 : SI_SPILL_SGPR <SReg_512>;
  
  multiclass SI_SPILL_VGPR <RegisterClass vgpr_class> {
-  let UseNamedOperandTable = 1, VGPRSpill = 1 in {
+  let UseNamedOperandTable = 1, VGPRSpill = 1, Uses = [EXEC] in {
      def _SAVE : InstSI <
        (outs),
        (ins vgpr_class:$src, i32imm:$frame_idx, SReg_128:$scratch_rsrc,
             SReg_32:$scratch_offset),
        "", []
-    >;
+    > {
+      let mayStore = 1;
+      let mayLoad = 0;
+    }
  
      def _RESTORE : InstSI <
        (outs vgpr_class:$dst),
        (ins i32imm:$frame_idx, SReg_128:$scratch_rsrc, SReg_32:$scratch_offset),
        "", []
-    >;
+    > {
+      let mayStore = 0;
+      let mayLoad = 1;
+    }
    } // End UseNamedOperandTable = 1, VGPRSpill = 1
  }
  
@@ -2802,10 +2834,6 @@ class DSAtomicRetPat<DS inst, ValueType vt, PatFrag frag> : Pat <
  // -1. For the non-rtn variants, the manual says it does
  // DS[A] = (DS[A] >= D0) ? 0 : DS[A] + 1, and setting D0 to uint_max
  // will always do the increment so I'm assuming it's the same.
-//
-// We also load this -1 with s_mov_b32 / s_mov_b64 even though this
-// needs to be a VGPR. The SGPR copy pass will fix this, and it's
-// easier since there is no v_mov_b64.
  class DSAtomicIncRetPat<DS inst, ValueType vt,
                          Instruction LoadImm, PatFrag frag> : Pat <
    (frag (DS1Addr1Offset i32:$ptr, i32:$offset), (vt 1)),
@@ -2821,9 +2849,9 @@ class DSAtomicCmpXChg <DS inst, ValueType vt, PatFrag frag> : Pat <
  
  // 32-bit atomics.
  def : DSAtomicIncRetPat<DS_INC_RTN_U32, i32,
-                        S_MOV_B32, si_atomic_load_add_local>;
+                        V_MOV_B32_e32, si_atomic_load_add_local>;
  def : DSAtomicIncRetPat<DS_DEC_RTN_U32, i32,
-                        S_MOV_B32, si_atomic_load_sub_local>;
+                        V_MOV_B32_e32, si_atomic_load_sub_local>;
  
  def : DSAtomicRetPat<DS_WRXCHG_RTN_B32, i32, si_atomic_swap_local>;
  def : DSAtomicRetPat<DS_ADD_RTN_U32, i32, si_atomic_load_add_local>;
@@ -2840,9 +2868,9 @@ def : DSAtomicCmpXChg<DS_CMPST_RTN_B32, i32, si_atomic_cmp_swap_32_local>;
  
  // 64-bit atomics.
  def : DSAtomicIncRetPat<DS_INC_RTN_U64, i64,
-                        S_MOV_B64, si_atomic_load_add_local>;
+                        V_MOV_B64_PSEUDO, si_atomic_load_add_local>;
  def : DSAtomicIncRetPat<DS_DEC_RTN_U64, i64,
-                        S_MOV_B64, si_atomic_load_sub_local>;
+                        V_MOV_B64_PSEUDO, si_atomic_load_sub_local>;
  
  def : DSAtomicRetPat<DS_WRXCHG_RTN_B64, i64, si_atomic_swap_local>;
  def : DSAtomicRetPat<DS_ADD_RTN_U64, i64, si_atomic_load_add_local>;