AMDGPU/SI: Fold operands with sub-registers

author Nicolai Haehnle <nhaehnle@gmail.com>

Thu, 7 Jan 2016 17:10:29 +0000 (17:10 +0000)

committer Nicolai Haehnle <nhaehnle@gmail.com>

Thu, 7 Jan 2016 17:10:29 +0000 (17:10 +0000)
author Nicolai Haehnle <nhaehnle@gmail.com>
Thu, 7 Jan 2016 17:10:29 +0000 (17:10 +0000)
committer Nicolai Haehnle <nhaehnle@gmail.com>
Thu, 7 Jan 2016 17:10:29 +0000 (17:10 +0000)
diff --git a/lib/Target/AMDGPU/SIFixSGPRCopies.cpp b/lib/Target/AMDGPU/SIFixSGPRCopies.cpp

index 96e37c56624084da42aea8fd3d9e5878a6314b38..f59d9948f98ed2e27789fb9b2e67a3dee67ac6a2 100644 (file)
--- a/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
+++ b/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
@@ -215,7 +215,7 @@ static bool foldVGPRCopyIntoRegSequence(MachineInstr &MI,
  
    for (unsigned I = 1, N = MI.getNumOperands(); I != N; I += 2) {
      unsigned SrcReg = MI.getOperand(I).getReg();
  
    for (unsigned I = 1, N = MI.getNumOperands(); I != N; I += 2) {
      unsigned SrcReg = MI.getOperand(I).getReg();
-    unsigned SrcSubReg = MI.getOperand(I).getReg();
+    unsigned SrcSubReg = MI.getOperand(I).getSubReg();
  
      const TargetRegisterClass *SrcRC = MRI.getRegClass(SrcReg);
      assert(TRI->isSGPRClass(SrcRC) &&
  
      const TargetRegisterClass *SrcRC = MRI.getRegClass(SrcReg);
      assert(TRI->isSGPRClass(SrcRC) &&
diff --git a/lib/Target/AMDGPU/SIFoldOperands.cpp b/lib/Target/AMDGPU/SIFoldOperands.cpp

index 02a39307e74e793c7cf6f9a4510f5940fd3d1b1e..ccbf7c80f2a8d33ca41954fb5a35aa5821b114ba 100644 (file)
--- a/lib/Target/AMDGPU/SIFoldOperands.cpp
+++ b/lib/Target/AMDGPU/SIFoldOperands.cpp
@@ -334,13 +334,10 @@ bool SIFoldOperands::runOnMachineFunction(MachineFunction &MF) {
            !MRI.hasOneUse(MI.getOperand(0).getReg()))
          continue;
  
            !MRI.hasOneUse(MI.getOperand(0).getReg()))
          continue;
  
-      // FIXME: Fold operands with subregs.
        if (OpToFold.isReg() &&
        if (OpToFold.isReg() &&
-          (!TargetRegisterInfo::isVirtualRegister(OpToFold.getReg()) ||
-           OpToFold.getSubReg()))
+          !TargetRegisterInfo::isVirtualRegister(OpToFold.getReg()))
          continue;
  
          continue;
  
-
        // We need mutate the operands of new mov instructions to add implicit
        // uses of EXEC, but adding them invalidates the use_iterator, so defer
        // this.
        // We need mutate the operands of new mov instructions to add implicit
        // uses of EXEC, but adding them invalidates the use_iterator, so defer
        // this.
diff --git a/lib/Target/AMDGPU/SIInstrInfo.cpp b/lib/Target/AMDGPU/SIInstrInfo.cpp

index a08a5a8fed3612ab0c53868a9d3fc40be99caeaf..bd80756d5c8fb790a5aec60f0f80563313ac676b 100644 (file)
--- a/lib/Target/AMDGPU/SIInstrInfo.cpp
+++ b/lib/Target/AMDGPU/SIInstrInfo.cpp
@@ -1777,6 +1777,10 @@ bool SIInstrInfo::isLegalRegOperand(const MachineRegisterInfo &MRI,
      MRI.getRegClass(Reg) :
      RI.getPhysRegClass(Reg);
  
      MRI.getRegClass(Reg) :
      RI.getPhysRegClass(Reg);
  
+  const SIRegisterInfo *TRI =
+      static_cast<const SIRegisterInfo*>(MRI.getTargetRegisterInfo());
+  RC = TRI->getSubRegClass(RC, MO.getSubReg());
+
    // In order to be legal, the common sub-class must be equal to the
    // class of the current operand.  For example:
    //
    // In order to be legal, the common sub-class must be equal to the
    // class of the current operand.  For example:
    //
diff --git a/lib/Target/AMDGPU/SIRegisterInfo.cpp b/lib/Target/AMDGPU/SIRegisterInfo.cpp

index 017664f094caaaa6061aa788337ba187f2d475bc..2d68b8b5df0e2e9c4fe2eb69e93ff234a58a6b96 100644 (file)
--- a/lib/Target/AMDGPU/SIRegisterInfo.cpp
+++ b/lib/Target/AMDGPU/SIRegisterInfo.cpp
@@ -464,12 +464,38 @@ const TargetRegisterClass *SIRegisterInfo::getSubRegClass(
    if (SubIdx == AMDGPU::NoSubRegister)
      return RC;
  
    if (SubIdx == AMDGPU::NoSubRegister)
      return RC;
  
-  // If this register has a sub-register, we can safely assume it is a 32-bit
-  // register, because all of SI's sub-registers are 32-bit.
+  // We can assume that each lane corresponds to one 32-bit register.
+  unsigned Count = countPopulation(getSubRegIndexLaneMask(SubIdx));
    if (isSGPRClass(RC)) {
    if (isSGPRClass(RC)) {
-    return &AMDGPU::SGPR_32RegClass;
+    switch (Count) {
+    case 1:
+      return &AMDGPU::SGPR_32RegClass;
+    case 2:
+      return &AMDGPU::SReg_64RegClass;
+    case 4:
+      return &AMDGPU::SReg_128RegClass;
+    case 8:
+      return &AMDGPU::SReg_256RegClass;
+    case 16: /* fall-through */
+    default:
+      llvm_unreachable("Invalid sub-register class size");
+    }
    } else {
    } else {
-    return &AMDGPU::VGPR_32RegClass;
+    switch (Count) {
+    case 1:
+      return &AMDGPU::VGPR_32RegClass;
+    case 2:
+      return &AMDGPU::VReg_64RegClass;
+    case 3:
+      return &AMDGPU::VReg_96RegClass;
+    case 4:
+      return &AMDGPU::VReg_128RegClass;
+    case 8:
+      return &AMDGPU::VReg_256RegClass;
+    case 16: /* fall-through */
+    default:
+      llvm_unreachable("Invalid sub-register class size");
+    }
    }
  }
  
    }
  }
  
diff --git a/test/CodeGen/AMDGPU/fmin_legacy.ll b/test/CodeGen/AMDGPU/fmin_legacy.ll

index 52fc3d0d251a497ba035e311eb9cf2374bc4ef9a..69a0a520a476c53741d728a61bc96f731435fcbe 100644 (file)
--- a/test/CodeGen/AMDGPU/fmin_legacy.ll
+++ b/test/CodeGen/AMDGPU/fmin_legacy.ll
@@ -8,8 +8,8 @@ declare i32 @llvm.r600.read.tidig.x() #1
  
  ; FUNC-LABEL: @test_fmin_legacy_f32
  ; EG: MIN *
  
  ; FUNC-LABEL: @test_fmin_legacy_f32
  ; EG: MIN *
-; SI-SAFE: v_min_legacy_f32_e32
-; SI-NONAN: v_min_f32_e32
+; SI-SAFE: v_min_legacy_f32_e64
+; SI-NONAN: v_min_f32_e64
  define void @test_fmin_legacy_f32(<4 x float> addrspace(1)* %out, <4 x float> inreg %reg0) #0 {
     %r0 = extractelement <4 x float> %reg0, i32 0
     %r1 = extractelement <4 x float> %reg0, i32 1
  define void @test_fmin_legacy_f32(<4 x float> addrspace(1)* %out, <4 x float> inreg %reg0) #0 {
     %r0 = extractelement <4 x float> %reg0, i32 0
     %r1 = extractelement <4 x float> %reg0, i32 1
diff --git a/test/CodeGen/AMDGPU/fsub.ll b/test/CodeGen/AMDGPU/fsub.ll

index dfe41cb5b11110fb06ed394ec7642d3b34429400..38d573258a5e29461210219798a869df04beebb5 100644 (file)
--- a/test/CodeGen/AMDGPU/fsub.ll
+++ b/test/CodeGen/AMDGPU/fsub.ll
@@ -32,9 +32,8 @@ declare void @llvm.AMDGPU.store.output(float, i32)
  ; R600-DAG: ADD {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, -KC0[3].Z
  ; R600-DAG: ADD {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, -KC0[3].Y
  
  ; R600-DAG: ADD {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, -KC0[3].Z
  ; R600-DAG: ADD {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, -KC0[3].Y
  
-; FIXME: Should be using SGPR directly for first operand
-; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
-; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
+; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
+; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
  define void @fsub_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) {
    %sub = fsub <2 x float> %a, %b
    store <2 x float> %sub, <2 x float> addrspace(1)* %out, align 8
  define void @fsub_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) {
    %sub = fsub <2 x float> %a, %b
    store <2 x float> %sub, <2 x float> addrspace(1)* %out, align 8
@@ -60,13 +59,11 @@ define void @v_fsub_v4f32(<4 x float> addrspace(1)* %out, <4 x float> addrspace(
    ret void
  }
  
    ret void
  }
  
-; FIXME: Should be using SGPR directly for first operand
-
  ; FUNC-LABEL: {{^}}s_fsub_v4f32:
  ; FUNC-LABEL: {{^}}s_fsub_v4f32:
-; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
-; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
-; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
-; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
+; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
+; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
+; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
+; SI: v_subrev_f32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
  ; SI: s_endpgm
  define void @s_fsub_v4f32(<4 x float> addrspace(1)* %out, <4 x float> %a, <4 x float> %b) {
    %result = fsub <4 x float> %a, %b
  ; SI: s_endpgm
  define void @s_fsub_v4f32(<4 x float> addrspace(1)* %out, <4 x float> %a, <4 x float> %b) {
    %result = fsub <4 x float> %a, %b
diff --git a/test/CodeGen/AMDGPU/llvm.round.f64.ll b/test/CodeGen/AMDGPU/llvm.round.f64.ll

index 6b365dc09e2a9e21da81501a57ba59122f0b509c..98afbeee93e6cf9d58ccc569d0954ae6986e2eed 100644 (file)
--- a/test/CodeGen/AMDGPU/llvm.round.f64.ll
+++ b/test/CodeGen/AMDGPU/llvm.round.f64.ll
@@ -21,7 +21,7 @@ define void @round_f64(double addrspace(1)* %out, double %x) #0 {
  ; SI-DAG: v_cmp_eq_i32
  
  ; SI-DAG: s_mov_b32 [[BFIMASK:s[0-9]+]], 0x7fffffff
  ; SI-DAG: v_cmp_eq_i32
  
  ; SI-DAG: s_mov_b32 [[BFIMASK:s[0-9]+]], 0x7fffffff
-; SI-DAG: v_cmp_gt_i32_e32
+; SI-DAG: v_cmp_gt_i32
  ; SI-DAG: v_bfi_b32 [[COPYSIGN:v[0-9]+]], [[BFIMASK]]
  
  ; SI: buffer_store_dwordx2
  ; SI-DAG: v_bfi_b32 [[COPYSIGN:v[0-9]+]], [[BFIMASK]]
  
  ; SI: buffer_store_dwordx2
author	Nicolai Haehnle <nhaehnle@gmail.com>
	Thu, 7 Jan 2016 17:10:29 +0000 (17:10 +0000)
committer	Nicolai Haehnle <nhaehnle@gmail.com>
	Thu, 7 Jan 2016 17:10:29 +0000 (17:10 +0000)
lib/Target/AMDGPU/SIFixSGPRCopies.cpp		patch \| blob \| history
lib/Target/AMDGPU/SIFoldOperands.cpp		patch \| blob \| history
lib/Target/AMDGPU/SIInstrInfo.cpp		patch \| blob \| history
lib/Target/AMDGPU/SIRegisterInfo.cpp		patch \| blob \| history
test/CodeGen/AMDGPU/fmin_legacy.ll		patch \| blob \| history
test/CodeGen/AMDGPU/fsub.ll		patch \| blob \| history
test/CodeGen/AMDGPU/llvm.round.f64.ll		patch \| blob \| history