AMDGPU: Remove dead code
[oota-llvm.git] / lib / Target / AMDGPU / SIRegisterInfo.cpp
1 //===-- SIRegisterInfo.cpp - SI Register Information ---------------------===//
2 //
3 //                     The LLVM Compiler Infrastructure
4 //
5 // This file is distributed under the University of Illinois Open Source
6 // License. See LICENSE.TXT for details.
7 //
8 //===----------------------------------------------------------------------===//
9 //
10 /// \file
11 /// \brief SI implementation of the TargetRegisterInfo class.
12 //
13 //===----------------------------------------------------------------------===//
14
15
16 #include "SIRegisterInfo.h"
17 #include "SIInstrInfo.h"
18 #include "SIMachineFunctionInfo.h"
19 #include "llvm/CodeGen/MachineFrameInfo.h"
20 #include "llvm/CodeGen/MachineInstrBuilder.h"
21 #include "llvm/CodeGen/RegisterScavenging.h"
22 #include "llvm/IR/Function.h"
23 #include "llvm/IR/LLVMContext.h"
24
25 using namespace llvm;
26
27 SIRegisterInfo::SIRegisterInfo() : AMDGPURegisterInfo() {}
28
29 void SIRegisterInfo::reserveRegisterTuples(BitVector &Reserved, unsigned Reg) const {
30   MCRegAliasIterator R(Reg, this, true);
31
32   for (; R.isValid(); ++R)
33     Reserved.set(*R);
34 }
35
36 BitVector SIRegisterInfo::getReservedRegs(const MachineFunction &MF) const {
37   BitVector Reserved(getNumRegs());
38   Reserved.set(AMDGPU::INDIRECT_BASE_ADDR);
39
40   // EXEC_LO and EXEC_HI could be allocated and used as regular register, but
41   // this seems likely to result in bugs, so I'm marking them as reserved.
42   reserveRegisterTuples(Reserved, AMDGPU::EXEC);
43   reserveRegisterTuples(Reserved, AMDGPU::FLAT_SCR);
44
45   // Reserve some VGPRs to use as temp registers in case we have to spill VGPRs
46   reserveRegisterTuples(Reserved, AMDGPU::VGPR254);
47   reserveRegisterTuples(Reserved, AMDGPU::VGPR255);
48
49   // Tonga and Iceland can only allocate a fixed number of SGPRs due
50   // to a hw bug.
51   if (MF.getSubtarget<AMDGPUSubtarget>().hasSGPRInitBug()) {
52     unsigned NumSGPRs = AMDGPU::SGPR_32RegClass.getNumRegs();
53     // Reserve some SGPRs for FLAT_SCRATCH and VCC (4 SGPRs).
54     // Assume XNACK_MASK is unused.
55     unsigned Limit = AMDGPUSubtarget::FIXED_SGPR_COUNT_FOR_INIT_BUG - 4;
56
57     for (unsigned i = Limit; i < NumSGPRs; ++i) {
58       unsigned Reg = AMDGPU::SGPR_32RegClass.getRegister(i);
59       reserveRegisterTuples(Reserved, Reg);
60     }
61   }
62
63   return Reserved;
64 }
65
66 unsigned SIRegisterInfo::getRegPressureSetLimit(const MachineFunction &MF,
67                                                 unsigned Idx) const {
68
69   const AMDGPUSubtarget &STI = MF.getSubtarget<AMDGPUSubtarget>();
70   // FIXME: We should adjust the max number of waves based on LDS size.
71   unsigned SGPRLimit = getNumSGPRsAllowed(STI.getGeneration(),
72                                           STI.getMaxWavesPerCU());
73   unsigned VGPRLimit = getNumVGPRsAllowed(STI.getMaxWavesPerCU());
74
75   for (regclass_iterator I = regclass_begin(), E = regclass_end();
76        I != E; ++I) {
77
78     unsigned NumSubRegs = std::max((int)(*I)->getSize() / 4, 1);
79     unsigned Limit;
80
81     if (isSGPRClass(*I)) {
82       Limit = SGPRLimit / NumSubRegs;
83     } else {
84       Limit = VGPRLimit / NumSubRegs;
85     }
86
87     const int *Sets = getRegClassPressureSets(*I);
88     assert(Sets);
89     for (unsigned i = 0; Sets[i] != -1; ++i) {
90             if (Sets[i] == (int)Idx)
91         return Limit;
92     }
93   }
94   return 256;
95 }
96
97 bool SIRegisterInfo::requiresRegisterScavenging(const MachineFunction &Fn) const {
98   return Fn.getFrameInfo()->hasStackObjects();
99 }
100
101 static unsigned getNumSubRegsForSpillOp(unsigned Op) {
102
103   switch (Op) {
104   case AMDGPU::SI_SPILL_S512_SAVE:
105   case AMDGPU::SI_SPILL_S512_RESTORE:
106   case AMDGPU::SI_SPILL_V512_SAVE:
107   case AMDGPU::SI_SPILL_V512_RESTORE:
108     return 16;
109   case AMDGPU::SI_SPILL_S256_SAVE:
110   case AMDGPU::SI_SPILL_S256_RESTORE:
111   case AMDGPU::SI_SPILL_V256_SAVE:
112   case AMDGPU::SI_SPILL_V256_RESTORE:
113     return 8;
114   case AMDGPU::SI_SPILL_S128_SAVE:
115   case AMDGPU::SI_SPILL_S128_RESTORE:
116   case AMDGPU::SI_SPILL_V128_SAVE:
117   case AMDGPU::SI_SPILL_V128_RESTORE:
118     return 4;
119   case AMDGPU::SI_SPILL_V96_SAVE:
120   case AMDGPU::SI_SPILL_V96_RESTORE:
121     return 3;
122   case AMDGPU::SI_SPILL_S64_SAVE:
123   case AMDGPU::SI_SPILL_S64_RESTORE:
124   case AMDGPU::SI_SPILL_V64_SAVE:
125   case AMDGPU::SI_SPILL_V64_RESTORE:
126     return 2;
127   case AMDGPU::SI_SPILL_S32_SAVE:
128   case AMDGPU::SI_SPILL_S32_RESTORE:
129   case AMDGPU::SI_SPILL_V32_SAVE:
130   case AMDGPU::SI_SPILL_V32_RESTORE:
131     return 1;
132   default: llvm_unreachable("Invalid spill opcode");
133   }
134 }
135
136 void SIRegisterInfo::buildScratchLoadStore(MachineBasicBlock::iterator MI,
137                                            unsigned LoadStoreOp,
138                                            unsigned Value,
139                                            unsigned ScratchRsrcReg,
140                                            unsigned ScratchOffset,
141                                            int64_t Offset,
142                                            RegScavenger *RS) const {
143
144   MachineBasicBlock *MBB = MI->getParent();
145   const MachineFunction *MF = MI->getParent()->getParent();
146   const SIInstrInfo *TII =
147       static_cast<const SIInstrInfo *>(MF->getSubtarget().getInstrInfo());
148   LLVMContext &Ctx = MF->getFunction()->getContext();
149   DebugLoc DL = MI->getDebugLoc();
150   bool IsLoad = TII->get(LoadStoreOp).mayLoad();
151
152   bool RanOutOfSGPRs = false;
153   unsigned SOffset = ScratchOffset;
154
155   unsigned NumSubRegs = getNumSubRegsForSpillOp(MI->getOpcode());
156   unsigned Size = NumSubRegs * 4;
157
158   if (!isUInt<12>(Offset + Size)) {
159     SOffset = RS->scavengeRegister(&AMDGPU::SGPR_32RegClass, MI, 0);
160     if (SOffset == AMDGPU::NoRegister) {
161       RanOutOfSGPRs = true;
162       SOffset = AMDGPU::SGPR0;
163     }
164     BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_ADD_U32), SOffset)
165             .addReg(ScratchOffset)
166             .addImm(Offset);
167     Offset = 0;
168   }
169
170   if (RanOutOfSGPRs)
171     Ctx.emitError("Ran out of SGPRs for spilling VGPRS");
172
173   for (unsigned i = 0, e = NumSubRegs; i != e; ++i, Offset += 4) {
174     unsigned SubReg = NumSubRegs > 1 ?
175         getPhysRegSubReg(Value, &AMDGPU::VGPR_32RegClass, i) :
176         Value;
177     bool IsKill = (i == e - 1);
178
179     BuildMI(*MBB, MI, DL, TII->get(LoadStoreOp))
180       .addReg(SubReg, getDefRegState(IsLoad))
181       .addReg(ScratchRsrcReg, getKillRegState(IsKill))
182       .addReg(SOffset)
183       .addImm(Offset)
184       .addImm(0) // glc
185       .addImm(0) // slc
186       .addImm(0) // tfe
187       .addReg(Value, RegState::Implicit | getDefRegState(IsLoad))
188       .setMemRefs(MI->memoperands_begin(), MI->memoperands_end());
189   }
190 }
191
192 void SIRegisterInfo::eliminateFrameIndex(MachineBasicBlock::iterator MI,
193                                         int SPAdj, unsigned FIOperandNum,
194                                         RegScavenger *RS) const {
195   MachineFunction *MF = MI->getParent()->getParent();
196   MachineBasicBlock *MBB = MI->getParent();
197   SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
198   MachineFrameInfo *FrameInfo = MF->getFrameInfo();
199   const SIInstrInfo *TII =
200       static_cast<const SIInstrInfo *>(MF->getSubtarget().getInstrInfo());
201   DebugLoc DL = MI->getDebugLoc();
202
203   MachineOperand &FIOp = MI->getOperand(FIOperandNum);
204   int Index = MI->getOperand(FIOperandNum).getIndex();
205
206   switch (MI->getOpcode()) {
207     // SGPR register spill
208     case AMDGPU::SI_SPILL_S512_SAVE:
209     case AMDGPU::SI_SPILL_S256_SAVE:
210     case AMDGPU::SI_SPILL_S128_SAVE:
211     case AMDGPU::SI_SPILL_S64_SAVE:
212     case AMDGPU::SI_SPILL_S32_SAVE: {
213       unsigned NumSubRegs = getNumSubRegsForSpillOp(MI->getOpcode());
214
215       for (unsigned i = 0, e = NumSubRegs; i < e; ++i) {
216         unsigned SubReg = getPhysRegSubReg(MI->getOperand(0).getReg(),
217                                            &AMDGPU::SGPR_32RegClass, i);
218         struct SIMachineFunctionInfo::SpilledReg Spill =
219             MFI->getSpilledReg(MF, Index, i);
220
221         if (Spill.VGPR == AMDGPU::NoRegister) {
222            LLVMContext &Ctx = MF->getFunction()->getContext();
223            Ctx.emitError("Ran out of VGPRs for spilling SGPR");
224         }
225
226         BuildMI(*MBB, MI, DL,
227                 TII->getMCOpcodeFromPseudo(AMDGPU::V_WRITELANE_B32),
228                 Spill.VGPR)
229                 .addReg(SubReg)
230                 .addImm(Spill.Lane);
231
232       }
233       MI->eraseFromParent();
234       break;
235     }
236
237     // SGPR register restore
238     case AMDGPU::SI_SPILL_S512_RESTORE:
239     case AMDGPU::SI_SPILL_S256_RESTORE:
240     case AMDGPU::SI_SPILL_S128_RESTORE:
241     case AMDGPU::SI_SPILL_S64_RESTORE:
242     case AMDGPU::SI_SPILL_S32_RESTORE: {
243       unsigned NumSubRegs = getNumSubRegsForSpillOp(MI->getOpcode());
244
245       for (unsigned i = 0, e = NumSubRegs; i < e; ++i) {
246         unsigned SubReg = getPhysRegSubReg(MI->getOperand(0).getReg(),
247                                            &AMDGPU::SGPR_32RegClass, i);
248         struct SIMachineFunctionInfo::SpilledReg Spill =
249             MFI->getSpilledReg(MF, Index, i);
250
251         if (Spill.VGPR == AMDGPU::NoRegister) {
252            LLVMContext &Ctx = MF->getFunction()->getContext();
253            Ctx.emitError("Ran out of VGPRs for spilling SGPR");
254         }
255
256         BuildMI(*MBB, MI, DL,
257                 TII->getMCOpcodeFromPseudo(AMDGPU::V_READLANE_B32),
258                 SubReg)
259                 .addReg(Spill.VGPR)
260                 .addImm(Spill.Lane)
261                 .addReg(MI->getOperand(0).getReg(), RegState::ImplicitDefine);
262       }
263
264       // TODO: only do this when it is needed
265       switch (MF->getSubtarget<AMDGPUSubtarget>().getGeneration()) {
266       case AMDGPUSubtarget::SOUTHERN_ISLANDS:
267         // "VALU writes SGPR" -> "SMRD reads that SGPR" needs "S_NOP 3" on SI
268         TII->insertNOPs(MI, 3);
269         break;
270       case AMDGPUSubtarget::SEA_ISLANDS:
271         break;
272       default: // VOLCANIC_ISLANDS and later
273         // "VALU writes SGPR -> VMEM reads that SGPR" needs "S_NOP 4" on VI
274         // and later. This also applies to VALUs which write VCC, but we're
275         // unlikely to see VMEM use VCC.
276         TII->insertNOPs(MI, 4);
277       }
278
279       MI->eraseFromParent();
280       break;
281     }
282
283     // VGPR register spill
284     case AMDGPU::SI_SPILL_V512_SAVE:
285     case AMDGPU::SI_SPILL_V256_SAVE:
286     case AMDGPU::SI_SPILL_V128_SAVE:
287     case AMDGPU::SI_SPILL_V96_SAVE:
288     case AMDGPU::SI_SPILL_V64_SAVE:
289     case AMDGPU::SI_SPILL_V32_SAVE:
290       buildScratchLoadStore(MI, AMDGPU::BUFFER_STORE_DWORD_OFFSET,
291             TII->getNamedOperand(*MI, AMDGPU::OpName::src)->getReg(),
292             TII->getNamedOperand(*MI, AMDGPU::OpName::scratch_rsrc)->getReg(),
293             TII->getNamedOperand(*MI, AMDGPU::OpName::scratch_offset)->getReg(),
294              FrameInfo->getObjectOffset(Index), RS);
295       MI->eraseFromParent();
296       break;
297     case AMDGPU::SI_SPILL_V32_RESTORE:
298     case AMDGPU::SI_SPILL_V64_RESTORE:
299     case AMDGPU::SI_SPILL_V96_RESTORE:
300     case AMDGPU::SI_SPILL_V128_RESTORE:
301     case AMDGPU::SI_SPILL_V256_RESTORE:
302     case AMDGPU::SI_SPILL_V512_RESTORE: {
303       buildScratchLoadStore(MI, AMDGPU::BUFFER_LOAD_DWORD_OFFSET,
304             TII->getNamedOperand(*MI, AMDGPU::OpName::dst)->getReg(),
305             TII->getNamedOperand(*MI, AMDGPU::OpName::scratch_rsrc)->getReg(),
306             TII->getNamedOperand(*MI, AMDGPU::OpName::scratch_offset)->getReg(),
307             FrameInfo->getObjectOffset(Index), RS);
308       MI->eraseFromParent();
309       break;
310     }
311
312     default: {
313       int64_t Offset = FrameInfo->getObjectOffset(Index);
314       FIOp.ChangeToImmediate(Offset);
315       if (!TII->isImmOperandLegal(MI, FIOperandNum, FIOp)) {
316         unsigned TmpReg = RS->scavengeRegister(&AMDGPU::VGPR_32RegClass, MI, SPAdj);
317         BuildMI(*MBB, MI, MI->getDebugLoc(),
318                 TII->get(AMDGPU::V_MOV_B32_e32), TmpReg)
319                 .addImm(Offset);
320         FIOp.ChangeToRegister(TmpReg, false, false, true);
321       }
322     }
323   }
324 }
325
326 unsigned SIRegisterInfo::getHWRegIndex(unsigned Reg) const {
327   return getEncodingValue(Reg) & 0xff;
328 }
329
330 const TargetRegisterClass *SIRegisterInfo::getPhysRegClass(unsigned Reg) const {
331   assert(!TargetRegisterInfo::isVirtualRegister(Reg));
332
333   static const TargetRegisterClass *BaseClasses[] = {
334     &AMDGPU::VGPR_32RegClass,
335     &AMDGPU::SReg_32RegClass,
336     &AMDGPU::VReg_64RegClass,
337     &AMDGPU::SReg_64RegClass,
338     &AMDGPU::VReg_96RegClass,
339     &AMDGPU::VReg_128RegClass,
340     &AMDGPU::SReg_128RegClass,
341     &AMDGPU::VReg_256RegClass,
342     &AMDGPU::SReg_256RegClass,
343     &AMDGPU::VReg_512RegClass,
344     &AMDGPU::SReg_512RegClass
345   };
346
347   for (const TargetRegisterClass *BaseClass : BaseClasses) {
348     if (BaseClass->contains(Reg)) {
349       return BaseClass;
350     }
351   }
352   return nullptr;
353 }
354
355 bool SIRegisterInfo::hasVGPRs(const TargetRegisterClass *RC) const {
356   return getCommonSubClass(&AMDGPU::VGPR_32RegClass, RC) ||
357          getCommonSubClass(&AMDGPU::VReg_64RegClass, RC) ||
358          getCommonSubClass(&AMDGPU::VReg_96RegClass, RC) ||
359          getCommonSubClass(&AMDGPU::VReg_128RegClass, RC) ||
360          getCommonSubClass(&AMDGPU::VReg_256RegClass, RC) ||
361          getCommonSubClass(&AMDGPU::VReg_512RegClass, RC);
362 }
363
364 const TargetRegisterClass *SIRegisterInfo::getEquivalentVGPRClass(
365                                          const TargetRegisterClass *SRC) const {
366     if (hasVGPRs(SRC)) {
367       return SRC;
368     } else if (getCommonSubClass(SRC, &AMDGPU::SGPR_32RegClass)) {
369       return &AMDGPU::VGPR_32RegClass;
370     } else if (getCommonSubClass(SRC, &AMDGPU::SGPR_64RegClass)) {
371       return &AMDGPU::VReg_64RegClass;
372     } else if (getCommonSubClass(SRC, &AMDGPU::SReg_128RegClass)) {
373       return &AMDGPU::VReg_128RegClass;
374     } else if (getCommonSubClass(SRC, &AMDGPU::SReg_256RegClass)) {
375       return &AMDGPU::VReg_256RegClass;
376     } else if (getCommonSubClass(SRC, &AMDGPU::SReg_512RegClass)) {
377       return &AMDGPU::VReg_512RegClass;
378     }
379     return nullptr;
380 }
381
382 const TargetRegisterClass *SIRegisterInfo::getSubRegClass(
383                          const TargetRegisterClass *RC, unsigned SubIdx) const {
384   if (SubIdx == AMDGPU::NoSubRegister)
385     return RC;
386
387   // If this register has a sub-register, we can safely assume it is a 32-bit
388   // register, because all of SI's sub-registers are 32-bit.
389   if (isSGPRClass(RC)) {
390     return &AMDGPU::SGPR_32RegClass;
391   } else {
392     return &AMDGPU::VGPR_32RegClass;
393   }
394 }
395
396 unsigned SIRegisterInfo::getPhysRegSubReg(unsigned Reg,
397                                           const TargetRegisterClass *SubRC,
398                                           unsigned Channel) const {
399
400   switch (Reg) {
401     case AMDGPU::VCC:
402       switch(Channel) {
403         case 0: return AMDGPU::VCC_LO;
404         case 1: return AMDGPU::VCC_HI;
405         default: llvm_unreachable("Invalid SubIdx for VCC");
406       }
407
408   case AMDGPU::FLAT_SCR:
409     switch (Channel) {
410     case 0:
411       return AMDGPU::FLAT_SCR_LO;
412     case 1:
413       return AMDGPU::FLAT_SCR_HI;
414     default:
415       llvm_unreachable("Invalid SubIdx for FLAT_SCR");
416     }
417     break;
418
419   case AMDGPU::EXEC:
420     switch (Channel) {
421     case 0:
422       return AMDGPU::EXEC_LO;
423     case 1:
424       return AMDGPU::EXEC_HI;
425     default:
426       llvm_unreachable("Invalid SubIdx for EXEC");
427     }
428     break;
429   }
430
431   const TargetRegisterClass *RC = getPhysRegClass(Reg);
432   // 32-bit registers don't have sub-registers, so we can just return the
433   // Reg.  We need to have this check here, because the calculation below
434   // using getHWRegIndex() will fail with special 32-bit registers like
435   // VCC_LO, VCC_HI, EXEC_LO, EXEC_HI and M0.
436   if (RC->getSize() == 4) {
437     assert(Channel == 0);
438     return Reg;
439   }
440
441   unsigned Index = getHWRegIndex(Reg);
442   return SubRC->getRegister(Index + Channel);
443 }
444
445 bool SIRegisterInfo::opCanUseLiteralConstant(unsigned OpType) const {
446   return OpType == AMDGPU::OPERAND_REG_IMM32;
447 }
448
449 bool SIRegisterInfo::opCanUseInlineConstant(unsigned OpType) const {
450   if (opCanUseLiteralConstant(OpType))
451     return true;
452
453   return OpType == AMDGPU::OPERAND_REG_INLINE_C;
454 }
455
456 unsigned SIRegisterInfo::getPreloadedValue(const MachineFunction &MF,
457                                            enum PreloadedValue Value) const {
458
459   const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
460   switch (Value) {
461   case SIRegisterInfo::TGID_X:
462     return AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 0);
463   case SIRegisterInfo::TGID_Y:
464     return AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 1);
465   case SIRegisterInfo::TGID_Z:
466     return AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 2);
467   case SIRegisterInfo::SCRATCH_WAVE_OFFSET:
468     if (MFI->getShaderType() != ShaderType::COMPUTE)
469       return MFI->ScratchOffsetReg;
470     return AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 4);
471   case SIRegisterInfo::SCRATCH_PTR:
472     return AMDGPU::SGPR2_SGPR3;
473   case SIRegisterInfo::INPUT_PTR:
474     return AMDGPU::SGPR0_SGPR1;
475   case SIRegisterInfo::TIDIG_X:
476     return AMDGPU::VGPR0;
477   case SIRegisterInfo::TIDIG_Y:
478     return AMDGPU::VGPR1;
479   case SIRegisterInfo::TIDIG_Z:
480     return AMDGPU::VGPR2;
481   }
482   llvm_unreachable("unexpected preloaded value type");
483 }
484
485 /// \brief Returns a register that is not used at any point in the function.
486 ///        If all registers are used, then this function will return
487 //         AMDGPU::NoRegister.
488 unsigned SIRegisterInfo::findUnusedRegister(const MachineRegisterInfo &MRI,
489                                            const TargetRegisterClass *RC) const {
490   for (unsigned Reg : *RC)
491     if (!MRI.isPhysRegUsed(Reg))
492       return Reg;
493   return AMDGPU::NoRegister;
494 }
495
496 unsigned SIRegisterInfo::getNumVGPRsAllowed(unsigned WaveCount) const {
497   switch(WaveCount) {
498     case 10: return 24;
499     case 9:  return 28;
500     case 8:  return 32;
501     case 7:  return 36;
502     case 6:  return 40;
503     case 5:  return 48;
504     case 4:  return 64;
505     case 3:  return 84;
506     case 2:  return 128;
507     default: return 256;
508   }
509 }
510
511 unsigned SIRegisterInfo::getNumSGPRsAllowed(AMDGPUSubtarget::Generation gen,
512                                             unsigned WaveCount) const {
513   if (gen >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
514     switch (WaveCount) {
515       case 10: return 80;
516       case 9:  return 80;
517       case 8:  return 96;
518       default: return 102;
519     }
520   } else {
521     switch(WaveCount) {
522       case 10: return 48;
523       case 9:  return 56;
524       case 8:  return 64;
525       case 7:  return 72;
526       case 6:  return 80;
527       case 5:  return 96;
528       default: return 103;
529     }
530   }
531 }