AMDGPU: Set mem operands for spill instructions
[oota-llvm.git] / lib / Target / AMDGPU / SIRegisterInfo.cpp
1 //===-- SIRegisterInfo.cpp - SI Register Information ---------------------===//
2 //
3 //                     The LLVM Compiler Infrastructure
4 //
5 // This file is distributed under the University of Illinois Open Source
6 // License. See LICENSE.TXT for details.
7 //
8 //===----------------------------------------------------------------------===//
9 //
10 /// \file
11 /// \brief SI implementation of the TargetRegisterInfo class.
12 //
13 //===----------------------------------------------------------------------===//
14
15
16 #include "SIRegisterInfo.h"
17 #include "SIInstrInfo.h"
18 #include "SIMachineFunctionInfo.h"
19 #include "llvm/CodeGen/MachineFrameInfo.h"
20 #include "llvm/CodeGen/MachineInstrBuilder.h"
21 #include "llvm/CodeGen/RegisterScavenging.h"
22 #include "llvm/IR/Function.h"
23 #include "llvm/IR/LLVMContext.h"
24
25 using namespace llvm;
26
27 SIRegisterInfo::SIRegisterInfo() : AMDGPURegisterInfo() {}
28
29 void SIRegisterInfo::reserveRegisterTuples(BitVector &Reserved, unsigned Reg) const {
30   MCRegAliasIterator R(Reg, this, true);
31
32   for (; R.isValid(); ++R)
33     Reserved.set(*R);
34 }
35
36 BitVector SIRegisterInfo::getReservedRegs(const MachineFunction &MF) const {
37   BitVector Reserved(getNumRegs());
38   Reserved.set(AMDGPU::INDIRECT_BASE_ADDR);
39
40   // EXEC_LO and EXEC_HI could be allocated and used as regular register, but
41   // this seems likely to result in bugs, so I'm marking them as reserved.
42   reserveRegisterTuples(Reserved, AMDGPU::EXEC);
43   reserveRegisterTuples(Reserved, AMDGPU::FLAT_SCR);
44
45   // Reserve some VGPRs to use as temp registers in case we have to spill VGPRs
46   reserveRegisterTuples(Reserved, AMDGPU::VGPR254);
47   reserveRegisterTuples(Reserved, AMDGPU::VGPR255);
48
49   // Tonga and Iceland can only allocate a fixed number of SGPRs due
50   // to a hw bug.
51   if (MF.getSubtarget<AMDGPUSubtarget>().hasSGPRInitBug()) {
52     unsigned NumSGPRs = AMDGPU::SGPR_32RegClass.getNumRegs();
53     // Reserve some SGPRs for FLAT_SCRATCH and VCC (4 SGPRs).
54     // Assume XNACK_MASK is unused.
55     unsigned Limit = AMDGPUSubtarget::FIXED_SGPR_COUNT_FOR_INIT_BUG - 4;
56
57     for (unsigned i = Limit; i < NumSGPRs; ++i) {
58       unsigned Reg = AMDGPU::SGPR_32RegClass.getRegister(i);
59       reserveRegisterTuples(Reserved, Reg);
60     }
61   }
62
63   return Reserved;
64 }
65
66 unsigned SIRegisterInfo::getRegPressureSetLimit(const MachineFunction &MF,
67                                                 unsigned Idx) const {
68
69   const AMDGPUSubtarget &STI = MF.getSubtarget<AMDGPUSubtarget>();
70   // FIXME: We should adjust the max number of waves based on LDS size.
71   unsigned SGPRLimit = getNumSGPRsAllowed(STI.getGeneration(),
72                                           STI.getMaxWavesPerCU());
73   unsigned VGPRLimit = getNumVGPRsAllowed(STI.getMaxWavesPerCU());
74
75   for (regclass_iterator I = regclass_begin(), E = regclass_end();
76        I != E; ++I) {
77
78     unsigned NumSubRegs = std::max((int)(*I)->getSize() / 4, 1);
79     unsigned Limit;
80
81     if (isSGPRClass(*I)) {
82       Limit = SGPRLimit / NumSubRegs;
83     } else {
84       Limit = VGPRLimit / NumSubRegs;
85     }
86
87     const int *Sets = getRegClassPressureSets(*I);
88     assert(Sets);
89     for (unsigned i = 0; Sets[i] != -1; ++i) {
90             if (Sets[i] == (int)Idx)
91         return Limit;
92     }
93   }
94   return 256;
95 }
96
97 bool SIRegisterInfo::requiresRegisterScavenging(const MachineFunction &Fn) const {
98   return Fn.getFrameInfo()->hasStackObjects();
99 }
100
101 static unsigned getNumSubRegsForSpillOp(unsigned Op) {
102
103   switch (Op) {
104   case AMDGPU::SI_SPILL_S512_SAVE:
105   case AMDGPU::SI_SPILL_S512_RESTORE:
106   case AMDGPU::SI_SPILL_V512_SAVE:
107   case AMDGPU::SI_SPILL_V512_RESTORE:
108     return 16;
109   case AMDGPU::SI_SPILL_S256_SAVE:
110   case AMDGPU::SI_SPILL_S256_RESTORE:
111   case AMDGPU::SI_SPILL_V256_SAVE:
112   case AMDGPU::SI_SPILL_V256_RESTORE:
113     return 8;
114   case AMDGPU::SI_SPILL_S128_SAVE:
115   case AMDGPU::SI_SPILL_S128_RESTORE:
116   case AMDGPU::SI_SPILL_V128_SAVE:
117   case AMDGPU::SI_SPILL_V128_RESTORE:
118     return 4;
119   case AMDGPU::SI_SPILL_V96_SAVE:
120   case AMDGPU::SI_SPILL_V96_RESTORE:
121     return 3;
122   case AMDGPU::SI_SPILL_S64_SAVE:
123   case AMDGPU::SI_SPILL_S64_RESTORE:
124   case AMDGPU::SI_SPILL_V64_SAVE:
125   case AMDGPU::SI_SPILL_V64_RESTORE:
126     return 2;
127   case AMDGPU::SI_SPILL_S32_SAVE:
128   case AMDGPU::SI_SPILL_S32_RESTORE:
129   case AMDGPU::SI_SPILL_V32_SAVE:
130   case AMDGPU::SI_SPILL_V32_RESTORE:
131     return 1;
132   default: llvm_unreachable("Invalid spill opcode");
133   }
134 }
135
136 void SIRegisterInfo::buildScratchLoadStore(MachineBasicBlock::iterator MI,
137                                            unsigned LoadStoreOp,
138                                            unsigned Value,
139                                            unsigned ScratchRsrcReg,
140                                            unsigned ScratchOffset,
141                                            int64_t Offset,
142                                            RegScavenger *RS) const {
143
144   MachineBasicBlock *MBB = MI->getParent();
145   const MachineFunction *MF = MI->getParent()->getParent();
146   const SIInstrInfo *TII =
147       static_cast<const SIInstrInfo *>(MF->getSubtarget().getInstrInfo());
148   LLVMContext &Ctx = MF->getFunction()->getContext();
149   DebugLoc DL = MI->getDebugLoc();
150   bool IsLoad = TII->get(LoadStoreOp).mayLoad();
151
152   bool RanOutOfSGPRs = false;
153   unsigned SOffset = ScratchOffset;
154
155   unsigned NumSubRegs = getNumSubRegsForSpillOp(MI->getOpcode());
156   unsigned Size = NumSubRegs * 4;
157
158   if (!isUInt<12>(Offset + Size)) {
159     SOffset = RS->scavengeRegister(&AMDGPU::SGPR_32RegClass, MI, 0);
160     if (SOffset == AMDGPU::NoRegister) {
161       RanOutOfSGPRs = true;
162       SOffset = AMDGPU::SGPR0;
163     }
164     BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_ADD_U32), SOffset)
165             .addReg(ScratchOffset)
166             .addImm(Offset);
167     Offset = 0;
168   }
169
170   if (RanOutOfSGPRs)
171     Ctx.emitError("Ran out of SGPRs for spilling VGPRS");
172
173   for (unsigned i = 0, e = NumSubRegs; i != e; ++i, Offset += 4) {
174     unsigned SubReg = NumSubRegs > 1 ?
175         getPhysRegSubReg(Value, &AMDGPU::VGPR_32RegClass, i) :
176         Value;
177     bool IsKill = (i == e - 1);
178
179     BuildMI(*MBB, MI, DL, TII->get(LoadStoreOp))
180       .addReg(SubReg, getDefRegState(IsLoad))
181       .addReg(ScratchRsrcReg, getKillRegState(IsKill))
182       .addReg(SOffset)
183       .addImm(Offset)
184       .addImm(0) // glc
185       .addImm(0) // slc
186       .addImm(0) // tfe
187       .addReg(Value, RegState::Implicit | getDefRegState(IsLoad))
188       .setMemRefs(MI->memoperands_begin(), MI->memoperands_end());
189   }
190 }
191
192 void SIRegisterInfo::eliminateFrameIndex(MachineBasicBlock::iterator MI,
193                                         int SPAdj, unsigned FIOperandNum,
194                                         RegScavenger *RS) const {
195   MachineFunction *MF = MI->getParent()->getParent();
196   MachineBasicBlock *MBB = MI->getParent();
197   SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
198   MachineFrameInfo *FrameInfo = MF->getFrameInfo();
199   const SIInstrInfo *TII =
200       static_cast<const SIInstrInfo *>(MF->getSubtarget().getInstrInfo());
201   DebugLoc DL = MI->getDebugLoc();
202
203   MachineOperand &FIOp = MI->getOperand(FIOperandNum);
204   int Index = MI->getOperand(FIOperandNum).getIndex();
205
206   switch (MI->getOpcode()) {
207     // SGPR register spill
208     case AMDGPU::SI_SPILL_S512_SAVE:
209     case AMDGPU::SI_SPILL_S256_SAVE:
210     case AMDGPU::SI_SPILL_S128_SAVE:
211     case AMDGPU::SI_SPILL_S64_SAVE:
212     case AMDGPU::SI_SPILL_S32_SAVE: {
213       unsigned NumSubRegs = getNumSubRegsForSpillOp(MI->getOpcode());
214
215       for (unsigned i = 0, e = NumSubRegs; i < e; ++i) {
216         unsigned SubReg = getPhysRegSubReg(MI->getOperand(0).getReg(),
217                                            &AMDGPU::SGPR_32RegClass, i);
218         struct SIMachineFunctionInfo::SpilledReg Spill =
219             MFI->getSpilledReg(MF, Index, i);
220
221         if (Spill.VGPR == AMDGPU::NoRegister) {
222            LLVMContext &Ctx = MF->getFunction()->getContext();
223            Ctx.emitError("Ran out of VGPRs for spilling SGPR");
224         }
225
226         BuildMI(*MBB, MI, DL,
227                 TII->getMCOpcodeFromPseudo(AMDGPU::V_WRITELANE_B32),
228                 Spill.VGPR)
229                 .addReg(SubReg)
230                 .addImm(Spill.Lane);
231
232       }
233       MI->eraseFromParent();
234       break;
235     }
236
237     // SGPR register restore
238     case AMDGPU::SI_SPILL_S512_RESTORE:
239     case AMDGPU::SI_SPILL_S256_RESTORE:
240     case AMDGPU::SI_SPILL_S128_RESTORE:
241     case AMDGPU::SI_SPILL_S64_RESTORE:
242     case AMDGPU::SI_SPILL_S32_RESTORE: {
243       unsigned NumSubRegs = getNumSubRegsForSpillOp(MI->getOpcode());
244
245       for (unsigned i = 0, e = NumSubRegs; i < e; ++i) {
246         unsigned SubReg = getPhysRegSubReg(MI->getOperand(0).getReg(),
247                                            &AMDGPU::SGPR_32RegClass, i);
248         struct SIMachineFunctionInfo::SpilledReg Spill =
249             MFI->getSpilledReg(MF, Index, i);
250
251         if (Spill.VGPR == AMDGPU::NoRegister) {
252            LLVMContext &Ctx = MF->getFunction()->getContext();
253            Ctx.emitError("Ran out of VGPRs for spilling SGPR");
254         }
255
256         BuildMI(*MBB, MI, DL,
257                 TII->getMCOpcodeFromPseudo(AMDGPU::V_READLANE_B32),
258                 SubReg)
259                 .addReg(Spill.VGPR)
260                 .addImm(Spill.Lane)
261                 .addReg(MI->getOperand(0).getReg(), RegState::ImplicitDefine);
262       }
263
264       // TODO: only do this when it is needed
265       switch (MF->getSubtarget<AMDGPUSubtarget>().getGeneration()) {
266       case AMDGPUSubtarget::SOUTHERN_ISLANDS:
267         // "VALU writes SGPR" -> "SMRD reads that SGPR" needs "S_NOP 3" on SI
268         TII->insertNOPs(MI, 3);
269         break;
270       case AMDGPUSubtarget::SEA_ISLANDS:
271         break;
272       default: // VOLCANIC_ISLANDS and later
273         // "VALU writes SGPR -> VMEM reads that SGPR" needs "S_NOP 4" on VI
274         // and later. This also applies to VALUs which write VCC, but we're
275         // unlikely to see VMEM use VCC.
276         TII->insertNOPs(MI, 4);
277       }
278
279       MI->eraseFromParent();
280       break;
281     }
282
283     // VGPR register spill
284     case AMDGPU::SI_SPILL_V512_SAVE:
285     case AMDGPU::SI_SPILL_V256_SAVE:
286     case AMDGPU::SI_SPILL_V128_SAVE:
287     case AMDGPU::SI_SPILL_V96_SAVE:
288     case AMDGPU::SI_SPILL_V64_SAVE:
289     case AMDGPU::SI_SPILL_V32_SAVE:
290       buildScratchLoadStore(MI, AMDGPU::BUFFER_STORE_DWORD_OFFSET,
291             TII->getNamedOperand(*MI, AMDGPU::OpName::src)->getReg(),
292             TII->getNamedOperand(*MI, AMDGPU::OpName::scratch_rsrc)->getReg(),
293             TII->getNamedOperand(*MI, AMDGPU::OpName::scratch_offset)->getReg(),
294              FrameInfo->getObjectOffset(Index), RS);
295       MI->eraseFromParent();
296       break;
297     case AMDGPU::SI_SPILL_V32_RESTORE:
298     case AMDGPU::SI_SPILL_V64_RESTORE:
299     case AMDGPU::SI_SPILL_V96_RESTORE:
300     case AMDGPU::SI_SPILL_V128_RESTORE:
301     case AMDGPU::SI_SPILL_V256_RESTORE:
302     case AMDGPU::SI_SPILL_V512_RESTORE: {
303       buildScratchLoadStore(MI, AMDGPU::BUFFER_LOAD_DWORD_OFFSET,
304             TII->getNamedOperand(*MI, AMDGPU::OpName::dst)->getReg(),
305             TII->getNamedOperand(*MI, AMDGPU::OpName::scratch_rsrc)->getReg(),
306             TII->getNamedOperand(*MI, AMDGPU::OpName::scratch_offset)->getReg(),
307             FrameInfo->getObjectOffset(Index), RS);
308       MI->eraseFromParent();
309       break;
310     }
311
312     default: {
313       int64_t Offset = FrameInfo->getObjectOffset(Index);
314       FIOp.ChangeToImmediate(Offset);
315       if (!TII->isImmOperandLegal(MI, FIOperandNum, FIOp)) {
316         unsigned TmpReg = RS->scavengeRegister(&AMDGPU::VGPR_32RegClass, MI, SPAdj);
317         BuildMI(*MBB, MI, MI->getDebugLoc(),
318                 TII->get(AMDGPU::V_MOV_B32_e32), TmpReg)
319                 .addImm(Offset);
320         FIOp.ChangeToRegister(TmpReg, false, false, true);
321       }
322     }
323   }
324 }
325
326 const TargetRegisterClass * SIRegisterInfo::getCFGStructurizerRegClass(
327                                                                    MVT VT) const {
328   switch(VT.SimpleTy) {
329     default:
330     case MVT::i32: return &AMDGPU::VGPR_32RegClass;
331   }
332 }
333
334 unsigned SIRegisterInfo::getHWRegIndex(unsigned Reg) const {
335   return getEncodingValue(Reg) & 0xff;
336 }
337
338 const TargetRegisterClass *SIRegisterInfo::getPhysRegClass(unsigned Reg) const {
339   assert(!TargetRegisterInfo::isVirtualRegister(Reg));
340
341   static const TargetRegisterClass *BaseClasses[] = {
342     &AMDGPU::VGPR_32RegClass,
343     &AMDGPU::SReg_32RegClass,
344     &AMDGPU::VReg_64RegClass,
345     &AMDGPU::SReg_64RegClass,
346     &AMDGPU::VReg_96RegClass,
347     &AMDGPU::VReg_128RegClass,
348     &AMDGPU::SReg_128RegClass,
349     &AMDGPU::VReg_256RegClass,
350     &AMDGPU::SReg_256RegClass,
351     &AMDGPU::VReg_512RegClass,
352     &AMDGPU::SReg_512RegClass
353   };
354
355   for (const TargetRegisterClass *BaseClass : BaseClasses) {
356     if (BaseClass->contains(Reg)) {
357       return BaseClass;
358     }
359   }
360   return nullptr;
361 }
362
363 bool SIRegisterInfo::hasVGPRs(const TargetRegisterClass *RC) const {
364   return getCommonSubClass(&AMDGPU::VGPR_32RegClass, RC) ||
365          getCommonSubClass(&AMDGPU::VReg_64RegClass, RC) ||
366          getCommonSubClass(&AMDGPU::VReg_96RegClass, RC) ||
367          getCommonSubClass(&AMDGPU::VReg_128RegClass, RC) ||
368          getCommonSubClass(&AMDGPU::VReg_256RegClass, RC) ||
369          getCommonSubClass(&AMDGPU::VReg_512RegClass, RC);
370 }
371
372 const TargetRegisterClass *SIRegisterInfo::getEquivalentVGPRClass(
373                                          const TargetRegisterClass *SRC) const {
374     if (hasVGPRs(SRC)) {
375       return SRC;
376     } else if (getCommonSubClass(SRC, &AMDGPU::SGPR_32RegClass)) {
377       return &AMDGPU::VGPR_32RegClass;
378     } else if (getCommonSubClass(SRC, &AMDGPU::SGPR_64RegClass)) {
379       return &AMDGPU::VReg_64RegClass;
380     } else if (getCommonSubClass(SRC, &AMDGPU::SReg_128RegClass)) {
381       return &AMDGPU::VReg_128RegClass;
382     } else if (getCommonSubClass(SRC, &AMDGPU::SReg_256RegClass)) {
383       return &AMDGPU::VReg_256RegClass;
384     } else if (getCommonSubClass(SRC, &AMDGPU::SReg_512RegClass)) {
385       return &AMDGPU::VReg_512RegClass;
386     }
387     return nullptr;
388 }
389
390 const TargetRegisterClass *SIRegisterInfo::getSubRegClass(
391                          const TargetRegisterClass *RC, unsigned SubIdx) const {
392   if (SubIdx == AMDGPU::NoSubRegister)
393     return RC;
394
395   // If this register has a sub-register, we can safely assume it is a 32-bit
396   // register, because all of SI's sub-registers are 32-bit.
397   if (isSGPRClass(RC)) {
398     return &AMDGPU::SGPR_32RegClass;
399   } else {
400     return &AMDGPU::VGPR_32RegClass;
401   }
402 }
403
404 unsigned SIRegisterInfo::getPhysRegSubReg(unsigned Reg,
405                                           const TargetRegisterClass *SubRC,
406                                           unsigned Channel) const {
407
408   switch (Reg) {
409     case AMDGPU::VCC:
410       switch(Channel) {
411         case 0: return AMDGPU::VCC_LO;
412         case 1: return AMDGPU::VCC_HI;
413         default: llvm_unreachable("Invalid SubIdx for VCC");
414       }
415
416   case AMDGPU::FLAT_SCR:
417     switch (Channel) {
418     case 0:
419       return AMDGPU::FLAT_SCR_LO;
420     case 1:
421       return AMDGPU::FLAT_SCR_HI;
422     default:
423       llvm_unreachable("Invalid SubIdx for FLAT_SCR");
424     }
425     break;
426
427   case AMDGPU::EXEC:
428     switch (Channel) {
429     case 0:
430       return AMDGPU::EXEC_LO;
431     case 1:
432       return AMDGPU::EXEC_HI;
433     default:
434       llvm_unreachable("Invalid SubIdx for EXEC");
435     }
436     break;
437   }
438
439   const TargetRegisterClass *RC = getPhysRegClass(Reg);
440   // 32-bit registers don't have sub-registers, so we can just return the
441   // Reg.  We need to have this check here, because the calculation below
442   // using getHWRegIndex() will fail with special 32-bit registers like
443   // VCC_LO, VCC_HI, EXEC_LO, EXEC_HI and M0.
444   if (RC->getSize() == 4) {
445     assert(Channel == 0);
446     return Reg;
447   }
448
449   unsigned Index = getHWRegIndex(Reg);
450   return SubRC->getRegister(Index + Channel);
451 }
452
453 bool SIRegisterInfo::opCanUseLiteralConstant(unsigned OpType) const {
454   return OpType == AMDGPU::OPERAND_REG_IMM32;
455 }
456
457 bool SIRegisterInfo::opCanUseInlineConstant(unsigned OpType) const {
458   if (opCanUseLiteralConstant(OpType))
459     return true;
460
461   return OpType == AMDGPU::OPERAND_REG_INLINE_C;
462 }
463
464 unsigned SIRegisterInfo::getPreloadedValue(const MachineFunction &MF,
465                                            enum PreloadedValue Value) const {
466
467   const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
468   switch (Value) {
469   case SIRegisterInfo::TGID_X:
470     return AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 0);
471   case SIRegisterInfo::TGID_Y:
472     return AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 1);
473   case SIRegisterInfo::TGID_Z:
474     return AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 2);
475   case SIRegisterInfo::SCRATCH_WAVE_OFFSET:
476     if (MFI->getShaderType() != ShaderType::COMPUTE)
477       return MFI->ScratchOffsetReg;
478     return AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 4);
479   case SIRegisterInfo::SCRATCH_PTR:
480     return AMDGPU::SGPR2_SGPR3;
481   case SIRegisterInfo::INPUT_PTR:
482     return AMDGPU::SGPR0_SGPR1;
483   case SIRegisterInfo::TIDIG_X:
484     return AMDGPU::VGPR0;
485   case SIRegisterInfo::TIDIG_Y:
486     return AMDGPU::VGPR1;
487   case SIRegisterInfo::TIDIG_Z:
488     return AMDGPU::VGPR2;
489   }
490   llvm_unreachable("unexpected preloaded value type");
491 }
492
493 /// \brief Returns a register that is not used at any point in the function.
494 ///        If all registers are used, then this function will return
495 //         AMDGPU::NoRegister.
496 unsigned SIRegisterInfo::findUnusedRegister(const MachineRegisterInfo &MRI,
497                                            const TargetRegisterClass *RC) const {
498   for (unsigned Reg : *RC)
499     if (!MRI.isPhysRegUsed(Reg))
500       return Reg;
501   return AMDGPU::NoRegister;
502 }
503
504 unsigned SIRegisterInfo::getNumVGPRsAllowed(unsigned WaveCount) const {
505   switch(WaveCount) {
506     case 10: return 24;
507     case 9:  return 28;
508     case 8:  return 32;
509     case 7:  return 36;
510     case 6:  return 40;
511     case 5:  return 48;
512     case 4:  return 64;
513     case 3:  return 84;
514     case 2:  return 128;
515     default: return 256;
516   }
517 }
518
519 unsigned SIRegisterInfo::getNumSGPRsAllowed(AMDGPUSubtarget::Generation gen,
520                                             unsigned WaveCount) const {
521   if (gen >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
522     switch (WaveCount) {
523       case 10: return 80;
524       case 9:  return 80;
525       case 8:  return 96;
526       default: return 102;
527     }
528   } else {
529     switch(WaveCount) {
530       case 10: return 48;
531       case 9:  return 56;
532       case 8:  return 64;
533       case 7:  return 72;
534       case 6:  return 80;
535       case 5:  return 96;
536       default: return 103;
537     }
538   }
539 }