aaa37896293f3a3d3a4e0fbf00315e0127a351db
[oota-llvm.git] / lib / CodeGen / GlobalMerge.cpp
1 //===-- GlobalMerge.cpp - Internal globals merging  -----------------------===//
2 //
3 //                     The LLVM Compiler Infrastructure
4 //
5 // This file is distributed under the University of Illinois Open Source
6 // License. See LICENSE.TXT for details.
7 //
8 //===----------------------------------------------------------------------===//
9 // This pass merges globals with internal linkage into one. This way all the
10 // globals which were merged into a biggest one can be addressed using offsets
11 // from the same base pointer (no need for separate base pointer for each of the
12 // global). Such a transformation can significantly reduce the register pressure
13 // when many globals are involved.
14 //
15 // For example, consider the code which touches several global variables at
16 // once:
17 //
18 // static int foo[N], bar[N], baz[N];
19 //
20 // for (i = 0; i < N; ++i) {
21 //    foo[i] = bar[i] * baz[i];
22 // }
23 //
24 //  On ARM the addresses of 3 arrays should be kept in the registers, thus
25 //  this code has quite large register pressure (loop body):
26 //
27 //  ldr     r1, [r5], #4
28 //  ldr     r2, [r6], #4
29 //  mul     r1, r2, r1
30 //  str     r1, [r0], #4
31 //
32 //  Pass converts the code to something like:
33 //
34 //  static struct {
35 //    int foo[N];
36 //    int bar[N];
37 //    int baz[N];
38 //  } merged;
39 //
40 //  for (i = 0; i < N; ++i) {
41 //    merged.foo[i] = merged.bar[i] * merged.baz[i];
42 //  }
43 //
44 //  and in ARM code this becomes:
45 //
46 //  ldr     r0, [r5, #40]
47 //  ldr     r1, [r5, #80]
48 //  mul     r0, r1, r0
49 //  str     r0, [r5], #4
50 //
51 //  note that we saved 2 registers here almostly "for free".
52 //
53 // However, merging globals can have tradeoffs:
54 // - it confuses debuggers, tools, and users
55 // - it makes linker optimizations less useful (order files, LOHs, ...)
56 // - it forces usage of indexed addressing (which isn't necessarily "free")
57 // - it can increase register pressure when the uses are disparate enough.
58 // 
59 // We use heuristics to discover the best global grouping we can (cf cl::opts).
60 // ===---------------------------------------------------------------------===//
61
62 #include "llvm/Transforms/Scalar.h"
63 #include "llvm/ADT/DenseMap.h"
64 #include "llvm/ADT/SmallBitVector.h"
65 #include "llvm/ADT/SmallPtrSet.h"
66 #include "llvm/ADT/Statistic.h"
67 #include "llvm/CodeGen/Passes.h"
68 #include "llvm/IR/Attributes.h"
69 #include "llvm/IR/Constants.h"
70 #include "llvm/IR/DataLayout.h"
71 #include "llvm/IR/DerivedTypes.h"
72 #include "llvm/IR/Function.h"
73 #include "llvm/IR/GlobalVariable.h"
74 #include "llvm/IR/Instructions.h"
75 #include "llvm/IR/Intrinsics.h"
76 #include "llvm/IR/Module.h"
77 #include "llvm/Pass.h"
78 #include "llvm/Support/CommandLine.h"
79 #include "llvm/Support/Debug.h"
80 #include "llvm/Support/raw_ostream.h"
81 #include "llvm/Target/TargetLowering.h"
82 #include "llvm/Target/TargetLoweringObjectFile.h"
83 #include "llvm/Target/TargetSubtargetInfo.h"
84 #include <algorithm>
85 using namespace llvm;
86
87 #define DEBUG_TYPE "global-merge"
88
89 // FIXME: This is only useful as a last-resort way to disable the pass.
90 static cl::opt<bool>
91 EnableGlobalMerge("enable-global-merge", cl::Hidden,
92                   cl::desc("Enable the global merge pass"),
93                   cl::init(true));
94
95 static cl::opt<bool> GlobalMergeGroupByUse(
96     "global-merge-group-by-use", cl::Hidden,
97     cl::desc("Improve global merge pass to look at uses"), cl::init(true));
98
99 static cl::opt<bool> GlobalMergeIgnoreSingleUse(
100     "global-merge-ignore-single-use", cl::Hidden,
101     cl::desc("Improve global merge pass to ignore globals only used alone"),
102     cl::init(true));
103
104 static cl::opt<bool>
105 EnableGlobalMergeOnConst("global-merge-on-const", cl::Hidden,
106                          cl::desc("Enable global merge pass on constants"),
107                          cl::init(false));
108
109 // FIXME: this could be a transitional option, and we probably need to remove
110 // it if only we are sure this optimization could always benefit all targets.
111 static cl::opt<bool>
112 EnableGlobalMergeOnExternal("global-merge-on-external", cl::Hidden,
113      cl::desc("Enable global merge pass on external linkage"),
114      cl::init(false));
115
116 STATISTIC(NumMerged, "Number of globals merged");
117 namespace {
118   class GlobalMerge : public FunctionPass {
119     const TargetMachine *TM;
120     const DataLayout *DL;
121     // FIXME: Infer the maximum possible offset depending on the actual users
122     // (these max offsets are different for the users inside Thumb or ARM
123     // functions), see the code that passes in the offset in the ARM backend
124     // for more information.
125     unsigned MaxOffset;
126
127     bool doMerge(SmallVectorImpl<GlobalVariable*> &Globals,
128                  Module &M, bool isConst, unsigned AddrSpace) const;
129     /// \brief Merge everything in \p Globals for which the corresponding bit
130     /// in \p GlobalSet is set.
131     bool doMerge(SmallVectorImpl<GlobalVariable *> &Globals,
132                  const BitVector &GlobalSet, Module &M, bool isConst,
133                  unsigned AddrSpace) const;
134
135     /// \brief Check if the given variable has been identified as must keep
136     /// \pre setMustKeepGlobalVariables must have been called on the Module that
137     ///      contains GV
138     bool isMustKeepGlobalVariable(const GlobalVariable *GV) const {
139       return MustKeepGlobalVariables.count(GV);
140     }
141
142     /// Collect every variables marked as "used" or used in a landing pad
143     /// instruction for this Module.
144     void setMustKeepGlobalVariables(Module &M);
145
146     /// Collect every variables marked as "used"
147     void collectUsedGlobalVariables(Module &M);
148
149     /// Keep track of the GlobalVariable that must not be merged away
150     SmallPtrSet<const GlobalVariable *, 16> MustKeepGlobalVariables;
151
152   public:
153     static char ID;             // Pass identification, replacement for typeid.
154     explicit GlobalMerge(const TargetMachine *TM = nullptr,
155                          unsigned MaximalOffset = 0)
156         : FunctionPass(ID), TM(TM), DL(TM->getDataLayout()),
157           MaxOffset(MaximalOffset) {
158       initializeGlobalMergePass(*PassRegistry::getPassRegistry());
159     }
160
161     bool doInitialization(Module &M) override;
162     bool runOnFunction(Function &F) override;
163     bool doFinalization(Module &M) override;
164
165     const char *getPassName() const override {
166       return "Merge internal globals";
167     }
168
169     void getAnalysisUsage(AnalysisUsage &AU) const override {
170       AU.setPreservesCFG();
171       FunctionPass::getAnalysisUsage(AU);
172     }
173   };
174 } // end anonymous namespace
175
176 char GlobalMerge::ID = 0;
177 INITIALIZE_PASS_BEGIN(GlobalMerge, "global-merge", "Merge global variables",
178                       false, false)
179 INITIALIZE_PASS_END(GlobalMerge, "global-merge", "Merge global variables",
180                     false, false)
181
182 bool GlobalMerge::doMerge(SmallVectorImpl<GlobalVariable*> &Globals,
183                           Module &M, bool isConst, unsigned AddrSpace) const {
184   // FIXME: Find better heuristics
185   std::stable_sort(Globals.begin(), Globals.end(),
186                    [this](const GlobalVariable *GV1, const GlobalVariable *GV2) {
187     Type *Ty1 = cast<PointerType>(GV1->getType())->getElementType();
188     Type *Ty2 = cast<PointerType>(GV2->getType())->getElementType();
189
190     return (DL->getTypeAllocSize(Ty1) < DL->getTypeAllocSize(Ty2));
191   });
192
193   // If we want to just blindly group all globals together, do so.
194   if (!GlobalMergeGroupByUse) {
195     BitVector AllGlobals(Globals.size());
196     AllGlobals.set();
197     return doMerge(Globals, AllGlobals, M, isConst, AddrSpace);
198   }
199
200   // If we want to be smarter, look at all uses of each global, to try to
201   // discover all sets of globals used together, and how many times each of
202   // these sets occured.
203   //
204   // Keep this reasonably efficient, by having an append-only list of all sets
205   // discovered so far (UsedGlobalSet), and mapping each "together-ness" unit of
206   // code (currently, a Function) to the set of globals seen so far that are
207   // used together in that unit (GlobalUsesByFunction).
208   //
209   // When we look at the Nth global, we now that any new set is either:
210   // - the singleton set {N}, containing this global only, or
211   // - the union of {N} and a previously-discovered set, containing some
212   //   combination of the previous N-1 globals.
213   // Using that knowledge, when looking at the Nth global, we can keep:
214   // - a reference to the singleton set {N} (CurGVOnlySetIdx)
215   // - a list mapping each previous set to its union with {N} (EncounteredUGS),
216   //   if it actually occurs.
217
218   // We keep track of the sets of globals used together "close enough".
219   struct UsedGlobalSet {
220     UsedGlobalSet(size_t Size) : Globals(Size), UsageCount(1) {}
221     BitVector Globals;
222     unsigned UsageCount;
223   };
224
225   // Each set is unique in UsedGlobalSets.
226   std::vector<UsedGlobalSet> UsedGlobalSets;
227
228   // Avoid repeating the create-global-set pattern.
229   auto CreateGlobalSet = [&]() -> UsedGlobalSet & {
230     UsedGlobalSets.emplace_back(Globals.size());
231     return UsedGlobalSets.back();
232   };
233
234   // The first set is the empty set.
235   CreateGlobalSet().UsageCount = 0;
236
237   // We define "close enough" to be "in the same function".
238   // FIXME: Grouping uses by function is way too aggressive, so we should have
239   // a better metric for distance between uses.
240   // The obvious alternative would be to group by BasicBlock, but that's in
241   // turn too conservative..
242   // Anything in between wouldn't be trivial to compute, so just stick with
243   // per-function grouping.
244
245   // The value type is an index into UsedGlobalSets.
246   // The default (0) conveniently points to the empty set.
247   DenseMap<Function *, size_t /*UsedGlobalSetIdx*/> GlobalUsesByFunction;
248
249   // Now, look at each merge-eligible global in turn.
250
251   // Keep track of the sets we already encountered to which we added the
252   // current global.
253   // Each element matches the same-index element in UsedGlobalSets.
254   // This lets us efficiently tell whether a set has already been expanded to
255   // include the current global.
256   std::vector<size_t> EncounteredUGS;
257
258   for (size_t GI = 0, GE = Globals.size(); GI != GE; ++GI) {
259     GlobalVariable *GV = Globals[GI];
260
261     // Reset the encountered sets for this global...
262     std::fill(EncounteredUGS.begin(), EncounteredUGS.end(), 0);
263     // ...and grow it in case we created new sets for the previous global.
264     EncounteredUGS.resize(UsedGlobalSets.size());
265
266     // We might need to create a set that only consists of the current global.
267     // Keep track of its index into UsedGlobalSets.
268     size_t CurGVOnlySetIdx = 0;
269
270     // For each global, look at all its Uses.
271     for (auto &U : GV->uses()) {
272       // This Use might be a ConstantExpr.  We're interested in Instruction
273       // users, so look through ConstantExpr...
274       Use *UI, *UE;
275       if (ConstantExpr *CE = dyn_cast<ConstantExpr>(U.getUser())) {
276         UI = &*CE->use_begin();
277         UE = nullptr;
278       } else if (isa<Instruction>(U.getUser())) {
279         UI = &U;
280         UE = UI->getNext();
281       } else {
282         continue;
283       }
284
285       // ...to iterate on all the instruction users of the global.
286       // Note that we iterate on Uses and not on Users to be able to getNext().
287       for (; UI != UE; UI = UI->getNext()) {
288         Instruction *I = dyn_cast<Instruction>(UI->getUser());
289         if (!I)
290           continue;
291
292         Function *ParentFn = I->getParent()->getParent();
293         size_t UGSIdx = GlobalUsesByFunction[ParentFn];
294
295         // If this is the first global the basic block uses, map it to the set
296         // consisting of this global only.
297         if (!UGSIdx) {
298           // If that set doesn't exist yet, create it.
299           if (!CurGVOnlySetIdx) {
300             CurGVOnlySetIdx = UsedGlobalSets.size();
301             CreateGlobalSet().Globals.set(GI);
302           } else {
303             ++UsedGlobalSets[CurGVOnlySetIdx].UsageCount;
304           }
305
306           GlobalUsesByFunction[ParentFn] = CurGVOnlySetIdx;
307           continue;
308         }
309
310         // If we already encountered this BB, just increment the counter.
311         if (UsedGlobalSets[UGSIdx].Globals.test(GI)) {
312           ++UsedGlobalSets[UGSIdx].UsageCount;
313           continue;
314         }
315
316         // If not, the previous set wasn't actually used in this function.
317         --UsedGlobalSets[UGSIdx].UsageCount;
318
319         // If we already expanded the previous set to include this global, just
320         // reuse that expanded set.
321         if (size_t ExpandedIdx = EncounteredUGS[UGSIdx]) {
322           ++UsedGlobalSets[ExpandedIdx].UsageCount;
323           GlobalUsesByFunction[ParentFn] = ExpandedIdx;
324           continue;
325         }
326
327         // If not, create a new set consisting of the union of the previous set
328         // and this global.  Mark it as encountered, so we can reuse it later.
329         GlobalUsesByFunction[ParentFn] = EncounteredUGS[UGSIdx] =
330             UsedGlobalSets.size();
331
332         UsedGlobalSet &NewUGS = CreateGlobalSet();
333         NewUGS.Globals.set(GI);
334         NewUGS.Globals |= UsedGlobalSets[UGSIdx].Globals;
335       }
336     }
337   }
338
339   // Now we found a bunch of sets of globals used together.  We accumulated
340   // the number of times we encountered the sets (i.e., the number of blocks
341   // that use that exact set of globals).
342   //
343   // Multiply that by the size of the set to give us a crude profitability
344   // metric.
345   std::sort(UsedGlobalSets.begin(), UsedGlobalSets.end(),
346             [](const UsedGlobalSet &UGS1, const UsedGlobalSet &UGS2) {
347               return UGS1.Globals.count() * UGS1.UsageCount <
348                      UGS2.Globals.count() * UGS2.UsageCount;
349             });
350
351   // We can choose to merge all globals together, but ignore globals never used
352   // with another global.  This catches the obviously non-profitable cases of
353   // having a single global, but is aggressive enough for any other case.
354   if (GlobalMergeIgnoreSingleUse) {
355     BitVector AllGlobals(Globals.size());
356     for (size_t i = 0, e = UsedGlobalSets.size(); i != e; ++i) {
357       const UsedGlobalSet &UGS = UsedGlobalSets[e - i - 1];
358       if (UGS.UsageCount == 0)
359         continue;
360       if (UGS.Globals.count() > 1)
361         AllGlobals |= UGS.Globals;
362     }
363     return doMerge(Globals, AllGlobals, M, isConst, AddrSpace);
364   }
365
366   // Starting from the sets with the best (=biggest) profitability, find a
367   // good combination.
368   // The ideal (and expensive) solution can only be found by trying all
369   // combinations, looking for the one with the best profitability.
370   // Don't be smart about it, and just pick the first compatible combination,
371   // starting with the sets with the best profitability.
372   BitVector PickedGlobals(Globals.size());
373   bool Changed = false;
374
375   for (size_t i = 0, e = UsedGlobalSets.size(); i != e; ++i) {
376     const UsedGlobalSet &UGS = UsedGlobalSets[e - i - 1];
377     if (UGS.UsageCount == 0)
378       continue;
379     if (PickedGlobals.anyCommon(UGS.Globals))
380       continue;
381     PickedGlobals |= UGS.Globals;
382     // If the set only contains one global, there's no point in merging.
383     // Ignore the global for inclusion in other sets though, so keep it in
384     // PickedGlobals.
385     if (UGS.Globals.count() < 2)
386       continue;
387     Changed |= doMerge(Globals, UGS.Globals, M, isConst, AddrSpace);
388   }
389
390   return Changed;
391 }
392
393 bool GlobalMerge::doMerge(SmallVectorImpl<GlobalVariable *> &Globals,
394                           const BitVector &GlobalSet, Module &M, bool isConst,
395                           unsigned AddrSpace) const {
396
397   Type *Int32Ty = Type::getInt32Ty(M.getContext());
398
399   assert(Globals.size() > 1);
400
401   DEBUG(dbgs() << " Trying to merge set, starts with #"
402                << GlobalSet.find_first() << "\n");
403
404   ssize_t i = GlobalSet.find_first();
405   while (i != -1) {
406     ssize_t j = 0;
407     uint64_t MergedSize = 0;
408     std::vector<Type*> Tys;
409     std::vector<Constant*> Inits;
410
411     bool HasExternal = false;
412     GlobalVariable *TheFirstExternal = 0;
413     for (j = i; j != -1; j = GlobalSet.find_next(j)) {
414       Type *Ty = Globals[j]->getType()->getElementType();
415       MergedSize += DL->getTypeAllocSize(Ty);
416       if (MergedSize > MaxOffset) {
417         break;
418       }
419       Tys.push_back(Ty);
420       Inits.push_back(Globals[j]->getInitializer());
421
422       if (Globals[j]->hasExternalLinkage() && !HasExternal) {
423         HasExternal = true;
424         TheFirstExternal = Globals[j];
425       }
426     }
427
428     // If merged variables doesn't have external linkage, we needn't to expose
429     // the symbol after merging.
430     GlobalValue::LinkageTypes Linkage = HasExternal
431                                             ? GlobalValue::ExternalLinkage
432                                             : GlobalValue::InternalLinkage;
433
434     StructType *MergedTy = StructType::get(M.getContext(), Tys);
435     Constant *MergedInit = ConstantStruct::get(MergedTy, Inits);
436
437     // If merged variables have external linkage, we use symbol name of the
438     // first variable merged as the suffix of global symbol name. This would
439     // be able to avoid the link-time naming conflict for globalm symbols.
440     GlobalVariable *MergedGV = new GlobalVariable(
441         M, MergedTy, isConst, Linkage, MergedInit,
442         HasExternal ? "_MergedGlobals_" + TheFirstExternal->getName()
443                     : "_MergedGlobals",
444         nullptr, GlobalVariable::NotThreadLocal, AddrSpace);
445
446     for (ssize_t k = i, idx = 0; k != j; k = GlobalSet.find_next(k)) {
447       GlobalValue::LinkageTypes Linkage = Globals[k]->getLinkage();
448       std::string Name = Globals[k]->getName();
449
450       Constant *Idx[2] = {
451         ConstantInt::get(Int32Ty, 0),
452         ConstantInt::get(Int32Ty, idx++)
453       };
454       Constant *GEP =
455           ConstantExpr::getInBoundsGetElementPtr(MergedTy, MergedGV, Idx);
456       Globals[k]->replaceAllUsesWith(GEP);
457       Globals[k]->eraseFromParent();
458
459       if (Linkage != GlobalValue::InternalLinkage) {
460         // Generate a new alias...
461         auto *PTy = cast<PointerType>(GEP->getType());
462         GlobalAlias::create(PTy->getElementType(), PTy->getAddressSpace(),
463                             Linkage, Name, GEP, &M);
464       }
465
466       NumMerged++;
467     }
468     i = j;
469   }
470
471   return true;
472 }
473
474 void GlobalMerge::collectUsedGlobalVariables(Module &M) {
475   // Extract global variables from llvm.used array
476   const GlobalVariable *GV = M.getGlobalVariable("llvm.used");
477   if (!GV || !GV->hasInitializer()) return;
478
479   // Should be an array of 'i8*'.
480   const ConstantArray *InitList = cast<ConstantArray>(GV->getInitializer());
481
482   for (unsigned i = 0, e = InitList->getNumOperands(); i != e; ++i)
483     if (const GlobalVariable *G =
484         dyn_cast<GlobalVariable>(InitList->getOperand(i)->stripPointerCasts()))
485       MustKeepGlobalVariables.insert(G);
486 }
487
488 void GlobalMerge::setMustKeepGlobalVariables(Module &M) {
489   collectUsedGlobalVariables(M);
490
491   for (Module::iterator IFn = M.begin(), IEndFn = M.end(); IFn != IEndFn;
492        ++IFn) {
493     for (Function::iterator IBB = IFn->begin(), IEndBB = IFn->end();
494          IBB != IEndBB; ++IBB) {
495       // Follow the invoke link to find the landing pad instruction
496       const InvokeInst *II = dyn_cast<InvokeInst>(IBB->getTerminator());
497       if (!II) continue;
498
499       const LandingPadInst *LPInst = II->getUnwindDest()->getLandingPadInst();
500       // Look for globals in the clauses of the landing pad instruction
501       for (unsigned Idx = 0, NumClauses = LPInst->getNumClauses();
502            Idx != NumClauses; ++Idx)
503         if (const GlobalVariable *GV =
504             dyn_cast<GlobalVariable>(LPInst->getClause(Idx)
505                                      ->stripPointerCasts()))
506           MustKeepGlobalVariables.insert(GV);
507     }
508   }
509 }
510
511 bool GlobalMerge::doInitialization(Module &M) {
512   if (!EnableGlobalMerge)
513     return false;
514
515   DenseMap<unsigned, SmallVector<GlobalVariable*, 16> > Globals, ConstGlobals,
516                                                         BSSGlobals;
517   bool Changed = false;
518   setMustKeepGlobalVariables(M);
519
520   // Grab all non-const globals.
521   for (Module::global_iterator I = M.global_begin(),
522          E = M.global_end(); I != E; ++I) {
523     // Merge is safe for "normal" internal or external globals only
524     if (I->isDeclaration() || I->isThreadLocal() || I->hasSection())
525       continue;
526
527     if (!(EnableGlobalMergeOnExternal && I->hasExternalLinkage()) &&
528         !I->hasInternalLinkage())
529       continue;
530
531     PointerType *PT = dyn_cast<PointerType>(I->getType());
532     assert(PT && "Global variable is not a pointer!");
533
534     unsigned AddressSpace = PT->getAddressSpace();
535
536     // Ignore fancy-aligned globals for now.
537     unsigned Alignment = DL->getPreferredAlignment(I);
538     Type *Ty = I->getType()->getElementType();
539     if (Alignment > DL->getABITypeAlignment(Ty))
540       continue;
541
542     // Ignore all 'special' globals.
543     if (I->getName().startswith("llvm.") ||
544         I->getName().startswith(".llvm."))
545       continue;
546
547     // Ignore all "required" globals:
548     if (isMustKeepGlobalVariable(I))
549       continue;
550
551     if (DL->getTypeAllocSize(Ty) < MaxOffset) {
552       if (TargetLoweringObjectFile::getKindForGlobal(I, *TM).isBSSLocal())
553         BSSGlobals[AddressSpace].push_back(I);
554       else if (I->isConstant())
555         ConstGlobals[AddressSpace].push_back(I);
556       else
557         Globals[AddressSpace].push_back(I);
558     }
559   }
560
561   for (DenseMap<unsigned, SmallVector<GlobalVariable*, 16> >::iterator
562        I = Globals.begin(), E = Globals.end(); I != E; ++I)
563     if (I->second.size() > 1)
564       Changed |= doMerge(I->second, M, false, I->first);
565
566   for (DenseMap<unsigned, SmallVector<GlobalVariable*, 16> >::iterator
567        I = BSSGlobals.begin(), E = BSSGlobals.end(); I != E; ++I)
568     if (I->second.size() > 1)
569       Changed |= doMerge(I->second, M, false, I->first);
570
571   if (EnableGlobalMergeOnConst)
572     for (DenseMap<unsigned, SmallVector<GlobalVariable*, 16> >::iterator
573          I = ConstGlobals.begin(), E = ConstGlobals.end(); I != E; ++I)
574       if (I->second.size() > 1)
575         Changed |= doMerge(I->second, M, true, I->first);
576
577   return Changed;
578 }
579
580 bool GlobalMerge::runOnFunction(Function &F) {
581   return false;
582 }
583
584 bool GlobalMerge::doFinalization(Module &M) {
585   MustKeepGlobalVariables.clear();
586   return false;
587 }
588
589 Pass *llvm::createGlobalMergePass(const TargetMachine *TM, unsigned Offset) {
590   return new GlobalMerge(TM, Offset);
591 }