Switch the SCEV expander and LoopStrengthReduce to use
[oota-llvm.git] / lib / Transforms / Scalar / LoopStrengthReduce.cpp
1 //===- LoopStrengthReduce.cpp - Strength Reduce IVs in Loops --------------===//
2 //
3 //                     The LLVM Compiler Infrastructure
4 //
5 // This file is distributed under the University of Illinois Open Source
6 // License. See LICENSE.TXT for details.
7 //
8 //===----------------------------------------------------------------------===//
9 //
10 // This transformation analyzes and transforms the induction variables (and
11 // computations derived from them) into forms suitable for efficient execution
12 // on the target.
13 //
14 // This pass performs a strength reduction on array references inside loops that
15 // have as one or more of their components the loop induction variable, it
16 // rewrites expressions to take advantage of scaled-index addressing modes
17 // available on the target, and it performs a variety of other optimizations
18 // related to loop induction variables.
19 //
20 // Terminology note: this code has a lot of handling for "post-increment" or
21 // "post-inc" users. This is not talking about post-increment addressing modes;
22 // it is instead talking about code like this:
23 //
24 //   %i = phi [ 0, %entry ], [ %i.next, %latch ]
25 //   ...
26 //   %i.next = add %i, 1
27 //   %c = icmp eq %i.next, %n
28 //
29 // The SCEV for %i is {0,+,1}<%L>. The SCEV for %i.next is {1,+,1}<%L>, however
30 // it's useful to think about these as the same register, with some uses using
31 // the value of the register before the add and some using // it after. In this
32 // example, the icmp is a post-increment user, since it uses %i.next, which is
33 // the value of the induction variable after the increment. The other common
34 // case of post-increment users is users outside the loop.
35 //
36 // TODO: More sophistication in the way Formulae are generated and filtered.
37 //
38 // TODO: Handle multiple loops at a time.
39 //
40 // TODO: Should the addressing mode BaseGV be changed to a ConstantExpr instead
41 //       of a GlobalValue?
42 //
43 // TODO: When truncation is free, truncate ICmp users' operands to make it a
44 //       smaller encoding (on x86 at least).
45 //
46 // TODO: When a negated register is used by an add (such as in a list of
47 //       multiple base registers, or as the increment expression in an addrec),
48 //       we may not actually need both reg and (-1 * reg) in registers; the
49 //       negation can be implemented by using a sub instead of an add. The
50 //       lack of support for taking this into consideration when making
51 //       register pressure decisions is partly worked around by the "Special"
52 //       use kind.
53 //
54 //===----------------------------------------------------------------------===//
55
56 #define DEBUG_TYPE "loop-reduce"
57 #include "llvm/Transforms/Scalar.h"
58 #include "llvm/ADT/DenseSet.h"
59 #include "llvm/ADT/SetVector.h"
60 #include "llvm/ADT/SmallBitVector.h"
61 #include "llvm/AddressingMode.h"
62 #include "llvm/Analysis/Dominators.h"
63 #include "llvm/Analysis/IVUsers.h"
64 #include "llvm/Analysis/LoopPass.h"
65 #include "llvm/Analysis/ScalarEvolutionExpander.h"
66 #include "llvm/Analysis/TargetTransformInfo.h"
67 #include "llvm/Assembly/Writer.h"
68 #include "llvm/IR/Constants.h"
69 #include "llvm/IR/DerivedTypes.h"
70 #include "llvm/IR/Instructions.h"
71 #include "llvm/IR/IntrinsicInst.h"
72 #include "llvm/Support/CommandLine.h"
73 #include "llvm/Support/Debug.h"
74 #include "llvm/Support/ValueHandle.h"
75 #include "llvm/Support/raw_ostream.h"
76 #include "llvm/Transforms/Utils/BasicBlockUtils.h"
77 #include "llvm/Transforms/Utils/Local.h"
78 #include <algorithm>
79 using namespace llvm;
80
81 /// MaxIVUsers is an arbitrary threshold that provides an early opportunitiy for
82 /// bail out. This threshold is far beyond the number of users that LSR can
83 /// conceivably solve, so it should not affect generated code, but catches the
84 /// worst cases before LSR burns too much compile time and stack space.
85 static const unsigned MaxIVUsers = 200;
86
87 // Temporary flag to cleanup congruent phis after LSR phi expansion.
88 // It's currently disabled until we can determine whether it's truly useful or
89 // not. The flag should be removed after the v3.0 release.
90 // This is now needed for ivchains.
91 static cl::opt<bool> EnablePhiElim(
92   "enable-lsr-phielim", cl::Hidden, cl::init(true),
93   cl::desc("Enable LSR phi elimination"));
94
95 #ifndef NDEBUG
96 // Stress test IV chain generation.
97 static cl::opt<bool> StressIVChain(
98   "stress-ivchain", cl::Hidden, cl::init(false),
99   cl::desc("Stress test LSR IV chains"));
100 #else
101 static bool StressIVChain = false;
102 #endif
103
104 namespace {
105
106 /// RegSortData - This class holds data which is used to order reuse candidates.
107 class RegSortData {
108 public:
109   /// UsedByIndices - This represents the set of LSRUse indices which reference
110   /// a particular register.
111   SmallBitVector UsedByIndices;
112
113   RegSortData() {}
114
115   void print(raw_ostream &OS) const;
116   void dump() const;
117 };
118
119 }
120
121 void RegSortData::print(raw_ostream &OS) const {
122   OS << "[NumUses=" << UsedByIndices.count() << ']';
123 }
124
125 #if !defined(NDEBUG) || defined(LLVM_ENABLE_DUMP)
126 void RegSortData::dump() const {
127   print(errs()); errs() << '\n';
128 }
129 #endif
130
131 namespace {
132
133 /// RegUseTracker - Map register candidates to information about how they are
134 /// used.
135 class RegUseTracker {
136   typedef DenseMap<const SCEV *, RegSortData> RegUsesTy;
137
138   RegUsesTy RegUsesMap;
139   SmallVector<const SCEV *, 16> RegSequence;
140
141 public:
142   void CountRegister(const SCEV *Reg, size_t LUIdx);
143   void DropRegister(const SCEV *Reg, size_t LUIdx);
144   void SwapAndDropUse(size_t LUIdx, size_t LastLUIdx);
145
146   bool isRegUsedByUsesOtherThan(const SCEV *Reg, size_t LUIdx) const;
147
148   const SmallBitVector &getUsedByIndices(const SCEV *Reg) const;
149
150   void clear();
151
152   typedef SmallVectorImpl<const SCEV *>::iterator iterator;
153   typedef SmallVectorImpl<const SCEV *>::const_iterator const_iterator;
154   iterator begin() { return RegSequence.begin(); }
155   iterator end()   { return RegSequence.end(); }
156   const_iterator begin() const { return RegSequence.begin(); }
157   const_iterator end() const   { return RegSequence.end(); }
158 };
159
160 }
161
162 void
163 RegUseTracker::CountRegister(const SCEV *Reg, size_t LUIdx) {
164   std::pair<RegUsesTy::iterator, bool> Pair =
165     RegUsesMap.insert(std::make_pair(Reg, RegSortData()));
166   RegSortData &RSD = Pair.first->second;
167   if (Pair.second)
168     RegSequence.push_back(Reg);
169   RSD.UsedByIndices.resize(std::max(RSD.UsedByIndices.size(), LUIdx + 1));
170   RSD.UsedByIndices.set(LUIdx);
171 }
172
173 void
174 RegUseTracker::DropRegister(const SCEV *Reg, size_t LUIdx) {
175   RegUsesTy::iterator It = RegUsesMap.find(Reg);
176   assert(It != RegUsesMap.end());
177   RegSortData &RSD = It->second;
178   assert(RSD.UsedByIndices.size() > LUIdx);
179   RSD.UsedByIndices.reset(LUIdx);
180 }
181
182 void
183 RegUseTracker::SwapAndDropUse(size_t LUIdx, size_t LastLUIdx) {
184   assert(LUIdx <= LastLUIdx);
185
186   // Update RegUses. The data structure is not optimized for this purpose;
187   // we must iterate through it and update each of the bit vectors.
188   for (RegUsesTy::iterator I = RegUsesMap.begin(), E = RegUsesMap.end();
189        I != E; ++I) {
190     SmallBitVector &UsedByIndices = I->second.UsedByIndices;
191     if (LUIdx < UsedByIndices.size())
192       UsedByIndices[LUIdx] =
193         LastLUIdx < UsedByIndices.size() ? UsedByIndices[LastLUIdx] : 0;
194     UsedByIndices.resize(std::min(UsedByIndices.size(), LastLUIdx));
195   }
196 }
197
198 bool
199 RegUseTracker::isRegUsedByUsesOtherThan(const SCEV *Reg, size_t LUIdx) const {
200   RegUsesTy::const_iterator I = RegUsesMap.find(Reg);
201   if (I == RegUsesMap.end())
202     return false;
203   const SmallBitVector &UsedByIndices = I->second.UsedByIndices;
204   int i = UsedByIndices.find_first();
205   if (i == -1) return false;
206   if ((size_t)i != LUIdx) return true;
207   return UsedByIndices.find_next(i) != -1;
208 }
209
210 const SmallBitVector &RegUseTracker::getUsedByIndices(const SCEV *Reg) const {
211   RegUsesTy::const_iterator I = RegUsesMap.find(Reg);
212   assert(I != RegUsesMap.end() && "Unknown register!");
213   return I->second.UsedByIndices;
214 }
215
216 void RegUseTracker::clear() {
217   RegUsesMap.clear();
218   RegSequence.clear();
219 }
220
221 namespace {
222
223 /// Formula - This class holds information that describes a formula for
224 /// computing satisfying a use. It may include broken-out immediates and scaled
225 /// registers.
226 struct Formula {
227   /// AM - This is used to represent complex addressing, as well as other kinds
228   /// of interesting uses.
229   AddrMode AM;
230
231   /// BaseRegs - The list of "base" registers for this use. When this is
232   /// non-empty, AM.HasBaseReg should be set to true.
233   SmallVector<const SCEV *, 2> BaseRegs;
234
235   /// ScaledReg - The 'scaled' register for this use. This should be non-null
236   /// when AM.Scale is not zero.
237   const SCEV *ScaledReg;
238
239   /// UnfoldedOffset - An additional constant offset which added near the
240   /// use. This requires a temporary register, but the offset itself can
241   /// live in an add immediate field rather than a register.
242   int64_t UnfoldedOffset;
243
244   Formula() : ScaledReg(0), UnfoldedOffset(0) {}
245
246   void InitialMatch(const SCEV *S, Loop *L, ScalarEvolution &SE);
247
248   unsigned getNumRegs() const;
249   Type *getType() const;
250
251   void DeleteBaseReg(const SCEV *&S);
252
253   bool referencesReg(const SCEV *S) const;
254   bool hasRegsUsedByUsesOtherThan(size_t LUIdx,
255                                   const RegUseTracker &RegUses) const;
256
257   void print(raw_ostream &OS) const;
258   void dump() const;
259 };
260
261 }
262
263 /// DoInitialMatch - Recursion helper for InitialMatch.
264 static void DoInitialMatch(const SCEV *S, Loop *L,
265                            SmallVectorImpl<const SCEV *> &Good,
266                            SmallVectorImpl<const SCEV *> &Bad,
267                            ScalarEvolution &SE) {
268   // Collect expressions which properly dominate the loop header.
269   if (SE.properlyDominates(S, L->getHeader())) {
270     Good.push_back(S);
271     return;
272   }
273
274   // Look at add operands.
275   if (const SCEVAddExpr *Add = dyn_cast<SCEVAddExpr>(S)) {
276     for (SCEVAddExpr::op_iterator I = Add->op_begin(), E = Add->op_end();
277          I != E; ++I)
278       DoInitialMatch(*I, L, Good, Bad, SE);
279     return;
280   }
281
282   // Look at addrec operands.
283   if (const SCEVAddRecExpr *AR = dyn_cast<SCEVAddRecExpr>(S))
284     if (!AR->getStart()->isZero()) {
285       DoInitialMatch(AR->getStart(), L, Good, Bad, SE);
286       DoInitialMatch(SE.getAddRecExpr(SE.getConstant(AR->getType(), 0),
287                                       AR->getStepRecurrence(SE),
288                                       // FIXME: AR->getNoWrapFlags()
289                                       AR->getLoop(), SCEV::FlagAnyWrap),
290                      L, Good, Bad, SE);
291       return;
292     }
293
294   // Handle a multiplication by -1 (negation) if it didn't fold.
295   if (const SCEVMulExpr *Mul = dyn_cast<SCEVMulExpr>(S))
296     if (Mul->getOperand(0)->isAllOnesValue()) {
297       SmallVector<const SCEV *, 4> Ops(Mul->op_begin()+1, Mul->op_end());
298       const SCEV *NewMul = SE.getMulExpr(Ops);
299
300       SmallVector<const SCEV *, 4> MyGood;
301       SmallVector<const SCEV *, 4> MyBad;
302       DoInitialMatch(NewMul, L, MyGood, MyBad, SE);
303       const SCEV *NegOne = SE.getSCEV(ConstantInt::getAllOnesValue(
304         SE.getEffectiveSCEVType(NewMul->getType())));
305       for (SmallVectorImpl<const SCEV *>::const_iterator I = MyGood.begin(),
306            E = MyGood.end(); I != E; ++I)
307         Good.push_back(SE.getMulExpr(NegOne, *I));
308       for (SmallVectorImpl<const SCEV *>::const_iterator I = MyBad.begin(),
309            E = MyBad.end(); I != E; ++I)
310         Bad.push_back(SE.getMulExpr(NegOne, *I));
311       return;
312     }
313
314   // Ok, we can't do anything interesting. Just stuff the whole thing into a
315   // register and hope for the best.
316   Bad.push_back(S);
317 }
318
319 /// InitialMatch - Incorporate loop-variant parts of S into this Formula,
320 /// attempting to keep all loop-invariant and loop-computable values in a
321 /// single base register.
322 void Formula::InitialMatch(const SCEV *S, Loop *L, ScalarEvolution &SE) {
323   SmallVector<const SCEV *, 4> Good;
324   SmallVector<const SCEV *, 4> Bad;
325   DoInitialMatch(S, L, Good, Bad, SE);
326   if (!Good.empty()) {
327     const SCEV *Sum = SE.getAddExpr(Good);
328     if (!Sum->isZero())
329       BaseRegs.push_back(Sum);
330     AM.HasBaseReg = true;
331   }
332   if (!Bad.empty()) {
333     const SCEV *Sum = SE.getAddExpr(Bad);
334     if (!Sum->isZero())
335       BaseRegs.push_back(Sum);
336     AM.HasBaseReg = true;
337   }
338 }
339
340 /// getNumRegs - Return the total number of register operands used by this
341 /// formula. This does not include register uses implied by non-constant
342 /// addrec strides.
343 unsigned Formula::getNumRegs() const {
344   return !!ScaledReg + BaseRegs.size();
345 }
346
347 /// getType - Return the type of this formula, if it has one, or null
348 /// otherwise. This type is meaningless except for the bit size.
349 Type *Formula::getType() const {
350   return !BaseRegs.empty() ? BaseRegs.front()->getType() :
351          ScaledReg ? ScaledReg->getType() :
352          AM.BaseGV ? AM.BaseGV->getType() :
353          0;
354 }
355
356 /// DeleteBaseReg - Delete the given base reg from the BaseRegs list.
357 void Formula::DeleteBaseReg(const SCEV *&S) {
358   if (&S != &BaseRegs.back())
359     std::swap(S, BaseRegs.back());
360   BaseRegs.pop_back();
361 }
362
363 /// referencesReg - Test if this formula references the given register.
364 bool Formula::referencesReg(const SCEV *S) const {
365   return S == ScaledReg ||
366          std::find(BaseRegs.begin(), BaseRegs.end(), S) != BaseRegs.end();
367 }
368
369 /// hasRegsUsedByUsesOtherThan - Test whether this formula uses registers
370 /// which are used by uses other than the use with the given index.
371 bool Formula::hasRegsUsedByUsesOtherThan(size_t LUIdx,
372                                          const RegUseTracker &RegUses) const {
373   if (ScaledReg)
374     if (RegUses.isRegUsedByUsesOtherThan(ScaledReg, LUIdx))
375       return true;
376   for (SmallVectorImpl<const SCEV *>::const_iterator I = BaseRegs.begin(),
377        E = BaseRegs.end(); I != E; ++I)
378     if (RegUses.isRegUsedByUsesOtherThan(*I, LUIdx))
379       return true;
380   return false;
381 }
382
383 void Formula::print(raw_ostream &OS) const {
384   bool First = true;
385   if (AM.BaseGV) {
386     if (!First) OS << " + "; else First = false;
387     WriteAsOperand(OS, AM.BaseGV, /*PrintType=*/false);
388   }
389   if (AM.BaseOffs != 0) {
390     if (!First) OS << " + "; else First = false;
391     OS << AM.BaseOffs;
392   }
393   for (SmallVectorImpl<const SCEV *>::const_iterator I = BaseRegs.begin(),
394        E = BaseRegs.end(); I != E; ++I) {
395     if (!First) OS << " + "; else First = false;
396     OS << "reg(" << **I << ')';
397   }
398   if (AM.HasBaseReg && BaseRegs.empty()) {
399     if (!First) OS << " + "; else First = false;
400     OS << "**error: HasBaseReg**";
401   } else if (!AM.HasBaseReg && !BaseRegs.empty()) {
402     if (!First) OS << " + "; else First = false;
403     OS << "**error: !HasBaseReg**";
404   }
405   if (AM.Scale != 0) {
406     if (!First) OS << " + "; else First = false;
407     OS << AM.Scale << "*reg(";
408     if (ScaledReg)
409       OS << *ScaledReg;
410     else
411       OS << "<unknown>";
412     OS << ')';
413   }
414   if (UnfoldedOffset != 0) {
415     if (!First) OS << " + "; else First = false;
416     OS << "imm(" << UnfoldedOffset << ')';
417   }
418 }
419
420 #if !defined(NDEBUG) || defined(LLVM_ENABLE_DUMP)
421 void Formula::dump() const {
422   print(errs()); errs() << '\n';
423 }
424 #endif
425
426 /// isAddRecSExtable - Return true if the given addrec can be sign-extended
427 /// without changing its value.
428 static bool isAddRecSExtable(const SCEVAddRecExpr *AR, ScalarEvolution &SE) {
429   Type *WideTy =
430     IntegerType::get(SE.getContext(), SE.getTypeSizeInBits(AR->getType()) + 1);
431   return isa<SCEVAddRecExpr>(SE.getSignExtendExpr(AR, WideTy));
432 }
433
434 /// isAddSExtable - Return true if the given add can be sign-extended
435 /// without changing its value.
436 static bool isAddSExtable(const SCEVAddExpr *A, ScalarEvolution &SE) {
437   Type *WideTy =
438     IntegerType::get(SE.getContext(), SE.getTypeSizeInBits(A->getType()) + 1);
439   return isa<SCEVAddExpr>(SE.getSignExtendExpr(A, WideTy));
440 }
441
442 /// isMulSExtable - Return true if the given mul can be sign-extended
443 /// without changing its value.
444 static bool isMulSExtable(const SCEVMulExpr *M, ScalarEvolution &SE) {
445   Type *WideTy =
446     IntegerType::get(SE.getContext(),
447                      SE.getTypeSizeInBits(M->getType()) * M->getNumOperands());
448   return isa<SCEVMulExpr>(SE.getSignExtendExpr(M, WideTy));
449 }
450
451 /// getExactSDiv - Return an expression for LHS /s RHS, if it can be determined
452 /// and if the remainder is known to be zero,  or null otherwise. If
453 /// IgnoreSignificantBits is true, expressions like (X * Y) /s Y are simplified
454 /// to Y, ignoring that the multiplication may overflow, which is useful when
455 /// the result will be used in a context where the most significant bits are
456 /// ignored.
457 static const SCEV *getExactSDiv(const SCEV *LHS, const SCEV *RHS,
458                                 ScalarEvolution &SE,
459                                 bool IgnoreSignificantBits = false) {
460   // Handle the trivial case, which works for any SCEV type.
461   if (LHS == RHS)
462     return SE.getConstant(LHS->getType(), 1);
463
464   // Handle a few RHS special cases.
465   const SCEVConstant *RC = dyn_cast<SCEVConstant>(RHS);
466   if (RC) {
467     const APInt &RA = RC->getValue()->getValue();
468     // Handle x /s -1 as x * -1, to give ScalarEvolution a chance to do
469     // some folding.
470     if (RA.isAllOnesValue())
471       return SE.getMulExpr(LHS, RC);
472     // Handle x /s 1 as x.
473     if (RA == 1)
474       return LHS;
475   }
476
477   // Check for a division of a constant by a constant.
478   if (const SCEVConstant *C = dyn_cast<SCEVConstant>(LHS)) {
479     if (!RC)
480       return 0;
481     const APInt &LA = C->getValue()->getValue();
482     const APInt &RA = RC->getValue()->getValue();
483     if (LA.srem(RA) != 0)
484       return 0;
485     return SE.getConstant(LA.sdiv(RA));
486   }
487
488   // Distribute the sdiv over addrec operands, if the addrec doesn't overflow.
489   if (const SCEVAddRecExpr *AR = dyn_cast<SCEVAddRecExpr>(LHS)) {
490     if (IgnoreSignificantBits || isAddRecSExtable(AR, SE)) {
491       const SCEV *Step = getExactSDiv(AR->getStepRecurrence(SE), RHS, SE,
492                                       IgnoreSignificantBits);
493       if (!Step) return 0;
494       const SCEV *Start = getExactSDiv(AR->getStart(), RHS, SE,
495                                        IgnoreSignificantBits);
496       if (!Start) return 0;
497       // FlagNW is independent of the start value, step direction, and is
498       // preserved with smaller magnitude steps.
499       // FIXME: AR->getNoWrapFlags(SCEV::FlagNW)
500       return SE.getAddRecExpr(Start, Step, AR->getLoop(), SCEV::FlagAnyWrap);
501     }
502     return 0;
503   }
504
505   // Distribute the sdiv over add operands, if the add doesn't overflow.
506   if (const SCEVAddExpr *Add = dyn_cast<SCEVAddExpr>(LHS)) {
507     if (IgnoreSignificantBits || isAddSExtable(Add, SE)) {
508       SmallVector<const SCEV *, 8> Ops;
509       for (SCEVAddExpr::op_iterator I = Add->op_begin(), E = Add->op_end();
510            I != E; ++I) {
511         const SCEV *Op = getExactSDiv(*I, RHS, SE,
512                                       IgnoreSignificantBits);
513         if (!Op) return 0;
514         Ops.push_back(Op);
515       }
516       return SE.getAddExpr(Ops);
517     }
518     return 0;
519   }
520
521   // Check for a multiply operand that we can pull RHS out of.
522   if (const SCEVMulExpr *Mul = dyn_cast<SCEVMulExpr>(LHS)) {
523     if (IgnoreSignificantBits || isMulSExtable(Mul, SE)) {
524       SmallVector<const SCEV *, 4> Ops;
525       bool Found = false;
526       for (SCEVMulExpr::op_iterator I = Mul->op_begin(), E = Mul->op_end();
527            I != E; ++I) {
528         const SCEV *S = *I;
529         if (!Found)
530           if (const SCEV *Q = getExactSDiv(S, RHS, SE,
531                                            IgnoreSignificantBits)) {
532             S = Q;
533             Found = true;
534           }
535         Ops.push_back(S);
536       }
537       return Found ? SE.getMulExpr(Ops) : 0;
538     }
539     return 0;
540   }
541
542   // Otherwise we don't know.
543   return 0;
544 }
545
546 /// ExtractImmediate - If S involves the addition of a constant integer value,
547 /// return that integer value, and mutate S to point to a new SCEV with that
548 /// value excluded.
549 static int64_t ExtractImmediate(const SCEV *&S, ScalarEvolution &SE) {
550   if (const SCEVConstant *C = dyn_cast<SCEVConstant>(S)) {
551     if (C->getValue()->getValue().getMinSignedBits() <= 64) {
552       S = SE.getConstant(C->getType(), 0);
553       return C->getValue()->getSExtValue();
554     }
555   } else if (const SCEVAddExpr *Add = dyn_cast<SCEVAddExpr>(S)) {
556     SmallVector<const SCEV *, 8> NewOps(Add->op_begin(), Add->op_end());
557     int64_t Result = ExtractImmediate(NewOps.front(), SE);
558     if (Result != 0)
559       S = SE.getAddExpr(NewOps);
560     return Result;
561   } else if (const SCEVAddRecExpr *AR = dyn_cast<SCEVAddRecExpr>(S)) {
562     SmallVector<const SCEV *, 8> NewOps(AR->op_begin(), AR->op_end());
563     int64_t Result = ExtractImmediate(NewOps.front(), SE);
564     if (Result != 0)
565       S = SE.getAddRecExpr(NewOps, AR->getLoop(),
566                            // FIXME: AR->getNoWrapFlags(SCEV::FlagNW)
567                            SCEV::FlagAnyWrap);
568     return Result;
569   }
570   return 0;
571 }
572
573 /// ExtractSymbol - If S involves the addition of a GlobalValue address,
574 /// return that symbol, and mutate S to point to a new SCEV with that
575 /// value excluded.
576 static GlobalValue *ExtractSymbol(const SCEV *&S, ScalarEvolution &SE) {
577   if (const SCEVUnknown *U = dyn_cast<SCEVUnknown>(S)) {
578     if (GlobalValue *GV = dyn_cast<GlobalValue>(U->getValue())) {
579       S = SE.getConstant(GV->getType(), 0);
580       return GV;
581     }
582   } else if (const SCEVAddExpr *Add = dyn_cast<SCEVAddExpr>(S)) {
583     SmallVector<const SCEV *, 8> NewOps(Add->op_begin(), Add->op_end());
584     GlobalValue *Result = ExtractSymbol(NewOps.back(), SE);
585     if (Result)
586       S = SE.getAddExpr(NewOps);
587     return Result;
588   } else if (const SCEVAddRecExpr *AR = dyn_cast<SCEVAddRecExpr>(S)) {
589     SmallVector<const SCEV *, 8> NewOps(AR->op_begin(), AR->op_end());
590     GlobalValue *Result = ExtractSymbol(NewOps.front(), SE);
591     if (Result)
592       S = SE.getAddRecExpr(NewOps, AR->getLoop(),
593                            // FIXME: AR->getNoWrapFlags(SCEV::FlagNW)
594                            SCEV::FlagAnyWrap);
595     return Result;
596   }
597   return 0;
598 }
599
600 /// isAddressUse - Returns true if the specified instruction is using the
601 /// specified value as an address.
602 static bool isAddressUse(Instruction *Inst, Value *OperandVal) {
603   bool isAddress = isa<LoadInst>(Inst);
604   if (StoreInst *SI = dyn_cast<StoreInst>(Inst)) {
605     if (SI->getOperand(1) == OperandVal)
606       isAddress = true;
607   } else if (IntrinsicInst *II = dyn_cast<IntrinsicInst>(Inst)) {
608     // Addressing modes can also be folded into prefetches and a variety
609     // of intrinsics.
610     switch (II->getIntrinsicID()) {
611       default: break;
612       case Intrinsic::prefetch:
613       case Intrinsic::x86_sse_storeu_ps:
614       case Intrinsic::x86_sse2_storeu_pd:
615       case Intrinsic::x86_sse2_storeu_dq:
616       case Intrinsic::x86_sse2_storel_dq:
617         if (II->getArgOperand(0) == OperandVal)
618           isAddress = true;
619         break;
620     }
621   }
622   return isAddress;
623 }
624
625 /// getAccessType - Return the type of the memory being accessed.
626 static Type *getAccessType(const Instruction *Inst) {
627   Type *AccessTy = Inst->getType();
628   if (const StoreInst *SI = dyn_cast<StoreInst>(Inst))
629     AccessTy = SI->getOperand(0)->getType();
630   else if (const IntrinsicInst *II = dyn_cast<IntrinsicInst>(Inst)) {
631     // Addressing modes can also be folded into prefetches and a variety
632     // of intrinsics.
633     switch (II->getIntrinsicID()) {
634     default: break;
635     case Intrinsic::x86_sse_storeu_ps:
636     case Intrinsic::x86_sse2_storeu_pd:
637     case Intrinsic::x86_sse2_storeu_dq:
638     case Intrinsic::x86_sse2_storel_dq:
639       AccessTy = II->getArgOperand(0)->getType();
640       break;
641     }
642   }
643
644   // All pointers have the same requirements, so canonicalize them to an
645   // arbitrary pointer type to minimize variation.
646   if (PointerType *PTy = dyn_cast<PointerType>(AccessTy))
647     AccessTy = PointerType::get(IntegerType::get(PTy->getContext(), 1),
648                                 PTy->getAddressSpace());
649
650   return AccessTy;
651 }
652
653 /// isExistingPhi - Return true if this AddRec is already a phi in its loop.
654 static bool isExistingPhi(const SCEVAddRecExpr *AR, ScalarEvolution &SE) {
655   for (BasicBlock::iterator I = AR->getLoop()->getHeader()->begin();
656        PHINode *PN = dyn_cast<PHINode>(I); ++I) {
657     if (SE.isSCEVable(PN->getType()) &&
658         (SE.getEffectiveSCEVType(PN->getType()) ==
659          SE.getEffectiveSCEVType(AR->getType())) &&
660         SE.getSCEV(PN) == AR)
661       return true;
662   }
663   return false;
664 }
665
666 /// Check if expanding this expression is likely to incur significant cost. This
667 /// is tricky because SCEV doesn't track which expressions are actually computed
668 /// by the current IR.
669 ///
670 /// We currently allow expansion of IV increments that involve adds,
671 /// multiplication by constants, and AddRecs from existing phis.
672 ///
673 /// TODO: Allow UDivExpr if we can find an existing IV increment that is an
674 /// obvious multiple of the UDivExpr.
675 static bool isHighCostExpansion(const SCEV *S,
676                                 SmallPtrSet<const SCEV*, 8> &Processed,
677                                 ScalarEvolution &SE) {
678   // Zero/One operand expressions
679   switch (S->getSCEVType()) {
680   case scUnknown:
681   case scConstant:
682     return false;
683   case scTruncate:
684     return isHighCostExpansion(cast<SCEVTruncateExpr>(S)->getOperand(),
685                                Processed, SE);
686   case scZeroExtend:
687     return isHighCostExpansion(cast<SCEVZeroExtendExpr>(S)->getOperand(),
688                                Processed, SE);
689   case scSignExtend:
690     return isHighCostExpansion(cast<SCEVSignExtendExpr>(S)->getOperand(),
691                                Processed, SE);
692   }
693
694   if (!Processed.insert(S))
695     return false;
696
697   if (const SCEVAddExpr *Add = dyn_cast<SCEVAddExpr>(S)) {
698     for (SCEVAddExpr::op_iterator I = Add->op_begin(), E = Add->op_end();
699          I != E; ++I) {
700       if (isHighCostExpansion(*I, Processed, SE))
701         return true;
702     }
703     return false;
704   }
705
706   if (const SCEVMulExpr *Mul = dyn_cast<SCEVMulExpr>(S)) {
707     if (Mul->getNumOperands() == 2) {
708       // Multiplication by a constant is ok
709       if (isa<SCEVConstant>(Mul->getOperand(0)))
710         return isHighCostExpansion(Mul->getOperand(1), Processed, SE);
711
712       // If we have the value of one operand, check if an existing
713       // multiplication already generates this expression.
714       if (const SCEVUnknown *U = dyn_cast<SCEVUnknown>(Mul->getOperand(1))) {
715         Value *UVal = U->getValue();
716         for (Value::use_iterator UI = UVal->use_begin(), UE = UVal->use_end();
717              UI != UE; ++UI) {
718           // If U is a constant, it may be used by a ConstantExpr.
719           Instruction *User = dyn_cast<Instruction>(*UI);
720           if (User && User->getOpcode() == Instruction::Mul
721               && SE.isSCEVable(User->getType())) {
722             return SE.getSCEV(User) == Mul;
723           }
724         }
725       }
726     }
727   }
728
729   if (const SCEVAddRecExpr *AR = dyn_cast<SCEVAddRecExpr>(S)) {
730     if (isExistingPhi(AR, SE))
731       return false;
732   }
733
734   // Fow now, consider any other type of expression (div/mul/min/max) high cost.
735   return true;
736 }
737
738 /// DeleteTriviallyDeadInstructions - If any of the instructions is the
739 /// specified set are trivially dead, delete them and see if this makes any of
740 /// their operands subsequently dead.
741 static bool
742 DeleteTriviallyDeadInstructions(SmallVectorImpl<WeakVH> &DeadInsts) {
743   bool Changed = false;
744
745   while (!DeadInsts.empty()) {
746     Value *V = DeadInsts.pop_back_val();
747     Instruction *I = dyn_cast_or_null<Instruction>(V);
748
749     if (I == 0 || !isInstructionTriviallyDead(I))
750       continue;
751
752     for (User::op_iterator OI = I->op_begin(), E = I->op_end(); OI != E; ++OI)
753       if (Instruction *U = dyn_cast<Instruction>(*OI)) {
754         *OI = 0;
755         if (U->use_empty())
756           DeadInsts.push_back(U);
757       }
758
759     I->eraseFromParent();
760     Changed = true;
761   }
762
763   return Changed;
764 }
765
766 namespace {
767
768 /// Cost - This class is used to measure and compare candidate formulae.
769 class Cost {
770   /// TODO: Some of these could be merged. Also, a lexical ordering
771   /// isn't always optimal.
772   unsigned NumRegs;
773   unsigned AddRecCost;
774   unsigned NumIVMuls;
775   unsigned NumBaseAdds;
776   unsigned ImmCost;
777   unsigned SetupCost;
778
779 public:
780   Cost()
781     : NumRegs(0), AddRecCost(0), NumIVMuls(0), NumBaseAdds(0), ImmCost(0),
782       SetupCost(0) {}
783
784   bool operator<(const Cost &Other) const;
785
786   void Loose();
787
788 #ifndef NDEBUG
789   // Once any of the metrics loses, they must all remain losers.
790   bool isValid() {
791     return ((NumRegs | AddRecCost | NumIVMuls | NumBaseAdds
792              | ImmCost | SetupCost) != ~0u)
793       || ((NumRegs & AddRecCost & NumIVMuls & NumBaseAdds
794            & ImmCost & SetupCost) == ~0u);
795   }
796 #endif
797
798   bool isLoser() {
799     assert(isValid() && "invalid cost");
800     return NumRegs == ~0u;
801   }
802
803   void RateFormula(const Formula &F,
804                    SmallPtrSet<const SCEV *, 16> &Regs,
805                    const DenseSet<const SCEV *> &VisitedRegs,
806                    const Loop *L,
807                    const SmallVectorImpl<int64_t> &Offsets,
808                    ScalarEvolution &SE, DominatorTree &DT,
809                    SmallPtrSet<const SCEV *, 16> *LoserRegs = 0);
810
811   void print(raw_ostream &OS) const;
812   void dump() const;
813
814 private:
815   void RateRegister(const SCEV *Reg,
816                     SmallPtrSet<const SCEV *, 16> &Regs,
817                     const Loop *L,
818                     ScalarEvolution &SE, DominatorTree &DT);
819   void RatePrimaryRegister(const SCEV *Reg,
820                            SmallPtrSet<const SCEV *, 16> &Regs,
821                            const Loop *L,
822                            ScalarEvolution &SE, DominatorTree &DT,
823                            SmallPtrSet<const SCEV *, 16> *LoserRegs);
824 };
825
826 }
827
828 /// RateRegister - Tally up interesting quantities from the given register.
829 void Cost::RateRegister(const SCEV *Reg,
830                         SmallPtrSet<const SCEV *, 16> &Regs,
831                         const Loop *L,
832                         ScalarEvolution &SE, DominatorTree &DT) {
833   if (const SCEVAddRecExpr *AR = dyn_cast<SCEVAddRecExpr>(Reg)) {
834     // If this is an addrec for another loop, don't second-guess its addrec phi
835     // nodes. LSR isn't currently smart enough to reason about more than one
836     // loop at a time. LSR has already run on inner loops, will not run on outer
837     // loops, and cannot be expected to change sibling loops.
838     if (AR->getLoop() != L) {
839       // If the AddRec exists, consider it's register free and leave it alone.
840       if (isExistingPhi(AR, SE))
841         return;
842
843       // Otherwise, do not consider this formula at all.
844       Loose();
845       return;
846     }
847     AddRecCost += 1; /// TODO: This should be a function of the stride.
848
849     // Add the step value register, if it needs one.
850     // TODO: The non-affine case isn't precisely modeled here.
851     if (!AR->isAffine() || !isa<SCEVConstant>(AR->getOperand(1))) {
852       if (!Regs.count(AR->getOperand(1))) {
853         RateRegister(AR->getOperand(1), Regs, L, SE, DT);
854         if (isLoser())
855           return;
856       }
857     }
858   }
859   ++NumRegs;
860
861   // Rough heuristic; favor registers which don't require extra setup
862   // instructions in the preheader.
863   if (!isa<SCEVUnknown>(Reg) &&
864       !isa<SCEVConstant>(Reg) &&
865       !(isa<SCEVAddRecExpr>(Reg) &&
866         (isa<SCEVUnknown>(cast<SCEVAddRecExpr>(Reg)->getStart()) ||
867          isa<SCEVConstant>(cast<SCEVAddRecExpr>(Reg)->getStart()))))
868     ++SetupCost;
869
870     NumIVMuls += isa<SCEVMulExpr>(Reg) &&
871                  SE.hasComputableLoopEvolution(Reg, L);
872 }
873
874 /// RatePrimaryRegister - Record this register in the set. If we haven't seen it
875 /// before, rate it. Optional LoserRegs provides a way to declare any formula
876 /// that refers to one of those regs an instant loser.
877 void Cost::RatePrimaryRegister(const SCEV *Reg,
878                                SmallPtrSet<const SCEV *, 16> &Regs,
879                                const Loop *L,
880                                ScalarEvolution &SE, DominatorTree &DT,
881                                SmallPtrSet<const SCEV *, 16> *LoserRegs) {
882   if (LoserRegs && LoserRegs->count(Reg)) {
883     Loose();
884     return;
885   }
886   if (Regs.insert(Reg)) {
887     RateRegister(Reg, Regs, L, SE, DT);
888     if (isLoser())
889       LoserRegs->insert(Reg);
890   }
891 }
892
893 void Cost::RateFormula(const Formula &F,
894                        SmallPtrSet<const SCEV *, 16> &Regs,
895                        const DenseSet<const SCEV *> &VisitedRegs,
896                        const Loop *L,
897                        const SmallVectorImpl<int64_t> &Offsets,
898                        ScalarEvolution &SE, DominatorTree &DT,
899                        SmallPtrSet<const SCEV *, 16> *LoserRegs) {
900   // Tally up the registers.
901   if (const SCEV *ScaledReg = F.ScaledReg) {
902     if (VisitedRegs.count(ScaledReg)) {
903       Loose();
904       return;
905     }
906     RatePrimaryRegister(ScaledReg, Regs, L, SE, DT, LoserRegs);
907     if (isLoser())
908       return;
909   }
910   for (SmallVectorImpl<const SCEV *>::const_iterator I = F.BaseRegs.begin(),
911        E = F.BaseRegs.end(); I != E; ++I) {
912     const SCEV *BaseReg = *I;
913     if (VisitedRegs.count(BaseReg)) {
914       Loose();
915       return;
916     }
917     RatePrimaryRegister(BaseReg, Regs, L, SE, DT, LoserRegs);
918     if (isLoser())
919       return;
920   }
921
922   // Determine how many (unfolded) adds we'll need inside the loop.
923   size_t NumBaseParts = F.BaseRegs.size() + (F.UnfoldedOffset != 0);
924   if (NumBaseParts > 1)
925     NumBaseAdds += NumBaseParts - 1;
926
927   // Tally up the non-zero immediates.
928   for (SmallVectorImpl<int64_t>::const_iterator I = Offsets.begin(),
929        E = Offsets.end(); I != E; ++I) {
930     int64_t Offset = (uint64_t)*I + F.AM.BaseOffs;
931     if (F.AM.BaseGV)
932       ImmCost += 64; // Handle symbolic values conservatively.
933                      // TODO: This should probably be the pointer size.
934     else if (Offset != 0)
935       ImmCost += APInt(64, Offset, true).getMinSignedBits();
936   }
937   assert(isValid() && "invalid cost");
938 }
939
940 /// Loose - Set this cost to a losing value.
941 void Cost::Loose() {
942   NumRegs = ~0u;
943   AddRecCost = ~0u;
944   NumIVMuls = ~0u;
945   NumBaseAdds = ~0u;
946   ImmCost = ~0u;
947   SetupCost = ~0u;
948 }
949
950 /// operator< - Choose the lower cost.
951 bool Cost::operator<(const Cost &Other) const {
952   if (NumRegs != Other.NumRegs)
953     return NumRegs < Other.NumRegs;
954   if (AddRecCost != Other.AddRecCost)
955     return AddRecCost < Other.AddRecCost;
956   if (NumIVMuls != Other.NumIVMuls)
957     return NumIVMuls < Other.NumIVMuls;
958   if (NumBaseAdds != Other.NumBaseAdds)
959     return NumBaseAdds < Other.NumBaseAdds;
960   if (ImmCost != Other.ImmCost)
961     return ImmCost < Other.ImmCost;
962   if (SetupCost != Other.SetupCost)
963     return SetupCost < Other.SetupCost;
964   return false;
965 }
966
967 void Cost::print(raw_ostream &OS) const {
968   OS << NumRegs << " reg" << (NumRegs == 1 ? "" : "s");
969   if (AddRecCost != 0)
970     OS << ", with addrec cost " << AddRecCost;
971   if (NumIVMuls != 0)
972     OS << ", plus " << NumIVMuls << " IV mul" << (NumIVMuls == 1 ? "" : "s");
973   if (NumBaseAdds != 0)
974     OS << ", plus " << NumBaseAdds << " base add"
975        << (NumBaseAdds == 1 ? "" : "s");
976   if (ImmCost != 0)
977     OS << ", plus " << ImmCost << " imm cost";
978   if (SetupCost != 0)
979     OS << ", plus " << SetupCost << " setup cost";
980 }
981
982 #if !defined(NDEBUG) || defined(LLVM_ENABLE_DUMP)
983 void Cost::dump() const {
984   print(errs()); errs() << '\n';
985 }
986 #endif
987
988 namespace {
989
990 /// LSRFixup - An operand value in an instruction which is to be replaced
991 /// with some equivalent, possibly strength-reduced, replacement.
992 struct LSRFixup {
993   /// UserInst - The instruction which will be updated.
994   Instruction *UserInst;
995
996   /// OperandValToReplace - The operand of the instruction which will
997   /// be replaced. The operand may be used more than once; every instance
998   /// will be replaced.
999   Value *OperandValToReplace;
1000
1001   /// PostIncLoops - If this user is to use the post-incremented value of an
1002   /// induction variable, this variable is non-null and holds the loop
1003   /// associated with the induction variable.
1004   PostIncLoopSet PostIncLoops;
1005
1006   /// LUIdx - The index of the LSRUse describing the expression which
1007   /// this fixup needs, minus an offset (below).
1008   size_t LUIdx;
1009
1010   /// Offset - A constant offset to be added to the LSRUse expression.
1011   /// This allows multiple fixups to share the same LSRUse with different
1012   /// offsets, for example in an unrolled loop.
1013   int64_t Offset;
1014
1015   bool isUseFullyOutsideLoop(const Loop *L) const;
1016
1017   LSRFixup();
1018
1019   void print(raw_ostream &OS) const;
1020   void dump() const;
1021 };
1022
1023 }
1024
1025 LSRFixup::LSRFixup()
1026   : UserInst(0), OperandValToReplace(0), LUIdx(~size_t(0)), Offset(0) {}
1027
1028 /// isUseFullyOutsideLoop - Test whether this fixup always uses its
1029 /// value outside of the given loop.
1030 bool LSRFixup::isUseFullyOutsideLoop(const Loop *L) const {
1031   // PHI nodes use their value in their incoming blocks.
1032   if (const PHINode *PN = dyn_cast<PHINode>(UserInst)) {
1033     for (unsigned i = 0, e = PN->getNumIncomingValues(); i != e; ++i)
1034       if (PN->getIncomingValue(i) == OperandValToReplace &&
1035           L->contains(PN->getIncomingBlock(i)))
1036         return false;
1037     return true;
1038   }
1039
1040   return !L->contains(UserInst);
1041 }
1042
1043 void LSRFixup::print(raw_ostream &OS) const {
1044   OS << "UserInst=";
1045   // Store is common and interesting enough to be worth special-casing.
1046   if (StoreInst *Store = dyn_cast<StoreInst>(UserInst)) {
1047     OS << "store ";
1048     WriteAsOperand(OS, Store->getOperand(0), /*PrintType=*/false);
1049   } else if (UserInst->getType()->isVoidTy())
1050     OS << UserInst->getOpcodeName();
1051   else
1052     WriteAsOperand(OS, UserInst, /*PrintType=*/false);
1053
1054   OS << ", OperandValToReplace=";
1055   WriteAsOperand(OS, OperandValToReplace, /*PrintType=*/false);
1056
1057   for (PostIncLoopSet::const_iterator I = PostIncLoops.begin(),
1058        E = PostIncLoops.end(); I != E; ++I) {
1059     OS << ", PostIncLoop=";
1060     WriteAsOperand(OS, (*I)->getHeader(), /*PrintType=*/false);
1061   }
1062
1063   if (LUIdx != ~size_t(0))
1064     OS << ", LUIdx=" << LUIdx;
1065
1066   if (Offset != 0)
1067     OS << ", Offset=" << Offset;
1068 }
1069
1070 #if !defined(NDEBUG) || defined(LLVM_ENABLE_DUMP)
1071 void LSRFixup::dump() const {
1072   print(errs()); errs() << '\n';
1073 }
1074 #endif
1075
1076 namespace {
1077
1078 /// UniquifierDenseMapInfo - A DenseMapInfo implementation for holding
1079 /// DenseMaps and DenseSets of sorted SmallVectors of const SCEV*.
1080 struct UniquifierDenseMapInfo {
1081   static SmallVector<const SCEV *, 2> getEmptyKey() {
1082     SmallVector<const SCEV *, 2> V;
1083     V.push_back(reinterpret_cast<const SCEV *>(-1));
1084     return V;
1085   }
1086
1087   static SmallVector<const SCEV *, 2> getTombstoneKey() {
1088     SmallVector<const SCEV *, 2> V;
1089     V.push_back(reinterpret_cast<const SCEV *>(-2));
1090     return V;
1091   }
1092
1093   static unsigned getHashValue(const SmallVector<const SCEV *, 2> &V) {
1094     unsigned Result = 0;
1095     for (SmallVectorImpl<const SCEV *>::const_iterator I = V.begin(),
1096          E = V.end(); I != E; ++I)
1097       Result ^= DenseMapInfo<const SCEV *>::getHashValue(*I);
1098     return Result;
1099   }
1100
1101   static bool isEqual(const SmallVector<const SCEV *, 2> &LHS,
1102                       const SmallVector<const SCEV *, 2> &RHS) {
1103     return LHS == RHS;
1104   }
1105 };
1106
1107 /// LSRUse - This class holds the state that LSR keeps for each use in
1108 /// IVUsers, as well as uses invented by LSR itself. It includes information
1109 /// about what kinds of things can be folded into the user, information about
1110 /// the user itself, and information about how the use may be satisfied.
1111 /// TODO: Represent multiple users of the same expression in common?
1112 class LSRUse {
1113   DenseSet<SmallVector<const SCEV *, 2>, UniquifierDenseMapInfo> Uniquifier;
1114
1115 public:
1116   /// KindType - An enum for a kind of use, indicating what types of
1117   /// scaled and immediate operands it might support.
1118   enum KindType {
1119     Basic,   ///< A normal use, with no folding.
1120     Special, ///< A special case of basic, allowing -1 scales.
1121     Address, ///< An address use; folding according to TargetLowering
1122     ICmpZero ///< An equality icmp with both operands folded into one.
1123     // TODO: Add a generic icmp too?
1124   };
1125
1126   KindType Kind;
1127   Type *AccessTy;
1128
1129   SmallVector<int64_t, 8> Offsets;
1130   int64_t MinOffset;
1131   int64_t MaxOffset;
1132
1133   /// AllFixupsOutsideLoop - This records whether all of the fixups using this
1134   /// LSRUse are outside of the loop, in which case some special-case heuristics
1135   /// may be used.
1136   bool AllFixupsOutsideLoop;
1137
1138   /// WidestFixupType - This records the widest use type for any fixup using
1139   /// this LSRUse. FindUseWithSimilarFormula can't consider uses with different
1140   /// max fixup widths to be equivalent, because the narrower one may be relying
1141   /// on the implicit truncation to truncate away bogus bits.
1142   Type *WidestFixupType;
1143
1144   /// Formulae - A list of ways to build a value that can satisfy this user.
1145   /// After the list is populated, one of these is selected heuristically and
1146   /// used to formulate a replacement for OperandValToReplace in UserInst.
1147   SmallVector<Formula, 12> Formulae;
1148
1149   /// Regs - The set of register candidates used by all formulae in this LSRUse.
1150   SmallPtrSet<const SCEV *, 4> Regs;
1151
1152   LSRUse(KindType K, Type *T) : Kind(K), AccessTy(T),
1153                                       MinOffset(INT64_MAX),
1154                                       MaxOffset(INT64_MIN),
1155                                       AllFixupsOutsideLoop(true),
1156                                       WidestFixupType(0) {}
1157
1158   bool HasFormulaWithSameRegs(const Formula &F) const;
1159   bool InsertFormula(const Formula &F);
1160   void DeleteFormula(Formula &F);
1161   void RecomputeRegs(size_t LUIdx, RegUseTracker &Reguses);
1162
1163   void print(raw_ostream &OS) const;
1164   void dump() const;
1165 };
1166
1167 }
1168
1169 /// HasFormula - Test whether this use as a formula which has the same
1170 /// registers as the given formula.
1171 bool LSRUse::HasFormulaWithSameRegs(const Formula &F) const {
1172   SmallVector<const SCEV *, 2> Key = F.BaseRegs;
1173   if (F.ScaledReg) Key.push_back(F.ScaledReg);
1174   // Unstable sort by host order ok, because this is only used for uniquifying.
1175   std::sort(Key.begin(), Key.end());
1176   return Uniquifier.count(Key);
1177 }
1178
1179 /// InsertFormula - If the given formula has not yet been inserted, add it to
1180 /// the list, and return true. Return false otherwise.
1181 bool LSRUse::InsertFormula(const Formula &F) {
1182   SmallVector<const SCEV *, 2> Key = F.BaseRegs;
1183   if (F.ScaledReg) Key.push_back(F.ScaledReg);
1184   // Unstable sort by host order ok, because this is only used for uniquifying.
1185   std::sort(Key.begin(), Key.end());
1186
1187   if (!Uniquifier.insert(Key).second)
1188     return false;
1189
1190   // Using a register to hold the value of 0 is not profitable.
1191   assert((!F.ScaledReg || !F.ScaledReg->isZero()) &&
1192          "Zero allocated in a scaled register!");
1193 #ifndef NDEBUG
1194   for (SmallVectorImpl<const SCEV *>::const_iterator I =
1195        F.BaseRegs.begin(), E = F.BaseRegs.end(); I != E; ++I)
1196     assert(!(*I)->isZero() && "Zero allocated in a base register!");
1197 #endif
1198
1199   // Add the formula to the list.
1200   Formulae.push_back(F);
1201
1202   // Record registers now being used by this use.
1203   Regs.insert(F.BaseRegs.begin(), F.BaseRegs.end());
1204
1205   return true;
1206 }
1207
1208 /// DeleteFormula - Remove the given formula from this use's list.
1209 void LSRUse::DeleteFormula(Formula &F) {
1210   if (&F != &Formulae.back())
1211     std::swap(F, Formulae.back());
1212   Formulae.pop_back();
1213 }
1214
1215 /// RecomputeRegs - Recompute the Regs field, and update RegUses.
1216 void LSRUse::RecomputeRegs(size_t LUIdx, RegUseTracker &RegUses) {
1217   // Now that we've filtered out some formulae, recompute the Regs set.
1218   SmallPtrSet<const SCEV *, 4> OldRegs = Regs;
1219   Regs.clear();
1220   for (SmallVectorImpl<Formula>::const_iterator I = Formulae.begin(),
1221        E = Formulae.end(); I != E; ++I) {
1222     const Formula &F = *I;
1223     if (F.ScaledReg) Regs.insert(F.ScaledReg);
1224     Regs.insert(F.BaseRegs.begin(), F.BaseRegs.end());
1225   }
1226
1227   // Update the RegTracker.
1228   for (SmallPtrSet<const SCEV *, 4>::iterator I = OldRegs.begin(),
1229        E = OldRegs.end(); I != E; ++I)
1230     if (!Regs.count(*I))
1231       RegUses.DropRegister(*I, LUIdx);
1232 }
1233
1234 void LSRUse::print(raw_ostream &OS) const {
1235   OS << "LSR Use: Kind=";
1236   switch (Kind) {
1237   case Basic:    OS << "Basic"; break;
1238   case Special:  OS << "Special"; break;
1239   case ICmpZero: OS << "ICmpZero"; break;
1240   case Address:
1241     OS << "Address of ";
1242     if (AccessTy->isPointerTy())
1243       OS << "pointer"; // the full pointer type could be really verbose
1244     else
1245       OS << *AccessTy;
1246   }
1247
1248   OS << ", Offsets={";
1249   for (SmallVectorImpl<int64_t>::const_iterator I = Offsets.begin(),
1250        E = Offsets.end(); I != E; ++I) {
1251     OS << *I;
1252     if (llvm::next(I) != E)
1253       OS << ',';
1254   }
1255   OS << '}';
1256
1257   if (AllFixupsOutsideLoop)
1258     OS << ", all-fixups-outside-loop";
1259
1260   if (WidestFixupType)
1261     OS << ", widest fixup type: " << *WidestFixupType;
1262 }
1263
1264 #if !defined(NDEBUG) || defined(LLVM_ENABLE_DUMP)
1265 void LSRUse::dump() const {
1266   print(errs()); errs() << '\n';
1267 }
1268 #endif
1269
1270 /// isLegalUse - Test whether the use described by AM is "legal", meaning it can
1271 /// be completely folded into the user instruction at isel time. This includes
1272 /// address-mode folding and special icmp tricks.
1273 static bool isLegalUse(const TargetTransformInfo &TTI, LSRUse::KindType Kind,
1274                        Type *AccessTy, GlobalValue *BaseGV, int64_t BaseOffset,
1275                        bool HasBaseReg, int64_t Scale) {
1276   switch (Kind) {
1277   case LSRUse::Address:
1278     return TTI.isLegalAddressingMode(AccessTy, BaseGV, BaseOffset, HasBaseReg, Scale);
1279
1280     // Otherwise, just guess that reg+reg addressing is legal.
1281     //return ;
1282
1283   case LSRUse::ICmpZero:
1284     // There's not even a target hook for querying whether it would be legal to
1285     // fold a GV into an ICmp.
1286     if (BaseGV)
1287       return false;
1288
1289     // ICmp only has two operands; don't allow more than two non-trivial parts.
1290     if (Scale != 0 && HasBaseReg && BaseOffset != 0)
1291       return false;
1292
1293     // ICmp only supports no scale or a -1 scale, as we can "fold" a -1 scale by
1294     // putting the scaled register in the other operand of the icmp.
1295     if (Scale != 0 && Scale != -1)
1296       return false;
1297
1298     // If we have low-level target information, ask the target if it can fold an
1299     // integer immediate on an icmp.
1300     if (BaseOffset != 0) {
1301       // We have one of:
1302       // ICmpZero     BaseReg + BaseOffset => ICmp BaseReg, -BaseOffset
1303       // ICmpZero -1*ScaleReg + BaseOffset => ICmp ScaleReg, BaseOffset
1304       // Offs is the ICmp immediate.
1305       if (Scale == 0)
1306         // The cast does the right thing with INT64_MIN.
1307         BaseOffset = -(uint64_t)BaseOffset;
1308       return TTI.isLegalICmpImmediate(BaseOffset);
1309     }
1310
1311     // ICmpZero BaseReg + -1*ScaleReg => ICmp BaseReg, ScaleReg
1312     return true;
1313
1314   case LSRUse::Basic:
1315     // Only handle single-register values.
1316     return !BaseGV && Scale == 0 && BaseOffset == 0;
1317
1318   case LSRUse::Special:
1319     // Special case Basic to handle -1 scales.
1320     return !BaseGV && (Scale == 0 || Scale == -1) && BaseOffset == 0;
1321   }
1322
1323   llvm_unreachable("Invalid LSRUse Kind!");
1324 }
1325
1326 static bool isLegalUse(const TargetTransformInfo &TTI, int64_t MinOffset,
1327                        int64_t MaxOffset, LSRUse::KindType Kind, Type *AccessTy,
1328                        GlobalValue *BaseGV, int64_t BaseOffset, bool HasBaseReg,
1329                        int64_t Scale) {
1330   // Check for overflow.
1331   if (((int64_t)((uint64_t)BaseOffset + MinOffset) > BaseOffset) !=
1332       (MinOffset > 0))
1333     return false;
1334   MinOffset = (uint64_t)BaseOffset + MinOffset;
1335   if (((int64_t)((uint64_t)BaseOffset + MaxOffset) > BaseOffset) !=
1336       (MaxOffset > 0))
1337     return false;
1338   MaxOffset = (uint64_t)BaseOffset + MaxOffset;
1339
1340   return isLegalUse(TTI, Kind, AccessTy, BaseGV, MinOffset, HasBaseReg,
1341                     Scale) &&
1342          isLegalUse(TTI, Kind, AccessTy, BaseGV, MaxOffset, HasBaseReg, Scale);
1343 }
1344
1345 static bool isLegalUse(const TargetTransformInfo &TTI, int64_t MinOffset,
1346                        int64_t MaxOffset, LSRUse::KindType Kind, Type *AccessTy,
1347                        const Formula &F) {
1348   return isLegalUse(TTI, MinOffset, MaxOffset, Kind, AccessTy, F.AM.BaseGV,
1349                     F.AM.BaseOffs, F.AM.HasBaseReg, F.AM.Scale);
1350 }
1351
1352 static bool isAlwaysFoldable(const TargetTransformInfo &TTI,
1353                              LSRUse::KindType Kind, Type *AccessTy,
1354                              GlobalValue *BaseGV, int64_t BaseOffset,
1355                              bool HasBaseReg) {
1356   // Fast-path: zero is always foldable.
1357   if (BaseOffset == 0 && !BaseGV) return true;
1358
1359   // Conservatively, create an address with an immediate and a
1360   // base and a scale.
1361   int64_t Scale = Kind == LSRUse::ICmpZero ? -1 : 1;
1362
1363   // Canonicalize a scale of 1 to a base register if the formula doesn't
1364   // already have a base register.
1365   if (!HasBaseReg && Scale == 1) {
1366     Scale = 0;
1367     HasBaseReg = true;
1368   }
1369
1370   return isLegalUse(TTI, Kind, AccessTy, BaseGV, BaseOffset, HasBaseReg, Scale);
1371 }
1372
1373 static bool isAlwaysFoldable(const TargetTransformInfo &TTI,
1374                              ScalarEvolution &SE, int64_t MinOffset,
1375                              int64_t MaxOffset, LSRUse::KindType Kind,
1376                              Type *AccessTy, const SCEV *S, bool HasBaseReg) {
1377   // Fast-path: zero is always foldable.
1378   if (S->isZero()) return true;
1379
1380   // Conservatively, create an address with an immediate and a
1381   // base and a scale.
1382   int64_t BaseOffset = ExtractImmediate(S, SE);
1383   GlobalValue *BaseGV = ExtractSymbol(S, SE);
1384
1385   // If there's anything else involved, it's not foldable.
1386   if (!S->isZero()) return false;
1387
1388   // Fast-path: zero is always foldable.
1389   if (BaseOffset == 0 && !BaseGV) return true;
1390
1391   // Conservatively, create an address with an immediate and a
1392   // base and a scale.
1393   int64_t Scale = Kind == LSRUse::ICmpZero ? -1 : 1;
1394
1395   return isLegalUse(TTI, MinOffset, MaxOffset, Kind, AccessTy, BaseGV,
1396                     BaseOffset, HasBaseReg, Scale);
1397 }
1398
1399 namespace {
1400
1401 /// UseMapDenseMapInfo - A DenseMapInfo implementation for holding
1402 /// DenseMaps and DenseSets of pairs of const SCEV* and LSRUse::Kind.
1403 struct UseMapDenseMapInfo {
1404   static std::pair<const SCEV *, LSRUse::KindType> getEmptyKey() {
1405     return std::make_pair(reinterpret_cast<const SCEV *>(-1), LSRUse::Basic);
1406   }
1407
1408   static std::pair<const SCEV *, LSRUse::KindType> getTombstoneKey() {
1409     return std::make_pair(reinterpret_cast<const SCEV *>(-2), LSRUse::Basic);
1410   }
1411
1412   static unsigned
1413   getHashValue(const std::pair<const SCEV *, LSRUse::KindType> &V) {
1414     unsigned Result = DenseMapInfo<const SCEV *>::getHashValue(V.first);
1415     Result ^= DenseMapInfo<unsigned>::getHashValue(unsigned(V.second));
1416     return Result;
1417   }
1418
1419   static bool isEqual(const std::pair<const SCEV *, LSRUse::KindType> &LHS,
1420                       const std::pair<const SCEV *, LSRUse::KindType> &RHS) {
1421     return LHS == RHS;
1422   }
1423 };
1424
1425 /// IVInc - An individual increment in a Chain of IV increments.
1426 /// Relate an IV user to an expression that computes the IV it uses from the IV
1427 /// used by the previous link in the Chain.
1428 ///
1429 /// For the head of a chain, IncExpr holds the absolute SCEV expression for the
1430 /// original IVOperand. The head of the chain's IVOperand is only valid during
1431 /// chain collection, before LSR replaces IV users. During chain generation,
1432 /// IncExpr can be used to find the new IVOperand that computes the same
1433 /// expression.
1434 struct IVInc {
1435   Instruction *UserInst;
1436   Value* IVOperand;
1437   const SCEV *IncExpr;
1438
1439   IVInc(Instruction *U, Value *O, const SCEV *E):
1440     UserInst(U), IVOperand(O), IncExpr(E) {}
1441 };
1442
1443 // IVChain - The list of IV increments in program order.
1444 // We typically add the head of a chain without finding subsequent links.
1445 struct IVChain {
1446   SmallVector<IVInc,1> Incs;
1447   const SCEV *ExprBase;
1448
1449   IVChain() : ExprBase(0) {}
1450
1451   IVChain(const IVInc &Head, const SCEV *Base)
1452     : Incs(1, Head), ExprBase(Base) {}
1453
1454   typedef SmallVectorImpl<IVInc>::const_iterator const_iterator;
1455
1456   // begin - return the first increment in the chain.
1457   const_iterator begin() const {
1458     assert(!Incs.empty());
1459     return llvm::next(Incs.begin());
1460   }
1461   const_iterator end() const {
1462     return Incs.end();
1463   }
1464
1465   // hasIncs - Returns true if this chain contains any increments.
1466   bool hasIncs() const { return Incs.size() >= 2; }
1467
1468   // add - Add an IVInc to the end of this chain.
1469   void add(const IVInc &X) { Incs.push_back(X); }
1470
1471   // tailUserInst - Returns the last UserInst in the chain.
1472   Instruction *tailUserInst() const { return Incs.back().UserInst; }
1473
1474   // isProfitableIncrement - Returns true if IncExpr can be profitably added to
1475   // this chain.
1476   bool isProfitableIncrement(const SCEV *OperExpr,
1477                              const SCEV *IncExpr,
1478                              ScalarEvolution&);
1479 };
1480
1481 /// ChainUsers - Helper for CollectChains to track multiple IV increment uses.
1482 /// Distinguish between FarUsers that definitely cross IV increments and
1483 /// NearUsers that may be used between IV increments.
1484 struct ChainUsers {
1485   SmallPtrSet<Instruction*, 4> FarUsers;
1486   SmallPtrSet<Instruction*, 4> NearUsers;
1487 };
1488
1489 /// LSRInstance - This class holds state for the main loop strength reduction
1490 /// logic.
1491 class LSRInstance {
1492   IVUsers &IU;
1493   ScalarEvolution &SE;
1494   DominatorTree &DT;
1495   LoopInfo &LI;
1496   const TargetTransformInfo &TTI;
1497   Loop *const L;
1498   bool Changed;
1499
1500   /// IVIncInsertPos - This is the insert position that the current loop's
1501   /// induction variable increment should be placed. In simple loops, this is
1502   /// the latch block's terminator. But in more complicated cases, this is a
1503   /// position which will dominate all the in-loop post-increment users.
1504   Instruction *IVIncInsertPos;
1505
1506   /// Factors - Interesting factors between use strides.
1507   SmallSetVector<int64_t, 8> Factors;
1508
1509   /// Types - Interesting use types, to facilitate truncation reuse.
1510   SmallSetVector<Type *, 4> Types;
1511
1512   /// Fixups - The list of operands which are to be replaced.
1513   SmallVector<LSRFixup, 16> Fixups;
1514
1515   /// Uses - The list of interesting uses.
1516   SmallVector<LSRUse, 16> Uses;
1517
1518   /// RegUses - Track which uses use which register candidates.
1519   RegUseTracker RegUses;
1520
1521   // Limit the number of chains to avoid quadratic behavior. We don't expect to
1522   // have more than a few IV increment chains in a loop. Missing a Chain falls
1523   // back to normal LSR behavior for those uses.
1524   static const unsigned MaxChains = 8;
1525
1526   /// IVChainVec - IV users can form a chain of IV increments.
1527   SmallVector<IVChain, MaxChains> IVChainVec;
1528
1529   /// IVIncSet - IV users that belong to profitable IVChains.
1530   SmallPtrSet<Use*, MaxChains> IVIncSet;
1531
1532   void OptimizeShadowIV();
1533   bool FindIVUserForCond(ICmpInst *Cond, IVStrideUse *&CondUse);
1534   ICmpInst *OptimizeMax(ICmpInst *Cond, IVStrideUse* &CondUse);
1535   void OptimizeLoopTermCond();
1536
1537   void ChainInstruction(Instruction *UserInst, Instruction *IVOper,
1538                         SmallVectorImpl<ChainUsers> &ChainUsersVec);
1539   void FinalizeChain(IVChain &Chain);
1540   void CollectChains();
1541   void GenerateIVChain(const IVChain &Chain, SCEVExpander &Rewriter,
1542                        SmallVectorImpl<WeakVH> &DeadInsts);
1543
1544   void CollectInterestingTypesAndFactors();
1545   void CollectFixupsAndInitialFormulae();
1546
1547   LSRFixup &getNewFixup() {
1548     Fixups.push_back(LSRFixup());
1549     return Fixups.back();
1550   }
1551
1552   // Support for sharing of LSRUses between LSRFixups.
1553   typedef DenseMap<std::pair<const SCEV *, LSRUse::KindType>,
1554                    size_t,
1555                    UseMapDenseMapInfo> UseMapTy;
1556   UseMapTy UseMap;
1557
1558   bool reconcileNewOffset(LSRUse &LU, int64_t NewOffset, bool HasBaseReg,
1559                           LSRUse::KindType Kind, Type *AccessTy);
1560
1561   std::pair<size_t, int64_t> getUse(const SCEV *&Expr,
1562                                     LSRUse::KindType Kind,
1563                                     Type *AccessTy);
1564
1565   void DeleteUse(LSRUse &LU, size_t LUIdx);
1566
1567   LSRUse *FindUseWithSimilarFormula(const Formula &F, const LSRUse &OrigLU);
1568
1569   void InsertInitialFormula(const SCEV *S, LSRUse &LU, size_t LUIdx);
1570   void InsertSupplementalFormula(const SCEV *S, LSRUse &LU, size_t LUIdx);
1571   void CountRegisters(const Formula &F, size_t LUIdx);
1572   bool InsertFormula(LSRUse &LU, unsigned LUIdx, const Formula &F);
1573
1574   void CollectLoopInvariantFixupsAndFormulae();
1575
1576   void GenerateReassociations(LSRUse &LU, unsigned LUIdx, Formula Base,
1577                               unsigned Depth = 0);
1578   void GenerateCombinations(LSRUse &LU, unsigned LUIdx, Formula Base);
1579   void GenerateSymbolicOffsets(LSRUse &LU, unsigned LUIdx, Formula Base);
1580   void GenerateConstantOffsets(LSRUse &LU, unsigned LUIdx, Formula Base);
1581   void GenerateICmpZeroScales(LSRUse &LU, unsigned LUIdx, Formula Base);
1582   void GenerateScales(LSRUse &LU, unsigned LUIdx, Formula Base);
1583   void GenerateTruncates(LSRUse &LU, unsigned LUIdx, Formula Base);
1584   void GenerateCrossUseConstantOffsets();
1585   void GenerateAllReuseFormulae();
1586
1587   void FilterOutUndesirableDedicatedRegisters();
1588
1589   size_t EstimateSearchSpaceComplexity() const;
1590   void NarrowSearchSpaceByDetectingSupersets();
1591   void NarrowSearchSpaceByCollapsingUnrolledCode();
1592   void NarrowSearchSpaceByRefilteringUndesirableDedicatedRegisters();
1593   void NarrowSearchSpaceByPickingWinnerRegs();
1594   void NarrowSearchSpaceUsingHeuristics();
1595
1596   void SolveRecurse(SmallVectorImpl<const Formula *> &Solution,
1597                     Cost &SolutionCost,
1598                     SmallVectorImpl<const Formula *> &Workspace,
1599                     const Cost &CurCost,
1600                     const SmallPtrSet<const SCEV *, 16> &CurRegs,
1601                     DenseSet<const SCEV *> &VisitedRegs) const;
1602   void Solve(SmallVectorImpl<const Formula *> &Solution) const;
1603
1604   BasicBlock::iterator
1605     HoistInsertPosition(BasicBlock::iterator IP,
1606                         const SmallVectorImpl<Instruction *> &Inputs) const;
1607   BasicBlock::iterator
1608     AdjustInsertPositionForExpand(BasicBlock::iterator IP,
1609                                   const LSRFixup &LF,
1610                                   const LSRUse &LU,
1611                                   SCEVExpander &Rewriter) const;
1612
1613   Value *Expand(const LSRFixup &LF,
1614                 const Formula &F,
1615                 BasicBlock::iterator IP,
1616                 SCEVExpander &Rewriter,
1617                 SmallVectorImpl<WeakVH> &DeadInsts) const;
1618   void RewriteForPHI(PHINode *PN, const LSRFixup &LF,
1619                      const Formula &F,
1620                      SCEVExpander &Rewriter,
1621                      SmallVectorImpl<WeakVH> &DeadInsts,
1622                      Pass *P) const;
1623   void Rewrite(const LSRFixup &LF,
1624                const Formula &F,
1625                SCEVExpander &Rewriter,
1626                SmallVectorImpl<WeakVH> &DeadInsts,
1627                Pass *P) const;
1628   void ImplementSolution(const SmallVectorImpl<const Formula *> &Solution,
1629                          Pass *P);
1630
1631 public:
1632   LSRInstance(Loop *L, Pass *P);
1633
1634   bool getChanged() const { return Changed; }
1635
1636   void print_factors_and_types(raw_ostream &OS) const;
1637   void print_fixups(raw_ostream &OS) const;
1638   void print_uses(raw_ostream &OS) const;
1639   void print(raw_ostream &OS) const;
1640   void dump() const;
1641 };
1642
1643 }
1644
1645 /// OptimizeShadowIV - If IV is used in a int-to-float cast
1646 /// inside the loop then try to eliminate the cast operation.
1647 void LSRInstance::OptimizeShadowIV() {
1648   const SCEV *BackedgeTakenCount = SE.getBackedgeTakenCount(L);
1649   if (isa<SCEVCouldNotCompute>(BackedgeTakenCount))
1650     return;
1651
1652   for (IVUsers::const_iterator UI = IU.begin(), E = IU.end();
1653        UI != E; /* empty */) {
1654     IVUsers::const_iterator CandidateUI = UI;
1655     ++UI;
1656     Instruction *ShadowUse = CandidateUI->getUser();
1657     Type *DestTy = NULL;
1658     bool IsSigned = false;
1659
1660     /* If shadow use is a int->float cast then insert a second IV
1661        to eliminate this cast.
1662
1663          for (unsigned i = 0; i < n; ++i)
1664            foo((double)i);
1665
1666        is transformed into
1667
1668          double d = 0.0;
1669          for (unsigned i = 0; i < n; ++i, ++d)
1670            foo(d);
1671     */
1672     if (UIToFPInst *UCast = dyn_cast<UIToFPInst>(CandidateUI->getUser())) {
1673       IsSigned = false;
1674       DestTy = UCast->getDestTy();
1675     }
1676     else if (SIToFPInst *SCast = dyn_cast<SIToFPInst>(CandidateUI->getUser())) {
1677       IsSigned = true;
1678       DestTy = SCast->getDestTy();
1679     }
1680     if (!DestTy) continue;
1681
1682     // If target does not support DestTy natively then do not apply
1683     // this transformation.
1684     if (!TTI.isTypeLegal(DestTy)) continue;
1685
1686     PHINode *PH = dyn_cast<PHINode>(ShadowUse->getOperand(0));
1687     if (!PH) continue;
1688     if (PH->getNumIncomingValues() != 2) continue;
1689
1690     Type *SrcTy = PH->getType();
1691     int Mantissa = DestTy->getFPMantissaWidth();
1692     if (Mantissa == -1) continue;
1693     if ((int)SE.getTypeSizeInBits(SrcTy) > Mantissa)
1694       continue;
1695
1696     unsigned Entry, Latch;
1697     if (PH->getIncomingBlock(0) == L->getLoopPreheader()) {
1698       Entry = 0;
1699       Latch = 1;
1700     } else {
1701       Entry = 1;
1702       Latch = 0;
1703     }
1704
1705     ConstantInt *Init = dyn_cast<ConstantInt>(PH->getIncomingValue(Entry));
1706     if (!Init) continue;
1707     Constant *NewInit = ConstantFP::get(DestTy, IsSigned ?
1708                                         (double)Init->getSExtValue() :
1709                                         (double)Init->getZExtValue());
1710
1711     BinaryOperator *Incr =
1712       dyn_cast<BinaryOperator>(PH->getIncomingValue(Latch));
1713     if (!Incr) continue;
1714     if (Incr->getOpcode() != Instruction::Add
1715         && Incr->getOpcode() != Instruction::Sub)
1716       continue;
1717
1718     /* Initialize new IV, double d = 0.0 in above example. */
1719     ConstantInt *C = NULL;
1720     if (Incr->getOperand(0) == PH)
1721       C = dyn_cast<ConstantInt>(Incr->getOperand(1));
1722     else if (Incr->getOperand(1) == PH)
1723       C = dyn_cast<ConstantInt>(Incr->getOperand(0));
1724     else
1725       continue;
1726
1727     if (!C) continue;
1728
1729     // Ignore negative constants, as the code below doesn't handle them
1730     // correctly. TODO: Remove this restriction.
1731     if (!C->getValue().isStrictlyPositive()) continue;
1732
1733     /* Add new PHINode. */
1734     PHINode *NewPH = PHINode::Create(DestTy, 2, "IV.S.", PH);
1735
1736     /* create new increment. '++d' in above example. */
1737     Constant *CFP = ConstantFP::get(DestTy, C->getZExtValue());
1738     BinaryOperator *NewIncr =
1739       BinaryOperator::Create(Incr->getOpcode() == Instruction::Add ?
1740                                Instruction::FAdd : Instruction::FSub,
1741                              NewPH, CFP, "IV.S.next.", Incr);
1742
1743     NewPH->addIncoming(NewInit, PH->getIncomingBlock(Entry));
1744     NewPH->addIncoming(NewIncr, PH->getIncomingBlock(Latch));
1745
1746     /* Remove cast operation */
1747     ShadowUse->replaceAllUsesWith(NewPH);
1748     ShadowUse->eraseFromParent();
1749     Changed = true;
1750     break;
1751   }
1752 }
1753
1754 /// FindIVUserForCond - If Cond has an operand that is an expression of an IV,
1755 /// set the IV user and stride information and return true, otherwise return
1756 /// false.
1757 bool LSRInstance::FindIVUserForCond(ICmpInst *Cond, IVStrideUse *&CondUse) {
1758   for (IVUsers::iterator UI = IU.begin(), E = IU.end(); UI != E; ++UI)
1759     if (UI->getUser() == Cond) {
1760       // NOTE: we could handle setcc instructions with multiple uses here, but
1761       // InstCombine does it as well for simple uses, it's not clear that it
1762       // occurs enough in real life to handle.
1763       CondUse = UI;
1764       return true;
1765     }
1766   return false;
1767 }
1768
1769 /// OptimizeMax - Rewrite the loop's terminating condition if it uses
1770 /// a max computation.
1771 ///
1772 /// This is a narrow solution to a specific, but acute, problem. For loops
1773 /// like this:
1774 ///
1775 ///   i = 0;
1776 ///   do {
1777 ///     p[i] = 0.0;
1778 ///   } while (++i < n);
1779 ///
1780 /// the trip count isn't just 'n', because 'n' might not be positive. And
1781 /// unfortunately this can come up even for loops where the user didn't use
1782 /// a C do-while loop. For example, seemingly well-behaved top-test loops
1783 /// will commonly be lowered like this:
1784 //
1785 ///   if (n > 0) {
1786 ///     i = 0;
1787 ///     do {
1788 ///       p[i] = 0.0;
1789 ///     } while (++i < n);
1790 ///   }
1791 ///
1792 /// and then it's possible for subsequent optimization to obscure the if
1793 /// test in such a way that indvars can't find it.
1794 ///
1795 /// When indvars can't find the if test in loops like this, it creates a
1796 /// max expression, which allows it to give the loop a canonical
1797 /// induction variable:
1798 ///
1799 ///   i = 0;
1800 ///   max = n < 1 ? 1 : n;
1801 ///   do {
1802 ///     p[i] = 0.0;
1803 ///   } while (++i != max);
1804 ///
1805 /// Canonical induction variables are necessary because the loop passes
1806 /// are designed around them. The most obvious example of this is the
1807 /// LoopInfo analysis, which doesn't remember trip count values. It
1808 /// expects to be able to rediscover the trip count each time it is
1809 /// needed, and it does this using a simple analysis that only succeeds if
1810 /// the loop has a canonical induction variable.
1811 ///
1812 /// However, when it comes time to generate code, the maximum operation
1813 /// can be quite costly, especially if it's inside of an outer loop.
1814 ///
1815 /// This function solves this problem by detecting this type of loop and
1816 /// rewriting their conditions from ICMP_NE back to ICMP_SLT, and deleting
1817 /// the instructions for the maximum computation.
1818 ///
1819 ICmpInst *LSRInstance::OptimizeMax(ICmpInst *Cond, IVStrideUse* &CondUse) {
1820   // Check that the loop matches the pattern we're looking for.
1821   if (Cond->getPredicate() != CmpInst::ICMP_EQ &&
1822       Cond->getPredicate() != CmpInst::ICMP_NE)
1823     return Cond;
1824
1825   SelectInst *Sel = dyn_cast<SelectInst>(Cond->getOperand(1));
1826   if (!Sel || !Sel->hasOneUse()) return Cond;
1827
1828   const SCEV *BackedgeTakenCount = SE.getBackedgeTakenCount(L);
1829   if (isa<SCEVCouldNotCompute>(BackedgeTakenCount))
1830     return Cond;
1831   const SCEV *One = SE.getConstant(BackedgeTakenCount->getType(), 1);
1832
1833   // Add one to the backedge-taken count to get the trip count.
1834   const SCEV *IterationCount = SE.getAddExpr(One, BackedgeTakenCount);
1835   if (IterationCount != SE.getSCEV(Sel)) return Cond;
1836
1837   // Check for a max calculation that matches the pattern. There's no check
1838   // for ICMP_ULE here because the comparison would be with zero, which
1839   // isn't interesting.
1840   CmpInst::Predicate Pred = ICmpInst::BAD_ICMP_PREDICATE;
1841   const SCEVNAryExpr *Max = 0;
1842   if (const SCEVSMaxExpr *S = dyn_cast<SCEVSMaxExpr>(BackedgeTakenCount)) {
1843     Pred = ICmpInst::ICMP_SLE;
1844     Max = S;
1845   } else if (const SCEVSMaxExpr *S = dyn_cast<SCEVSMaxExpr>(IterationCount)) {
1846     Pred = ICmpInst::ICMP_SLT;
1847     Max = S;
1848   } else if (const SCEVUMaxExpr *U = dyn_cast<SCEVUMaxExpr>(IterationCount)) {
1849     Pred = ICmpInst::ICMP_ULT;
1850     Max = U;
1851   } else {
1852     // No match; bail.
1853     return Cond;
1854   }
1855
1856   // To handle a max with more than two operands, this optimization would
1857   // require additional checking and setup.
1858   if (Max->getNumOperands() != 2)
1859     return Cond;
1860
1861   const SCEV *MaxLHS = Max->getOperand(0);
1862   const SCEV *MaxRHS = Max->getOperand(1);
1863
1864   // ScalarEvolution canonicalizes constants to the left. For < and >, look
1865   // for a comparison with 1. For <= and >=, a comparison with zero.
1866   if (!MaxLHS ||
1867       (ICmpInst::isTrueWhenEqual(Pred) ? !MaxLHS->isZero() : (MaxLHS != One)))
1868     return Cond;
1869
1870   // Check the relevant induction variable for conformance to
1871   // the pattern.
1872   const SCEV *IV = SE.getSCEV(Cond->getOperand(0));
1873   const SCEVAddRecExpr *AR = dyn_cast<SCEVAddRecExpr>(IV);
1874   if (!AR || !AR->isAffine() ||
1875       AR->getStart() != One ||
1876       AR->getStepRecurrence(SE) != One)
1877     return Cond;
1878
1879   assert(AR->getLoop() == L &&
1880          "Loop condition operand is an addrec in a different loop!");
1881
1882   // Check the right operand of the select, and remember it, as it will
1883   // be used in the new comparison instruction.
1884   Value *NewRHS = 0;
1885   if (ICmpInst::isTrueWhenEqual(Pred)) {
1886     // Look for n+1, and grab n.
1887     if (AddOperator *BO = dyn_cast<AddOperator>(Sel->getOperand(1)))
1888       if (isa<ConstantInt>(BO->getOperand(1)) &&
1889           cast<ConstantInt>(BO->getOperand(1))->isOne() &&
1890           SE.getSCEV(BO->getOperand(0)) == MaxRHS)
1891         NewRHS = BO->getOperand(0);
1892     if (AddOperator *BO = dyn_cast<AddOperator>(Sel->getOperand(2)))
1893       if (isa<ConstantInt>(BO->getOperand(1)) &&
1894           cast<ConstantInt>(BO->getOperand(1))->isOne() &&
1895           SE.getSCEV(BO->getOperand(0)) == MaxRHS)
1896         NewRHS = BO->getOperand(0);
1897     if (!NewRHS)
1898       return Cond;
1899   } else if (SE.getSCEV(Sel->getOperand(1)) == MaxRHS)
1900     NewRHS = Sel->getOperand(1);
1901   else if (SE.getSCEV(Sel->getOperand(2)) == MaxRHS)
1902     NewRHS = Sel->getOperand(2);
1903   else if (const SCEVUnknown *SU = dyn_cast<SCEVUnknown>(MaxRHS))
1904     NewRHS = SU->getValue();
1905   else
1906     // Max doesn't match expected pattern.
1907     return Cond;
1908
1909   // Determine the new comparison opcode. It may be signed or unsigned,
1910   // and the original comparison may be either equality or inequality.
1911   if (Cond->getPredicate() == CmpInst::ICMP_EQ)
1912     Pred = CmpInst::getInversePredicate(Pred);
1913
1914   // Ok, everything looks ok to change the condition into an SLT or SGE and
1915   // delete the max calculation.
1916   ICmpInst *NewCond =
1917     new ICmpInst(Cond, Pred, Cond->getOperand(0), NewRHS, "scmp");
1918
1919   // Delete the max calculation instructions.
1920   Cond->replaceAllUsesWith(NewCond);
1921   CondUse->setUser(NewCond);
1922   Instruction *Cmp = cast<Instruction>(Sel->getOperand(0));
1923   Cond->eraseFromParent();
1924   Sel->eraseFromParent();
1925   if (Cmp->use_empty())
1926     Cmp->eraseFromParent();
1927   return NewCond;
1928 }
1929
1930 /// OptimizeLoopTermCond - Change loop terminating condition to use the
1931 /// postinc iv when possible.
1932 void
1933 LSRInstance::OptimizeLoopTermCond() {
1934   SmallPtrSet<Instruction *, 4> PostIncs;
1935
1936   BasicBlock *LatchBlock = L->getLoopLatch();
1937   SmallVector<BasicBlock*, 8> ExitingBlocks;
1938   L->getExitingBlocks(ExitingBlocks);
1939
1940   for (unsigned i = 0, e = ExitingBlocks.size(); i != e; ++i) {
1941     BasicBlock *ExitingBlock = ExitingBlocks[i];
1942
1943     // Get the terminating condition for the loop if possible.  If we
1944     // can, we want to change it to use a post-incremented version of its
1945     // induction variable, to allow coalescing the live ranges for the IV into
1946     // one register value.
1947
1948     BranchInst *TermBr = dyn_cast<BranchInst>(ExitingBlock->getTerminator());
1949     if (!TermBr)
1950       continue;
1951     // FIXME: Overly conservative, termination condition could be an 'or' etc..
1952     if (TermBr->isUnconditional() || !isa<ICmpInst>(TermBr->getCondition()))
1953       continue;
1954
1955     // Search IVUsesByStride to find Cond's IVUse if there is one.
1956     IVStrideUse *CondUse = 0;
1957     ICmpInst *Cond = cast<ICmpInst>(TermBr->getCondition());
1958     if (!FindIVUserForCond(Cond, CondUse))
1959       continue;
1960
1961     // If the trip count is computed in terms of a max (due to ScalarEvolution
1962     // being unable to find a sufficient guard, for example), change the loop
1963     // comparison to use SLT or ULT instead of NE.
1964     // One consequence of doing this now is that it disrupts the count-down
1965     // optimization. That's not always a bad thing though, because in such
1966     // cases it may still be worthwhile to avoid a max.
1967     Cond = OptimizeMax(Cond, CondUse);
1968
1969     // If this exiting block dominates the latch block, it may also use
1970     // the post-inc value if it won't be shared with other uses.
1971     // Check for dominance.
1972     if (!DT.dominates(ExitingBlock, LatchBlock))
1973       continue;
1974
1975     // Conservatively avoid trying to use the post-inc value in non-latch
1976     // exits if there may be pre-inc users in intervening blocks.
1977     if (LatchBlock != ExitingBlock)
1978       for (IVUsers::const_iterator UI = IU.begin(), E = IU.end(); UI != E; ++UI)
1979         // Test if the use is reachable from the exiting block. This dominator
1980         // query is a conservative approximation of reachability.
1981         if (&*UI != CondUse &&
1982             !DT.properlyDominates(UI->getUser()->getParent(), ExitingBlock)) {
1983           // Conservatively assume there may be reuse if the quotient of their
1984           // strides could be a legal scale.
1985           const SCEV *A = IU.getStride(*CondUse, L);
1986           const SCEV *B = IU.getStride(*UI, L);
1987           if (!A || !B) continue;
1988           if (SE.getTypeSizeInBits(A->getType()) !=
1989               SE.getTypeSizeInBits(B->getType())) {
1990             if (SE.getTypeSizeInBits(A->getType()) >
1991                 SE.getTypeSizeInBits(B->getType()))
1992               B = SE.getSignExtendExpr(B, A->getType());
1993             else
1994               A = SE.getSignExtendExpr(A, B->getType());
1995           }
1996           if (const SCEVConstant *D =
1997                 dyn_cast_or_null<SCEVConstant>(getExactSDiv(B, A, SE))) {
1998             const ConstantInt *C = D->getValue();
1999             // Stride of one or negative one can have reuse with non-addresses.
2000             if (C->isOne() || C->isAllOnesValue())
2001               goto decline_post_inc;
2002             // Avoid weird situations.
2003             if (C->getValue().getMinSignedBits() >= 64 ||
2004                 C->getValue().isMinSignedValue())
2005               goto decline_post_inc;
2006             // Check for possible scaled-address reuse.
2007             Type *AccessTy = getAccessType(UI->getUser());
2008             int64_t Scale = C->getSExtValue();
2009             if (TTI.isLegalAddressingMode(AccessTy, /*BaseGV=*/ 0,
2010                                           /*BaseOffset=*/ 0,
2011                                           /*HasBaseReg=*/ false, Scale))
2012               goto decline_post_inc;
2013             Scale = -Scale;
2014             if (TTI.isLegalAddressingMode(AccessTy, /*BaseGV=*/ 0,
2015                                           /*BaseOffset=*/ 0,
2016                                           /*HasBaseReg=*/ false, Scale))
2017               goto decline_post_inc;
2018           }
2019         }
2020
2021     DEBUG(dbgs() << "  Change loop exiting icmp to use postinc iv: "
2022                  << *Cond << '\n');
2023
2024     // It's possible for the setcc instruction to be anywhere in the loop, and
2025     // possible for it to have multiple users.  If it is not immediately before
2026     // the exiting block branch, move it.
2027     if (&*++BasicBlock::iterator(Cond) != TermBr) {
2028       if (Cond->hasOneUse()) {
2029         Cond->moveBefore(TermBr);
2030       } else {
2031         // Clone the terminating condition and insert into the loopend.
2032         ICmpInst *OldCond = Cond;
2033         Cond = cast<ICmpInst>(Cond->clone());
2034         Cond->setName(L->getHeader()->getName() + ".termcond");
2035         ExitingBlock->getInstList().insert(TermBr, Cond);
2036
2037         // Clone the IVUse, as the old use still exists!
2038         CondUse = &IU.AddUser(Cond, CondUse->getOperandValToReplace());
2039         TermBr->replaceUsesOfWith(OldCond, Cond);
2040       }
2041     }
2042
2043     // If we get to here, we know that we can transform the setcc instruction to
2044     // use the post-incremented version of the IV, allowing us to coalesce the
2045     // live ranges for the IV correctly.
2046     CondUse->transformToPostInc(L);
2047     Changed = true;
2048
2049     PostIncs.insert(Cond);
2050   decline_post_inc:;
2051   }
2052
2053   // Determine an insertion point for the loop induction variable increment. It
2054   // must dominate all the post-inc comparisons we just set up, and it must
2055   // dominate the loop latch edge.
2056   IVIncInsertPos = L->getLoopLatch()->getTerminator();
2057   for (SmallPtrSet<Instruction *, 4>::const_iterator I = PostIncs.begin(),
2058        E = PostIncs.end(); I != E; ++I) {
2059     BasicBlock *BB =
2060       DT.findNearestCommonDominator(IVIncInsertPos->getParent(),
2061                                     (*I)->getParent());
2062     if (BB == (*I)->getParent())
2063       IVIncInsertPos = *I;
2064     else if (BB != IVIncInsertPos->getParent())
2065       IVIncInsertPos = BB->getTerminator();
2066   }
2067 }
2068
2069 /// reconcileNewOffset - Determine if the given use can accommodate a fixup
2070 /// at the given offset and other details. If so, update the use and
2071 /// return true.
2072 bool
2073 LSRInstance::reconcileNewOffset(LSRUse &LU, int64_t NewOffset, bool HasBaseReg,
2074                                 LSRUse::KindType Kind, Type *AccessTy) {
2075   int64_t NewMinOffset = LU.MinOffset;
2076   int64_t NewMaxOffset = LU.MaxOffset;
2077   Type *NewAccessTy = AccessTy;
2078
2079   // Check for a mismatched kind. It's tempting to collapse mismatched kinds to
2080   // something conservative, however this can pessimize in the case that one of
2081   // the uses will have all its uses outside the loop, for example.
2082   if (LU.Kind != Kind)
2083     return false;
2084   // Conservatively assume HasBaseReg is true for now.
2085   if (NewOffset < LU.MinOffset) {
2086     if (!isAlwaysFoldable(TTI, Kind, AccessTy, /*BaseGV=*/ 0,
2087                           LU.MaxOffset - NewOffset, HasBaseReg))
2088       return false;
2089     NewMinOffset = NewOffset;
2090   } else if (NewOffset > LU.MaxOffset) {
2091     if (!isAlwaysFoldable(TTI, Kind, AccessTy, /*BaseGV=*/ 0,
2092                           NewOffset - LU.MinOffset, HasBaseReg))
2093       return false;
2094     NewMaxOffset = NewOffset;
2095   }
2096   // Check for a mismatched access type, and fall back conservatively as needed.
2097   // TODO: Be less conservative when the type is similar and can use the same
2098   // addressing modes.
2099   if (Kind == LSRUse::Address && AccessTy != LU.AccessTy)
2100     NewAccessTy = Type::getVoidTy(AccessTy->getContext());
2101
2102   // Update the use.
2103   LU.MinOffset = NewMinOffset;
2104   LU.MaxOffset = NewMaxOffset;
2105   LU.AccessTy = NewAccessTy;
2106   if (NewOffset != LU.Offsets.back())
2107     LU.Offsets.push_back(NewOffset);
2108   return true;
2109 }
2110
2111 /// getUse - Return an LSRUse index and an offset value for a fixup which
2112 /// needs the given expression, with the given kind and optional access type.
2113 /// Either reuse an existing use or create a new one, as needed.
2114 std::pair<size_t, int64_t>
2115 LSRInstance::getUse(const SCEV *&Expr,
2116                     LSRUse::KindType Kind, Type *AccessTy) {
2117   const SCEV *Copy = Expr;
2118   int64_t Offset = ExtractImmediate(Expr, SE);
2119
2120   // Basic uses can't accept any offset, for example.
2121   if (!isAlwaysFoldable(TTI, Kind, AccessTy, /*BaseGV=*/ 0,
2122                         Offset, /*HasBaseReg=*/ true)) {
2123     Expr = Copy;
2124     Offset = 0;
2125   }
2126
2127   std::pair<UseMapTy::iterator, bool> P =
2128     UseMap.insert(std::make_pair(std::make_pair(Expr, Kind), 0));
2129   if (!P.second) {
2130     // A use already existed with this base.
2131     size_t LUIdx = P.first->second;
2132     LSRUse &LU = Uses[LUIdx];
2133     if (reconcileNewOffset(LU, Offset, /*HasBaseReg=*/true, Kind, AccessTy))
2134       // Reuse this use.
2135       return std::make_pair(LUIdx, Offset);
2136   }
2137
2138   // Create a new use.
2139   size_t LUIdx = Uses.size();
2140   P.first->second = LUIdx;
2141   Uses.push_back(LSRUse(Kind, AccessTy));
2142   LSRUse &LU = Uses[LUIdx];
2143
2144   // We don't need to track redundant offsets, but we don't need to go out
2145   // of our way here to avoid them.
2146   if (LU.Offsets.empty() || Offset != LU.Offsets.back())
2147     LU.Offsets.push_back(Offset);
2148
2149   LU.MinOffset = Offset;
2150   LU.MaxOffset = Offset;
2151   return std::make_pair(LUIdx, Offset);
2152 }
2153
2154 /// DeleteUse - Delete the given use from the Uses list.
2155 void LSRInstance::DeleteUse(LSRUse &LU, size_t LUIdx) {
2156   if (&LU != &Uses.back())
2157     std::swap(LU, Uses.back());
2158   Uses.pop_back();
2159
2160   // Update RegUses.
2161   RegUses.SwapAndDropUse(LUIdx, Uses.size());
2162 }
2163
2164 /// FindUseWithFormula - Look for a use distinct from OrigLU which is has
2165 /// a formula that has the same registers as the given formula.
2166 LSRUse *
2167 LSRInstance::FindUseWithSimilarFormula(const Formula &OrigF,
2168                                        const LSRUse &OrigLU) {
2169   // Search all uses for the formula. This could be more clever.
2170   for (size_t LUIdx = 0, NumUses = Uses.size(); LUIdx != NumUses; ++LUIdx) {
2171     LSRUse &LU = Uses[LUIdx];
2172     // Check whether this use is close enough to OrigLU, to see whether it's
2173     // worthwhile looking through its formulae.
2174     // Ignore ICmpZero uses because they may contain formulae generated by
2175     // GenerateICmpZeroScales, in which case adding fixup offsets may
2176     // be invalid.
2177     if (&LU != &OrigLU &&
2178         LU.Kind != LSRUse::ICmpZero &&
2179         LU.Kind == OrigLU.Kind && OrigLU.AccessTy == LU.AccessTy &&
2180         LU.WidestFixupType == OrigLU.WidestFixupType &&
2181         LU.HasFormulaWithSameRegs(OrigF)) {
2182       // Scan through this use's formulae.
2183       for (SmallVectorImpl<Formula>::const_iterator I = LU.Formulae.begin(),
2184            E = LU.Formulae.end(); I != E; ++I) {
2185         const Formula &F = *I;
2186         // Check to see if this formula has the same registers and symbols
2187         // as OrigF.
2188         if (F.BaseRegs == OrigF.BaseRegs &&
2189             F.ScaledReg == OrigF.ScaledReg &&
2190             F.AM.BaseGV == OrigF.AM.BaseGV &&
2191             F.AM.Scale == OrigF.AM.Scale &&
2192             F.UnfoldedOffset == OrigF.UnfoldedOffset) {
2193           if (F.AM.BaseOffs == 0)
2194             return &LU;
2195           // This is the formula where all the registers and symbols matched;
2196           // there aren't going to be any others. Since we declined it, we
2197           // can skip the rest of the formulae and proceed to the next LSRUse.
2198           break;
2199         }
2200       }
2201     }
2202   }
2203
2204   // Nothing looked good.
2205   return 0;
2206 }
2207
2208 void LSRInstance::CollectInterestingTypesAndFactors() {
2209   SmallSetVector<const SCEV *, 4> Strides;
2210
2211   // Collect interesting types and strides.
2212   SmallVector<const SCEV *, 4> Worklist;
2213   for (IVUsers::const_iterator UI = IU.begin(), E = IU.end(); UI != E; ++UI) {
2214     const SCEV *Expr = IU.getExpr(*UI);
2215
2216     // Collect interesting types.
2217     Types.insert(SE.getEffectiveSCEVType(Expr->getType()));
2218
2219     // Add strides for mentioned loops.
2220     Worklist.push_back(Expr);
2221     do {
2222       const SCEV *S = Worklist.pop_back_val();
2223       if (const SCEVAddRecExpr *AR = dyn_cast<SCEVAddRecExpr>(S)) {
2224         if (AR->getLoop() == L)
2225           Strides.insert(AR->getStepRecurrence(SE));
2226         Worklist.push_back(AR->getStart());
2227       } else if (const SCEVAddExpr *Add = dyn_cast<SCEVAddExpr>(S)) {
2228         Worklist.append(Add->op_begin(), Add->op_end());
2229       }
2230     } while (!Worklist.empty());
2231   }
2232
2233   // Compute interesting factors from the set of interesting strides.
2234   for (SmallSetVector<const SCEV *, 4>::const_iterator
2235        I = Strides.begin(), E = Strides.end(); I != E; ++I)
2236     for (SmallSetVector<const SCEV *, 4>::const_iterator NewStrideIter =
2237          llvm::next(I); NewStrideIter != E; ++NewStrideIter) {
2238       const SCEV *OldStride = *I;
2239       const SCEV *NewStride = *NewStrideIter;
2240
2241       if (SE.getTypeSizeInBits(OldStride->getType()) !=
2242           SE.getTypeSizeInBits(NewStride->getType())) {
2243         if (SE.getTypeSizeInBits(OldStride->getType()) >
2244             SE.getTypeSizeInBits(NewStride->getType()))
2245           NewStride = SE.getSignExtendExpr(NewStride, OldStride->getType());
2246         else
2247           OldStride = SE.getSignExtendExpr(OldStride, NewStride->getType());
2248       }
2249       if (const SCEVConstant *Factor =
2250             dyn_cast_or_null<SCEVConstant>(getExactSDiv(NewStride, OldStride,
2251                                                         SE, true))) {
2252         if (Factor->getValue()->getValue().getMinSignedBits() <= 64)
2253           Factors.insert(Factor->getValue()->getValue().getSExtValue());
2254       } else if (const SCEVConstant *Factor =
2255                    dyn_cast_or_null<SCEVConstant>(getExactSDiv(OldStride,
2256                                                                NewStride,
2257                                                                SE, true))) {
2258         if (Factor->getValue()->getValue().getMinSignedBits() <= 64)
2259           Factors.insert(Factor->getValue()->getValue().getSExtValue());
2260       }
2261     }
2262
2263   // If all uses use the same type, don't bother looking for truncation-based
2264   // reuse.
2265   if (Types.size() == 1)
2266     Types.clear();
2267
2268   DEBUG(print_factors_and_types(dbgs()));
2269 }
2270
2271 /// findIVOperand - Helper for CollectChains that finds an IV operand (computed
2272 /// by an AddRec in this loop) within [OI,OE) or returns OE. If IVUsers mapped
2273 /// Instructions to IVStrideUses, we could partially skip this.
2274 static User::op_iterator
2275 findIVOperand(User::op_iterator OI, User::op_iterator OE,
2276               Loop *L, ScalarEvolution &SE) {
2277   for(; OI != OE; ++OI) {
2278     if (Instruction *Oper = dyn_cast<Instruction>(*OI)) {
2279       if (!SE.isSCEVable(Oper->getType()))
2280         continue;
2281
2282       if (const SCEVAddRecExpr *AR =
2283           dyn_cast<SCEVAddRecExpr>(SE.getSCEV(Oper))) {
2284         if (AR->getLoop() == L)
2285           break;
2286       }
2287     }
2288   }
2289   return OI;
2290 }
2291
2292 /// getWideOperand - IVChain logic must consistenctly peek base TruncInst
2293 /// operands, so wrap it in a convenient helper.
2294 static Value *getWideOperand(Value *Oper) {
2295   if (TruncInst *Trunc = dyn_cast<TruncInst>(Oper))
2296     return Trunc->getOperand(0);
2297   return Oper;
2298 }
2299
2300 /// isCompatibleIVType - Return true if we allow an IV chain to include both
2301 /// types.
2302 static bool isCompatibleIVType(Value *LVal, Value *RVal) {
2303   Type *LType = LVal->getType();
2304   Type *RType = RVal->getType();
2305   return (LType == RType) || (LType->isPointerTy() && RType->isPointerTy());
2306 }
2307
2308 /// getExprBase - Return an approximation of this SCEV expression's "base", or
2309 /// NULL for any constant. Returning the expression itself is
2310 /// conservative. Returning a deeper subexpression is more precise and valid as
2311 /// long as it isn't less complex than another subexpression. For expressions
2312 /// involving multiple unscaled values, we need to return the pointer-type
2313 /// SCEVUnknown. This avoids forming chains across objects, such as:
2314 /// PrevOper==a[i], IVOper==b[i], IVInc==b-a.
2315 ///
2316 /// Since SCEVUnknown is the rightmost type, and pointers are the rightmost
2317 /// SCEVUnknown, we simply return the rightmost SCEV operand.
2318 static const SCEV *getExprBase(const SCEV *S) {
2319   switch (S->getSCEVType()) {
2320   default: // uncluding scUnknown.
2321     return S;
2322   case scConstant:
2323     return 0;
2324   case scTruncate:
2325     return getExprBase(cast<SCEVTruncateExpr>(S)->getOperand());
2326   case scZeroExtend:
2327     return getExprBase(cast<SCEVZeroExtendExpr>(S)->getOperand());
2328   case scSignExtend:
2329     return getExprBase(cast<SCEVSignExtendExpr>(S)->getOperand());
2330   case scAddExpr: {
2331     // Skip over scaled operands (scMulExpr) to follow add operands as long as
2332     // there's nothing more complex.
2333     // FIXME: not sure if we want to recognize negation.
2334     const SCEVAddExpr *Add = cast<SCEVAddExpr>(S);
2335     for (std::reverse_iterator<SCEVAddExpr::op_iterator> I(Add->op_end()),
2336            E(Add->op_begin()); I != E; ++I) {
2337       const SCEV *SubExpr = *I;
2338       if (SubExpr->getSCEVType() == scAddExpr)
2339         return getExprBase(SubExpr);
2340
2341       if (SubExpr->getSCEVType() != scMulExpr)
2342         return SubExpr;
2343     }
2344     return S; // all operands are scaled, be conservative.
2345   }
2346   case scAddRecExpr:
2347     return getExprBase(cast<SCEVAddRecExpr>(S)->getStart());
2348   }
2349 }
2350
2351 /// Return true if the chain increment is profitable to expand into a loop
2352 /// invariant value, which may require its own register. A profitable chain
2353 /// increment will be an offset relative to the same base. We allow such offsets
2354 /// to potentially be used as chain increment as long as it's not obviously
2355 /// expensive to expand using real instructions.
2356 bool IVChain::isProfitableIncrement(const SCEV *OperExpr,
2357                                     const SCEV *IncExpr,
2358                                     ScalarEvolution &SE) {
2359   // Aggressively form chains when -stress-ivchain.
2360   if (StressIVChain)
2361     return true;
2362
2363   // Do not replace a constant offset from IV head with a nonconstant IV
2364   // increment.
2365   if (!isa<SCEVConstant>(IncExpr)) {
2366     const SCEV *HeadExpr = SE.getSCEV(getWideOperand(Incs[0].IVOperand));
2367     if (isa<SCEVConstant>(SE.getMinusSCEV(OperExpr, HeadExpr)))
2368       return 0;
2369   }
2370
2371   SmallPtrSet<const SCEV*, 8> Processed;
2372   return !isHighCostExpansion(IncExpr, Processed, SE);
2373 }
2374
2375 /// Return true if the number of registers needed for the chain is estimated to
2376 /// be less than the number required for the individual IV users. First prohibit
2377 /// any IV users that keep the IV live across increments (the Users set should
2378 /// be empty). Next count the number and type of increments in the chain.
2379 ///
2380 /// Chaining IVs can lead to considerable code bloat if ISEL doesn't
2381 /// effectively use postinc addressing modes. Only consider it profitable it the
2382 /// increments can be computed in fewer registers when chained.
2383 ///
2384 /// TODO: Consider IVInc free if it's already used in another chains.
2385 static bool
2386 isProfitableChain(IVChain &Chain, SmallPtrSet<Instruction*, 4> &Users,
2387                   ScalarEvolution &SE, const TargetTransformInfo &TTI) {
2388   if (StressIVChain)
2389     return true;
2390
2391   if (!Chain.hasIncs())
2392     return false;
2393
2394   if (!Users.empty()) {
2395     DEBUG(dbgs() << "Chain: " << *Chain.Incs[0].UserInst << " users:\n";
2396           for (SmallPtrSet<Instruction*, 4>::const_iterator I = Users.begin(),
2397                  E = Users.end(); I != E; ++I) {
2398             dbgs() << "  " << **I << "\n";
2399           });
2400     return false;
2401   }
2402   assert(!Chain.Incs.empty() && "empty IV chains are not allowed");
2403
2404   // The chain itself may require a register, so intialize cost to 1.
2405   int cost = 1;
2406
2407   // A complete chain likely eliminates the need for keeping the original IV in
2408   // a register. LSR does not currently know how to form a complete chain unless
2409   // the header phi already exists.
2410   if (isa<PHINode>(Chain.tailUserInst())
2411       && SE.getSCEV(Chain.tailUserInst()) == Chain.Incs[0].IncExpr) {
2412     --cost;
2413   }
2414   const SCEV *LastIncExpr = 0;
2415   unsigned NumConstIncrements = 0;
2416   unsigned NumVarIncrements = 0;
2417   unsigned NumReusedIncrements = 0;
2418   for (IVChain::const_iterator I = Chain.begin(), E = Chain.end();
2419        I != E; ++I) {
2420
2421     if (I->IncExpr->isZero())
2422       continue;
2423
2424     // Incrementing by zero or some constant is neutral. We assume constants can
2425     // be folded into an addressing mode or an add's immediate operand.
2426     if (isa<SCEVConstant>(I->IncExpr)) {
2427       ++NumConstIncrements;
2428       continue;
2429     }
2430
2431     if (I->IncExpr == LastIncExpr)
2432       ++NumReusedIncrements;
2433     else
2434       ++NumVarIncrements;
2435
2436     LastIncExpr = I->IncExpr;
2437   }
2438   // An IV chain with a single increment is handled by LSR's postinc
2439   // uses. However, a chain with multiple increments requires keeping the IV's
2440   // value live longer than it needs to be if chained.
2441   if (NumConstIncrements > 1)
2442     --cost;
2443
2444   // Materializing increment expressions in the preheader that didn't exist in
2445   // the original code may cost a register. For example, sign-extended array
2446   // indices can produce ridiculous increments like this:
2447   // IV + ((sext i32 (2 * %s) to i64) + (-1 * (sext i32 %s to i64)))
2448   cost += NumVarIncrements;
2449
2450   // Reusing variable increments likely saves a register to hold the multiple of
2451   // the stride.
2452   cost -= NumReusedIncrements;
2453
2454   DEBUG(dbgs() << "Chain: " << *Chain.Incs[0].UserInst << " Cost: " << cost
2455                << "\n");
2456
2457   return cost < 0;
2458 }
2459
2460 /// ChainInstruction - Add this IV user to an existing chain or make it the head
2461 /// of a new chain.
2462 void LSRInstance::ChainInstruction(Instruction *UserInst, Instruction *IVOper,
2463                                    SmallVectorImpl<ChainUsers> &ChainUsersVec) {
2464   // When IVs are used as types of varying widths, they are generally converted
2465   // to a wider type with some uses remaining narrow under a (free) trunc.
2466   Value *const NextIV = getWideOperand(IVOper);
2467   const SCEV *const OperExpr = SE.getSCEV(NextIV);
2468   const SCEV *const OperExprBase = getExprBase(OperExpr);
2469
2470   // Visit all existing chains. Check if its IVOper can be computed as a
2471   // profitable loop invariant increment from the last link in the Chain.
2472   unsigned ChainIdx = 0, NChains = IVChainVec.size();
2473   const SCEV *LastIncExpr = 0;
2474   for (; ChainIdx < NChains; ++ChainIdx) {
2475     IVChain &Chain = IVChainVec[ChainIdx];
2476
2477     // Prune the solution space aggressively by checking that both IV operands
2478     // are expressions that operate on the same unscaled SCEVUnknown. This
2479     // "base" will be canceled by the subsequent getMinusSCEV call. Checking
2480     // first avoids creating extra SCEV expressions.
2481     if (!StressIVChain && Chain.ExprBase != OperExprBase)
2482       continue;
2483
2484     Value *PrevIV = getWideOperand(Chain.Incs.back().IVOperand);
2485     if (!isCompatibleIVType(PrevIV, NextIV))
2486       continue;
2487
2488     // A phi node terminates a chain.
2489     if (isa<PHINode>(UserInst) && isa<PHINode>(Chain.tailUserInst()))
2490       continue;
2491
2492     // The increment must be loop-invariant so it can be kept in a register.
2493     const SCEV *PrevExpr = SE.getSCEV(PrevIV);
2494     const SCEV *IncExpr = SE.getMinusSCEV(OperExpr, PrevExpr);
2495     if (!SE.isLoopInvariant(IncExpr, L))
2496       continue;
2497
2498     if (Chain.isProfitableIncrement(OperExpr, IncExpr, SE)) {
2499       LastIncExpr = IncExpr;
2500       break;
2501     }
2502   }
2503   // If we haven't found a chain, create a new one, unless we hit the max. Don't
2504   // bother for phi nodes, because they must be last in the chain.
2505   if (ChainIdx == NChains) {
2506     if (isa<PHINode>(UserInst))
2507       return;
2508     if (NChains >= MaxChains && !StressIVChain) {
2509       DEBUG(dbgs() << "IV Chain Limit\n");
2510       return;
2511     }
2512     LastIncExpr = OperExpr;
2513     // IVUsers may have skipped over sign/zero extensions. We don't currently
2514     // attempt to form chains involving extensions unless they can be hoisted
2515     // into this loop's AddRec.
2516     if (!isa<SCEVAddRecExpr>(LastIncExpr))
2517       return;
2518     ++NChains;
2519     IVChainVec.push_back(IVChain(IVInc(UserInst, IVOper, LastIncExpr),
2520                                  OperExprBase));
2521     ChainUsersVec.resize(NChains);
2522     DEBUG(dbgs() << "IV Chain#" << ChainIdx << " Head: (" << *UserInst
2523                  << ") IV=" << *LastIncExpr << "\n");
2524   } else {
2525     DEBUG(dbgs() << "IV Chain#" << ChainIdx << "  Inc: (" << *UserInst
2526                  << ") IV+" << *LastIncExpr << "\n");
2527     // Add this IV user to the end of the chain.
2528     IVChainVec[ChainIdx].add(IVInc(UserInst, IVOper, LastIncExpr));
2529   }
2530
2531   SmallPtrSet<Instruction*,4> &NearUsers = ChainUsersVec[ChainIdx].NearUsers;
2532   // This chain's NearUsers become FarUsers.
2533   if (!LastIncExpr->isZero()) {
2534     ChainUsersVec[ChainIdx].FarUsers.insert(NearUsers.begin(),
2535                                             NearUsers.end());
2536     NearUsers.clear();
2537   }
2538
2539   // All other uses of IVOperand become near uses of the chain.
2540   // We currently ignore intermediate values within SCEV expressions, assuming
2541   // they will eventually be used be the current chain, or can be computed
2542   // from one of the chain increments. To be more precise we could
2543   // transitively follow its user and only add leaf IV users to the set.
2544   for (Value::use_iterator UseIter = IVOper->use_begin(),
2545          UseEnd = IVOper->use_end(); UseIter != UseEnd; ++UseIter) {
2546     Instruction *OtherUse = dyn_cast<Instruction>(*UseIter);
2547     if (!OtherUse || OtherUse == UserInst)
2548       continue;
2549     if (SE.isSCEVable(OtherUse->getType())
2550         && !isa<SCEVUnknown>(SE.getSCEV(OtherUse))
2551         && IU.isIVUserOrOperand(OtherUse)) {
2552       continue;
2553     }
2554     NearUsers.insert(OtherUse);
2555   }
2556
2557   // Since this user is part of the chain, it's no longer considered a use
2558   // of the chain.
2559   ChainUsersVec[ChainIdx].FarUsers.erase(UserInst);
2560 }
2561
2562 /// CollectChains - Populate the vector of Chains.
2563 ///
2564 /// This decreases ILP at the architecture level. Targets with ample registers,
2565 /// multiple memory ports, and no register renaming probably don't want
2566 /// this. However, such targets should probably disable LSR altogether.
2567 ///
2568 /// The job of LSR is to make a reasonable choice of induction variables across
2569 /// the loop. Subsequent passes can easily "unchain" computation exposing more
2570 /// ILP *within the loop* if the target wants it.
2571 ///
2572 /// Finding the best IV chain is potentially a scheduling problem. Since LSR
2573 /// will not reorder memory operations, it will recognize this as a chain, but
2574 /// will generate redundant IV increments. Ideally this would be corrected later
2575 /// by a smart scheduler:
2576 ///        = A[i]
2577 ///        = A[i+x]
2578 /// A[i]   =
2579 /// A[i+x] =
2580 ///
2581 /// TODO: Walk the entire domtree within this loop, not just the path to the
2582 /// loop latch. This will discover chains on side paths, but requires
2583 /// maintaining multiple copies of the Chains state.
2584 void LSRInstance::CollectChains() {
2585   DEBUG(dbgs() << "Collecting IV Chains.\n");
2586   SmallVector<ChainUsers, 8> ChainUsersVec;
2587
2588   SmallVector<BasicBlock *,8> LatchPath;
2589   BasicBlock *LoopHeader = L->getHeader();
2590   for (DomTreeNode *Rung = DT.getNode(L->getLoopLatch());
2591        Rung->getBlock() != LoopHeader; Rung = Rung->getIDom()) {
2592     LatchPath.push_back(Rung->getBlock());
2593   }
2594   LatchPath.push_back(LoopHeader);
2595
2596   // Walk the instruction stream from the loop header to the loop latch.
2597   for (SmallVectorImpl<BasicBlock *>::reverse_iterator
2598          BBIter = LatchPath.rbegin(), BBEnd = LatchPath.rend();
2599        BBIter != BBEnd; ++BBIter) {
2600     for (BasicBlock::iterator I = (*BBIter)->begin(), E = (*BBIter)->end();
2601          I != E; ++I) {
2602       // Skip instructions that weren't seen by IVUsers analysis.
2603       if (isa<PHINode>(I) || !IU.isIVUserOrOperand(I))
2604         continue;
2605
2606       // Ignore users that are part of a SCEV expression. This way we only
2607       // consider leaf IV Users. This effectively rediscovers a portion of
2608       // IVUsers analysis but in program order this time.
2609       if (SE.isSCEVable(I->getType()) && !isa<SCEVUnknown>(SE.getSCEV(I)))
2610         continue;
2611
2612       // Remove this instruction from any NearUsers set it may be in.
2613       for (unsigned ChainIdx = 0, NChains = IVChainVec.size();
2614            ChainIdx < NChains; ++ChainIdx) {
2615         ChainUsersVec[ChainIdx].NearUsers.erase(I);
2616       }
2617       // Search for operands that can be chained.
2618       SmallPtrSet<Instruction*, 4> UniqueOperands;
2619       User::op_iterator IVOpEnd = I->op_end();
2620       User::op_iterator IVOpIter = findIVOperand(I->op_begin(), IVOpEnd, L, SE);
2621       while (IVOpIter != IVOpEnd) {
2622         Instruction *IVOpInst = cast<Instruction>(*IVOpIter);
2623         if (UniqueOperands.insert(IVOpInst))
2624           ChainInstruction(I, IVOpInst, ChainUsersVec);
2625         IVOpIter = findIVOperand(llvm::next(IVOpIter), IVOpEnd, L, SE);
2626       }
2627     } // Continue walking down the instructions.
2628   } // Continue walking down the domtree.
2629   // Visit phi backedges to determine if the chain can generate the IV postinc.
2630   for (BasicBlock::iterator I = L->getHeader()->begin();
2631        PHINode *PN = dyn_cast<PHINode>(I); ++I) {
2632     if (!SE.isSCEVable(PN->getType()))
2633       continue;
2634
2635     Instruction *IncV =
2636       dyn_cast<Instruction>(PN->getIncomingValueForBlock(L->getLoopLatch()));
2637     if (IncV)
2638       ChainInstruction(PN, IncV, ChainUsersVec);
2639   }
2640   // Remove any unprofitable chains.
2641   unsigned ChainIdx = 0;
2642   for (unsigned UsersIdx = 0, NChains = IVChainVec.size();
2643        UsersIdx < NChains; ++UsersIdx) {
2644     if (!isProfitableChain(IVChainVec[UsersIdx],
2645                            ChainUsersVec[UsersIdx].FarUsers, SE, TTI))
2646       continue;
2647     // Preserve the chain at UsesIdx.
2648     if (ChainIdx != UsersIdx)
2649       IVChainVec[ChainIdx] = IVChainVec[UsersIdx];
2650     FinalizeChain(IVChainVec[ChainIdx]);
2651     ++ChainIdx;
2652   }
2653   IVChainVec.resize(ChainIdx);
2654 }
2655
2656 void LSRInstance::FinalizeChain(IVChain &Chain) {
2657   assert(!Chain.Incs.empty() && "empty IV chains are not allowed");
2658   DEBUG(dbgs() << "Final Chain: " << *Chain.Incs[0].UserInst << "\n");
2659
2660   for (IVChain::const_iterator I = Chain.begin(), E = Chain.end();
2661        I != E; ++I) {
2662     DEBUG(dbgs() << "        Inc: " << *I->UserInst << "\n");
2663     User::op_iterator UseI =
2664       std::find(I->UserInst->op_begin(), I->UserInst->op_end(), I->IVOperand);
2665     assert(UseI != I->UserInst->op_end() && "cannot find IV operand");
2666     IVIncSet.insert(UseI);
2667   }
2668 }
2669
2670 /// Return true if the IVInc can be folded into an addressing mode.
2671 static bool canFoldIVIncExpr(const SCEV *IncExpr, Instruction *UserInst,
2672                              Value *Operand, const TargetTransformInfo &TTI) {
2673   const SCEVConstant *IncConst = dyn_cast<SCEVConstant>(IncExpr);
2674   if (!IncConst || !isAddressUse(UserInst, Operand))
2675     return false;
2676
2677   if (IncConst->getValue()->getValue().getMinSignedBits() > 64)
2678     return false;
2679
2680   int64_t IncOffset = IncConst->getValue()->getSExtValue();
2681   if (!isAlwaysFoldable(TTI, LSRUse::Address,
2682                         getAccessType(UserInst), /*BaseGV=*/ 0,
2683                         IncOffset, /*HaseBaseReg=*/ false))
2684     return false;
2685
2686   return true;
2687 }
2688
2689 /// GenerateIVChains - Generate an add or subtract for each IVInc in a chain to
2690 /// materialize the IV user's operand from the previous IV user's operand.
2691 void LSRInstance::GenerateIVChain(const IVChain &Chain, SCEVExpander &Rewriter,
2692                                   SmallVectorImpl<WeakVH> &DeadInsts) {
2693   // Find the new IVOperand for the head of the chain. It may have been replaced
2694   // by LSR.
2695   const IVInc &Head = Chain.Incs[0];
2696   User::op_iterator IVOpEnd = Head.UserInst->op_end();
2697   User::op_iterator IVOpIter = findIVOperand(Head.UserInst->op_begin(),
2698                                              IVOpEnd, L, SE);
2699   Value *IVSrc = 0;
2700   while (IVOpIter != IVOpEnd) {
2701     IVSrc = getWideOperand(*IVOpIter);
2702
2703     // If this operand computes the expression that the chain needs, we may use
2704     // it. (Check this after setting IVSrc which is used below.)
2705     //
2706     // Note that if Head.IncExpr is wider than IVSrc, then this phi is too
2707     // narrow for the chain, so we can no longer use it. We do allow using a
2708     // wider phi, assuming the LSR checked for free truncation. In that case we
2709     // should already have a truncate on this operand such that
2710     // getSCEV(IVSrc) == IncExpr.
2711     if (SE.getSCEV(*IVOpIter) == Head.IncExpr
2712         || SE.getSCEV(IVSrc) == Head.IncExpr) {
2713       break;
2714     }
2715     IVOpIter = findIVOperand(llvm::next(IVOpIter), IVOpEnd, L, SE);
2716   }
2717   if (IVOpIter == IVOpEnd) {
2718     // Gracefully give up on this chain.
2719     DEBUG(dbgs() << "Concealed chain head: " << *Head.UserInst << "\n");
2720     return;
2721   }
2722
2723   DEBUG(dbgs() << "Generate chain at: " << *IVSrc << "\n");
2724   Type *IVTy = IVSrc->getType();
2725   Type *IntTy = SE.getEffectiveSCEVType(IVTy);
2726   const SCEV *LeftOverExpr = 0;
2727   for (IVChain::const_iterator IncI = Chain.begin(),
2728          IncE = Chain.end(); IncI != IncE; ++IncI) {
2729
2730     Instruction *InsertPt = IncI->UserInst;
2731     if (isa<PHINode>(InsertPt))
2732       InsertPt = L->getLoopLatch()->getTerminator();
2733
2734     // IVOper will replace the current IV User's operand. IVSrc is the IV
2735     // value currently held in a register.
2736     Value *IVOper = IVSrc;
2737     if (!IncI->IncExpr->isZero()) {
2738       // IncExpr was the result of subtraction of two narrow values, so must
2739       // be signed.
2740       const SCEV *IncExpr = SE.getNoopOrSignExtend(IncI->IncExpr, IntTy);
2741       LeftOverExpr = LeftOverExpr ?
2742         SE.getAddExpr(LeftOverExpr, IncExpr) : IncExpr;
2743     }
2744     if (LeftOverExpr && !LeftOverExpr->isZero()) {
2745       // Expand the IV increment.
2746       Rewriter.clearPostInc();
2747       Value *IncV = Rewriter.expandCodeFor(LeftOverExpr, IntTy, InsertPt);
2748       const SCEV *IVOperExpr = SE.getAddExpr(SE.getUnknown(IVSrc),
2749                                              SE.getUnknown(IncV));
2750       IVOper = Rewriter.expandCodeFor(IVOperExpr, IVTy, InsertPt);
2751
2752       // If an IV increment can't be folded, use it as the next IV value.
2753       if (!canFoldIVIncExpr(LeftOverExpr, IncI->UserInst, IncI->IVOperand,
2754                             TTI)) {
2755         assert(IVTy == IVOper->getType() && "inconsistent IV increment type");
2756         IVSrc = IVOper;
2757         LeftOverExpr = 0;
2758       }
2759     }
2760     Type *OperTy = IncI->IVOperand->getType();
2761     if (IVTy != OperTy) {
2762       assert(SE.getTypeSizeInBits(IVTy) >= SE.getTypeSizeInBits(OperTy) &&
2763              "cannot extend a chained IV");
2764       IRBuilder<> Builder(InsertPt);
2765       IVOper = Builder.CreateTruncOrBitCast(IVOper, OperTy, "lsr.chain");
2766     }
2767     IncI->UserInst->replaceUsesOfWith(IncI->IVOperand, IVOper);
2768     DeadInsts.push_back(IncI->IVOperand);
2769   }
2770   // If LSR created a new, wider phi, we may also replace its postinc. We only
2771   // do this if we also found a wide value for the head of the chain.
2772   if (isa<PHINode>(Chain.tailUserInst())) {
2773     for (BasicBlock::iterator I = L->getHeader()->begin();
2774          PHINode *Phi = dyn_cast<PHINode>(I); ++I) {
2775       if (!isCompatibleIVType(Phi, IVSrc))
2776         continue;
2777       Instruction *PostIncV = dyn_cast<Instruction>(
2778         Phi->getIncomingValueForBlock(L->getLoopLatch()));
2779       if (!PostIncV || (SE.getSCEV(PostIncV) != SE.getSCEV(IVSrc)))
2780         continue;
2781       Value *IVOper = IVSrc;
2782       Type *PostIncTy = PostIncV->getType();
2783       if (IVTy != PostIncTy) {
2784         assert(PostIncTy->isPointerTy() && "mixing int/ptr IV types");
2785         IRBuilder<> Builder(L->getLoopLatch()->getTerminator());
2786         Builder.SetCurrentDebugLocation(PostIncV->getDebugLoc());
2787         IVOper = Builder.CreatePointerCast(IVSrc, PostIncTy, "lsr.chain");
2788       }
2789       Phi->replaceUsesOfWith(PostIncV, IVOper);
2790       DeadInsts.push_back(PostIncV);
2791     }
2792   }
2793 }
2794
2795 void LSRInstance::CollectFixupsAndInitialFormulae() {
2796   for (IVUsers::const_iterator UI = IU.begin(), E = IU.end(); UI != E; ++UI) {
2797     Instruction *UserInst = UI->getUser();
2798     // Skip IV users that are part of profitable IV Chains.
2799     User::op_iterator UseI = std::find(UserInst->op_begin(), UserInst->op_end(),
2800                                        UI->getOperandValToReplace());
2801     assert(UseI != UserInst->op_end() && "cannot find IV operand");
2802     if (IVIncSet.count(UseI))
2803       continue;
2804
2805     // Record the uses.
2806     LSRFixup &LF = getNewFixup();
2807     LF.UserInst = UserInst;
2808     LF.OperandValToReplace = UI->getOperandValToReplace();
2809     LF.PostIncLoops = UI->getPostIncLoops();
2810
2811     LSRUse::KindType Kind = LSRUse::Basic;
2812     Type *AccessTy = 0;
2813     if (isAddressUse(LF.UserInst, LF.OperandValToReplace)) {
2814       Kind = LSRUse::Address;
2815       AccessTy = getAccessType(LF.UserInst);
2816     }
2817
2818     const SCEV *S = IU.getExpr(*UI);
2819
2820     // Equality (== and !=) ICmps are special. We can rewrite (i == N) as
2821     // (N - i == 0), and this allows (N - i) to be the expression that we work
2822     // with rather than just N or i, so we can consider the register
2823     // requirements for both N and i at the same time. Limiting this code to
2824     // equality icmps is not a problem because all interesting loops use
2825     // equality icmps, thanks to IndVarSimplify.
2826     if (ICmpInst *CI = dyn_cast<ICmpInst>(LF.UserInst))
2827       if (CI->isEquality()) {
2828         // Swap the operands if needed to put the OperandValToReplace on the
2829         // left, for consistency.
2830         Value *NV = CI->getOperand(1);
2831         if (NV == LF.OperandValToReplace) {
2832           CI->setOperand(1, CI->getOperand(0));
2833           CI->setOperand(0, NV);
2834           NV = CI->getOperand(1);
2835           Changed = true;
2836         }
2837
2838         // x == y  -->  x - y == 0
2839         const SCEV *N = SE.getSCEV(NV);
2840         if (SE.isLoopInvariant(N, L) && isSafeToExpand(N)) {
2841           // S is normalized, so normalize N before folding it into S
2842           // to keep the result normalized.
2843           N = TransformForPostIncUse(Normalize, N, CI, 0,
2844                                      LF.PostIncLoops, SE, DT);
2845           Kind = LSRUse::ICmpZero;
2846           S = SE.getMinusSCEV(N, S);
2847         }
2848
2849         // -1 and the negations of all interesting strides (except the negation
2850         // of -1) are now also interesting.
2851         for (size_t i = 0, e = Factors.size(); i != e; ++i)
2852           if (Factors[i] != -1)
2853             Factors.insert(-(uint64_t)Factors[i]);
2854         Factors.insert(-1);
2855       }
2856
2857     // Set up the initial formula for this use.
2858     std::pair<size_t, int64_t> P = getUse(S, Kind, AccessTy);
2859     LF.LUIdx = P.first;
2860     LF.Offset = P.second;
2861     LSRUse &LU = Uses[LF.LUIdx];
2862     LU.AllFixupsOutsideLoop &= LF.isUseFullyOutsideLoop(L);
2863     if (!LU.WidestFixupType ||
2864         SE.getTypeSizeInBits(LU.WidestFixupType) <
2865         SE.getTypeSizeInBits(LF.OperandValToReplace->getType()))
2866       LU.WidestFixupType = LF.OperandValToReplace->getType();
2867
2868     // If this is the first use of this LSRUse, give it a formula.
2869     if (LU.Formulae.empty()) {
2870       InsertInitialFormula(S, LU, LF.LUIdx);
2871       CountRegisters(LU.Formulae.back(), LF.LUIdx);
2872     }
2873   }
2874
2875   DEBUG(print_fixups(dbgs()));
2876 }
2877
2878 /// InsertInitialFormula - Insert a formula for the given expression into
2879 /// the given use, separating out loop-variant portions from loop-invariant
2880 /// and loop-computable portions.
2881 void
2882 LSRInstance::InsertInitialFormula(const SCEV *S, LSRUse &LU, size_t LUIdx) {
2883   Formula F;
2884   F.InitialMatch(S, L, SE);
2885   bool Inserted = InsertFormula(LU, LUIdx, F);
2886   assert(Inserted && "Initial formula already exists!"); (void)Inserted;
2887 }
2888
2889 /// InsertSupplementalFormula - Insert a simple single-register formula for
2890 /// the given expression into the given use.
2891 void
2892 LSRInstance::InsertSupplementalFormula(const SCEV *S,
2893                                        LSRUse &LU, size_t LUIdx) {
2894   Formula F;
2895   F.BaseRegs.push_back(S);
2896   F.AM.HasBaseReg = true;
2897   bool Inserted = InsertFormula(LU, LUIdx, F);
2898   assert(Inserted && "Supplemental formula already exists!"); (void)Inserted;
2899 }
2900
2901 /// CountRegisters - Note which registers are used by the given formula,
2902 /// updating RegUses.
2903 void LSRInstance::CountRegisters(const Formula &F, size_t LUIdx) {
2904   if (F.ScaledReg)
2905     RegUses.CountRegister(F.ScaledReg, LUIdx);
2906   for (SmallVectorImpl<const SCEV *>::const_iterator I = F.BaseRegs.begin(),
2907        E = F.BaseRegs.end(); I != E; ++I)
2908     RegUses.CountRegister(*I, LUIdx);
2909 }
2910
2911 /// InsertFormula - If the given formula has not yet been inserted, add it to
2912 /// the list, and return true. Return false otherwise.
2913 bool LSRInstance::InsertFormula(LSRUse &LU, unsigned LUIdx, const Formula &F) {
2914   if (!LU.InsertFormula(F))
2915     return false;
2916
2917   CountRegisters(F, LUIdx);
2918   return true;
2919 }
2920
2921 /// CollectLoopInvariantFixupsAndFormulae - Check for other uses of
2922 /// loop-invariant values which we're tracking. These other uses will pin these
2923 /// values in registers, making them less profitable for elimination.
2924 /// TODO: This currently misses non-constant addrec step registers.
2925 /// TODO: Should this give more weight to users inside the loop?
2926 void
2927 LSRInstance::CollectLoopInvariantFixupsAndFormulae() {
2928   SmallVector<const SCEV *, 8> Worklist(RegUses.begin(), RegUses.end());
2929   SmallPtrSet<const SCEV *, 8> Inserted;
2930
2931   while (!Worklist.empty()) {
2932     const SCEV *S = Worklist.pop_back_val();
2933
2934     if (const SCEVNAryExpr *N = dyn_cast<SCEVNAryExpr>(S))
2935       Worklist.append(N->op_begin(), N->op_end());
2936     else if (const SCEVCastExpr *C = dyn_cast<SCEVCastExpr>(S))
2937       Worklist.push_back(C->getOperand());
2938     else if (const SCEVUDivExpr *D = dyn_cast<SCEVUDivExpr>(S)) {
2939       Worklist.push_back(D->getLHS());
2940       Worklist.push_back(D->getRHS());
2941     } else if (const SCEVUnknown *U = dyn_cast<SCEVUnknown>(S)) {
2942       if (!Inserted.insert(U)) continue;
2943       const Value *V = U->getValue();
2944       if (const Instruction *Inst = dyn_cast<Instruction>(V)) {
2945         // Look for instructions defined outside the loop.
2946         if (L->contains(Inst)) continue;
2947       } else if (isa<UndefValue>(V))
2948         // Undef doesn't have a live range, so it doesn't matter.
2949         continue;
2950       for (Value::const_use_iterator UI = V->use_begin(), UE = V->use_end();
2951            UI != UE; ++UI) {
2952         const Instruction *UserInst = dyn_cast<Instruction>(*UI);
2953         // Ignore non-instructions.
2954         if (!UserInst)
2955           continue;
2956         // Ignore instructions in other functions (as can happen with
2957         // Constants).
2958         if (UserInst->getParent()->getParent() != L->getHeader()->getParent())
2959           continue;
2960         // Ignore instructions not dominated by the loop.
2961         const BasicBlock *UseBB = !isa<PHINode>(UserInst) ?
2962           UserInst->getParent() :
2963           cast<PHINode>(UserInst)->getIncomingBlock(
2964             PHINode::getIncomingValueNumForOperand(UI.getOperandNo()));
2965         if (!DT.dominates(L->getHeader(), UseBB))
2966           continue;
2967         // Ignore uses which are part of other SCEV expressions, to avoid
2968         // analyzing them multiple times.
2969         if (SE.isSCEVable(UserInst->getType())) {
2970           const SCEV *UserS = SE.getSCEV(const_cast<Instruction *>(UserInst));
2971           // If the user is a no-op, look through to its uses.
2972           if (!isa<SCEVUnknown>(UserS))
2973             continue;
2974           if (UserS == U) {
2975             Worklist.push_back(
2976               SE.getUnknown(const_cast<Instruction *>(UserInst)));
2977             continue;
2978           }
2979         }
2980         // Ignore icmp instructions which are already being analyzed.
2981         if (const ICmpInst *ICI = dyn_cast<ICmpInst>(UserInst)) {
2982           unsigned OtherIdx = !UI.getOperandNo();
2983           Value *OtherOp = const_cast<Value *>(ICI->getOperand(OtherIdx));
2984           if (SE.hasComputableLoopEvolution(SE.getSCEV(OtherOp), L))
2985             continue;
2986         }
2987
2988         LSRFixup &LF = getNewFixup();
2989         LF.UserInst = const_cast<Instruction *>(UserInst);
2990         LF.OperandValToReplace = UI.getUse();
2991         std::pair<size_t, int64_t> P = getUse(S, LSRUse::Basic, 0);
2992         LF.LUIdx = P.first;
2993         LF.Offset = P.second;
2994         LSRUse &LU = Uses[LF.LUIdx];
2995         LU.AllFixupsOutsideLoop &= LF.isUseFullyOutsideLoop(L);
2996         if (!LU.WidestFixupType ||
2997             SE.getTypeSizeInBits(LU.WidestFixupType) <
2998             SE.getTypeSizeInBits(LF.OperandValToReplace->getType()))
2999           LU.WidestFixupType = LF.OperandValToReplace->getType();
3000         InsertSupplementalFormula(U, LU, LF.LUIdx);
3001         CountRegisters(LU.Formulae.back(), Uses.size() - 1);
3002         break;
3003       }
3004     }
3005   }
3006 }
3007
3008 /// CollectSubexprs - Split S into subexpressions which can be pulled out into
3009 /// separate registers. If C is non-null, multiply each subexpression by C.
3010 ///
3011 /// Return remainder expression after factoring the subexpressions captured by
3012 /// Ops. If Ops is complete, return NULL.
3013 static const SCEV *CollectSubexprs(const SCEV *S, const SCEVConstant *C,
3014                                    SmallVectorImpl<const SCEV *> &Ops,
3015                                    const Loop *L,
3016                                    ScalarEvolution &SE,
3017                                    unsigned Depth = 0) {
3018   // Arbitrarily cap recursion to protect compile time.
3019   if (Depth >= 3)
3020     return S;
3021
3022   if (const SCEVAddExpr *Add = dyn_cast<SCEVAddExpr>(S)) {
3023     // Break out add operands.
3024     for (SCEVAddExpr::op_iterator I = Add->op_begin(), E = Add->op_end();
3025          I != E; ++I) {
3026       const SCEV *Remainder = CollectSubexprs(*I, C, Ops, L, SE, Depth+1);
3027       if (Remainder)
3028         Ops.push_back(C ? SE.getMulExpr(C, Remainder) : Remainder);
3029     }
3030     return NULL;
3031   } else if (const SCEVAddRecExpr *AR = dyn_cast<SCEVAddRecExpr>(S)) {
3032     // Split a non-zero base out of an addrec.
3033     if (AR->getStart()->isZero())
3034       return S;
3035
3036     const SCEV *Remainder = CollectSubexprs(AR->getStart(),
3037                                             C, Ops, L, SE, Depth+1);
3038     // Split the non-zero AddRec unless it is part of a nested recurrence that
3039     // does not pertain to this loop.
3040     if (Remainder && (AR->getLoop() == L || !isa<SCEVAddRecExpr>(Remainder))) {
3041       Ops.push_back(C ? SE.getMulExpr(C, Remainder) : Remainder);
3042       Remainder = NULL;
3043     }
3044     if (Remainder != AR->getStart()) {
3045       if (!Remainder)
3046         Remainder = SE.getConstant(AR->getType(), 0);
3047       return SE.getAddRecExpr(Remainder,
3048                               AR->getStepRecurrence(SE),
3049                               AR->getLoop(),
3050                               //FIXME: AR->getNoWrapFlags(SCEV::FlagNW)
3051                               SCEV::FlagAnyWrap);
3052     }
3053   } else if (const SCEVMulExpr *Mul = dyn_cast<SCEVMulExpr>(S)) {
3054     // Break (C * (a + b + c)) into C*a + C*b + C*c.
3055     if (Mul->getNumOperands() != 2)
3056       return S;
3057     if (const SCEVConstant *Op0 =
3058         dyn_cast<SCEVConstant>(Mul->getOperand(0))) {
3059       C = C ? cast<SCEVConstant>(SE.getMulExpr(C, Op0)) : Op0;
3060       const SCEV *Remainder =
3061         CollectSubexprs(Mul->getOperand(1), C, Ops, L, SE, Depth+1);
3062       if (Remainder)
3063         Ops.push_back(SE.getMulExpr(C, Remainder));
3064       return NULL;
3065     }
3066   }
3067   return S;
3068 }
3069
3070 /// GenerateReassociations - Split out subexpressions from adds and the bases of
3071 /// addrecs.
3072 void LSRInstance::GenerateReassociations(LSRUse &LU, unsigned LUIdx,
3073                                          Formula Base,
3074                                          unsigned Depth) {
3075   // Arbitrarily cap recursion to protect compile time.
3076   if (Depth >= 3) return;
3077
3078   for (size_t i = 0, e = Base.BaseRegs.size(); i != e; ++i) {
3079     const SCEV *BaseReg = Base.BaseRegs[i];
3080
3081     SmallVector<const SCEV *, 8> AddOps;
3082     const SCEV *Remainder = CollectSubexprs(BaseReg, 0, AddOps, L, SE);
3083     if (Remainder)
3084       AddOps.push_back(Remainder);
3085
3086     if (AddOps.size() == 1) continue;
3087
3088     for (SmallVectorImpl<const SCEV *>::const_iterator J = AddOps.begin(),
3089          JE = AddOps.end(); J != JE; ++J) {
3090
3091       // Loop-variant "unknown" values are uninteresting; we won't be able to
3092       // do anything meaningful with them.
3093       if (isa<SCEVUnknown>(*J) && !SE.isLoopInvariant(*J, L))
3094         continue;
3095
3096       // Don't pull a constant into a register if the constant could be folded
3097       // into an immediate field.
3098       if (isAlwaysFoldable(TTI, SE, LU.MinOffset, LU.MaxOffset, LU.Kind,
3099                            LU.AccessTy, *J, Base.getNumRegs() > 1))
3100         continue;
3101
3102       // Collect all operands except *J.
3103       SmallVector<const SCEV *, 8> InnerAddOps
3104         (((const SmallVector<const SCEV *, 8> &)AddOps).begin(), J);
3105       InnerAddOps.append
3106         (llvm::next(J), ((const SmallVector<const SCEV *, 8> &)AddOps).end());
3107
3108       // Don't leave just a constant behind in a register if the constant could
3109       // be folded into an immediate field.
3110       if (InnerAddOps.size() == 1 &&
3111           isAlwaysFoldable(TTI, SE, LU.MinOffset, LU.MaxOffset, LU.Kind,
3112                            LU.AccessTy, InnerAddOps[0], Base.getNumRegs() > 1))
3113         continue;
3114
3115       const SCEV *InnerSum = SE.getAddExpr(InnerAddOps);
3116       if (InnerSum->isZero())
3117         continue;
3118       Formula F = Base;
3119
3120       // Add the remaining pieces of the add back into the new formula.
3121       const SCEVConstant *InnerSumSC = dyn_cast<SCEVConstant>(InnerSum);
3122       if (InnerSumSC &&
3123           SE.getTypeSizeInBits(InnerSumSC->getType()) <= 64 &&
3124           TTI.isLegalAddImmediate((uint64_t)F.UnfoldedOffset +
3125                                   InnerSumSC->getValue()->getZExtValue())) {
3126         F.UnfoldedOffset = (uint64_t)F.UnfoldedOffset +
3127                            InnerSumSC->getValue()->getZExtValue();
3128         F.BaseRegs.erase(F.BaseRegs.begin() + i);
3129       } else
3130         F.BaseRegs[i] = InnerSum;
3131
3132       // Add J as its own register, or an unfolded immediate.
3133       const SCEVConstant *SC = dyn_cast<SCEVConstant>(*J);
3134       if (SC && SE.getTypeSizeInBits(SC->getType()) <= 64 &&
3135           TTI.isLegalAddImmediate((uint64_t)F.UnfoldedOffset +
3136                                   SC->getValue()->getZExtValue()))
3137         F.UnfoldedOffset = (uint64_t)F.UnfoldedOffset +
3138                            SC->getValue()->getZExtValue();
3139       else
3140         F.BaseRegs.push_back(*J);
3141
3142       if (InsertFormula(LU, LUIdx, F))
3143         // If that formula hadn't been seen before, recurse to find more like
3144         // it.
3145         GenerateReassociations(LU, LUIdx, LU.Formulae.back(), Depth+1);
3146     }
3147   }
3148 }
3149
3150 /// GenerateCombinations - Generate a formula consisting of all of the
3151 /// loop-dominating registers added into a single register.
3152 void LSRInstance::GenerateCombinations(LSRUse &LU, unsigned LUIdx,
3153                                        Formula Base) {
3154   // This method is only interesting on a plurality of registers.
3155   if (Base.BaseRegs.size() <= 1) return;
3156
3157   Formula F = Base;
3158   F.BaseRegs.clear();
3159   SmallVector<const SCEV *, 4> Ops;
3160   for (SmallVectorImpl<const SCEV *>::const_iterator
3161        I = Base.BaseRegs.begin(), E = Base.BaseRegs.end(); I != E; ++I) {
3162     const SCEV *BaseReg = *I;
3163     if (SE.properlyDominates(BaseReg, L->getHeader()) &&
3164         !SE.hasComputableLoopEvolution(BaseReg, L))
3165       Ops.push_back(BaseReg);
3166     else
3167       F.BaseRegs.push_back(BaseReg);
3168   }
3169   if (Ops.size() > 1) {
3170     const SCEV *Sum = SE.getAddExpr(Ops);
3171     // TODO: If Sum is zero, it probably means ScalarEvolution missed an
3172     // opportunity to fold something. For now, just ignore such cases
3173     // rather than proceed with zero in a register.
3174     if (!Sum->isZero()) {
3175       F.BaseRegs.push_back(Sum);
3176       (void)InsertFormula(LU, LUIdx, F);
3177     }
3178   }
3179 }
3180
3181 /// GenerateSymbolicOffsets - Generate reuse formulae using symbolic offsets.
3182 void LSRInstance::GenerateSymbolicOffsets(LSRUse &LU, unsigned LUIdx,
3183                                           Formula Base) {
3184   // We can't add a symbolic offset if the address already contains one.
3185   if (Base.AM.BaseGV) return;
3186
3187   for (size_t i = 0, e = Base.BaseRegs.size(); i != e; ++i) {
3188     const SCEV *G = Base.BaseRegs[i];
3189     GlobalValue *GV = ExtractSymbol(G, SE);
3190     if (G->isZero() || !GV)
3191       continue;
3192     Formula F = Base;
3193     F.AM.BaseGV = GV;
3194     if (!isLegalUse(TTI, LU.MinOffset, LU.MaxOffset, LU.Kind, LU.AccessTy, F))
3195       continue;
3196     F.BaseRegs[i] = G;
3197     (void)InsertFormula(LU, LUIdx, F);
3198   }
3199 }
3200
3201 /// GenerateConstantOffsets - Generate reuse formulae using symbolic offsets.
3202 void LSRInstance::GenerateConstantOffsets(LSRUse &LU, unsigned LUIdx,
3203                                           Formula Base) {
3204   // TODO: For now, just add the min and max offset, because it usually isn't
3205   // worthwhile looking at everything inbetween.
3206   SmallVector<int64_t, 2> Worklist;
3207   Worklist.push_back(LU.MinOffset);
3208   if (LU.MaxOffset != LU.MinOffset)
3209     Worklist.push_back(LU.MaxOffset);
3210
3211   for (size_t i = 0, e = Base.BaseRegs.size(); i != e; ++i) {
3212     const SCEV *G = Base.BaseRegs[i];
3213
3214     for (SmallVectorImpl<int64_t>::const_iterator I = Worklist.begin(),
3215          E = Worklist.end(); I != E; ++I) {
3216       Formula F = Base;
3217       F.AM.BaseOffs = (uint64_t)Base.AM.BaseOffs - *I;
3218       if (isLegalUse(TTI, LU.MinOffset - *I, LU.MaxOffset - *I, LU.Kind,
3219                      LU.AccessTy, F)) {
3220         // Add the offset to the base register.
3221         const SCEV *NewG = SE.getAddExpr(SE.getConstant(G->getType(), *I), G);
3222         // If it cancelled out, drop the base register, otherwise update it.
3223         if (NewG->isZero()) {
3224           std::swap(F.BaseRegs[i], F.BaseRegs.back());
3225           F.BaseRegs.pop_back();
3226         } else
3227           F.BaseRegs[i] = NewG;
3228
3229         (void)InsertFormula(LU, LUIdx, F);
3230       }
3231     }
3232
3233     int64_t Imm = ExtractImmediate(G, SE);
3234     if (G->isZero() || Imm == 0)
3235       continue;
3236     Formula F = Base;
3237     F.AM.BaseOffs = (uint64_t)F.AM.BaseOffs + Imm;
3238     if (!isLegalUse(TTI, LU.MinOffset, LU.MaxOffset, LU.Kind, LU.AccessTy, F))
3239       continue;
3240     F.BaseRegs[i] = G;
3241     (void)InsertFormula(LU, LUIdx, F);
3242   }
3243 }
3244
3245 /// GenerateICmpZeroScales - For ICmpZero, check to see if we can scale up
3246 /// the comparison. For example, x == y -> x*c == y*c.
3247 void LSRInstance::GenerateICmpZeroScales(LSRUse &LU, unsigned LUIdx,
3248                                          Formula Base) {
3249   if (LU.Kind != LSRUse::ICmpZero) return;
3250
3251   // Determine the integer type for the base formula.
3252   Type *IntTy = Base.getType();
3253   if (!IntTy) return;
3254   if (SE.getTypeSizeInBits(IntTy) > 64) return;
3255
3256   // Don't do this if there is more than one offset.
3257   if (LU.MinOffset != LU.MaxOffset) return;
3258
3259   assert(!Base.AM.BaseGV && "ICmpZero use is not legal!");
3260
3261   // Check each interesting stride.
3262   for (SmallSetVector<int64_t, 8>::const_iterator
3263        I = Factors.begin(), E = Factors.end(); I != E; ++I) {
3264     int64_t Factor = *I;
3265
3266     // Check that the multiplication doesn't overflow.
3267     if (Base.AM.BaseOffs == INT64_MIN && Factor == -1)
3268       continue;
3269     int64_t NewBaseOffs = (uint64_t)Base.AM.BaseOffs * Factor;
3270     if (NewBaseOffs / Factor != Base.AM.BaseOffs)
3271       continue;
3272
3273     // Check that multiplying with the use offset doesn't overflow.
3274     int64_t Offset = LU.MinOffset;
3275     if (Offset == INT64_MIN && Factor == -1)
3276       continue;
3277     Offset = (uint64_t)Offset * Factor;
3278     if (Offset / Factor != LU.MinOffset)
3279       continue;
3280
3281     Formula F = Base;
3282     F.AM.BaseOffs = NewBaseOffs;
3283
3284     // Check that this scale is legal.
3285     if (!isLegalUse(TTI, Offset, Offset, LU.Kind, LU.AccessTy, F))
3286       continue;
3287
3288     // Compensate for the use having MinOffset built into it.
3289     F.AM.BaseOffs = (uint64_t)F.AM.BaseOffs + Offset - LU.MinOffset;
3290
3291     const SCEV *FactorS = SE.getConstant(IntTy, Factor);
3292
3293     // Check that multiplying with each base register doesn't overflow.
3294     for (size_t i = 0, e = F.BaseRegs.size(); i != e; ++i) {
3295       F.BaseRegs[i] = SE.getMulExpr(F.BaseRegs[i], FactorS);
3296       if (getExactSDiv(F.BaseRegs[i], FactorS, SE) != Base.BaseRegs[i])
3297         goto next;
3298     }
3299
3300     // Check that multiplying with the scaled register doesn't overflow.
3301     if (F.ScaledReg) {
3302       F.ScaledReg = SE.getMulExpr(F.ScaledReg, FactorS);
3303       if (getExactSDiv(F.ScaledReg, FactorS, SE) != Base.ScaledReg)
3304         continue;
3305     }
3306
3307     // Check that multiplying with the unfolded offset doesn't overflow.
3308     if (F.UnfoldedOffset != 0) {
3309       if (F.UnfoldedOffset == INT64_MIN && Factor == -1)
3310         continue;
3311       F.UnfoldedOffset = (uint64_t)F.UnfoldedOffset * Factor;
3312       if (F.UnfoldedOffset / Factor != Base.UnfoldedOffset)
3313         continue;
3314     }
3315
3316     // If we make it here and it's legal, add it.
3317     (void)InsertFormula(LU, LUIdx, F);
3318   next:;
3319   }
3320 }
3321
3322 /// GenerateScales - Generate stride factor reuse formulae by making use of
3323 /// scaled-offset address modes, for example.
3324 void LSRInstance::GenerateScales(LSRUse &LU, unsigned LUIdx, Formula Base) {
3325   // Determine the integer type for the base formula.
3326   Type *IntTy = Base.getType();
3327   if (!IntTy) return;
3328
3329   // If this Formula already has a scaled register, we can't add another one.
3330   if (Base.AM.Scale != 0) return;
3331
3332   // Check each interesting stride.
3333   for (SmallSetVector<int64_t, 8>::const_iterator
3334        I = Factors.begin(), E = Factors.end(); I != E; ++I) {
3335     int64_t Factor = *I;
3336
3337     Base.AM.Scale = Factor;
3338     Base.AM.HasBaseReg = Base.BaseRegs.size() > 1;
3339     // Check whether this scale is going to be legal.
3340     if (!isLegalUse(TTI, LU.MinOffset, LU.MaxOffset, LU.Kind, LU.AccessTy,
3341                     Base)) {
3342       // As a special-case, handle special out-of-loop Basic users specially.
3343       // TODO: Reconsider this special case.
3344       if (LU.Kind == LSRUse::Basic &&
3345           isLegalUse(TTI, LU.MinOffset, LU.MaxOffset, LSRUse::Special,
3346                      LU.AccessTy, Base) &&
3347           LU.AllFixupsOutsideLoop)
3348         LU.Kind = LSRUse::Special;
3349       else
3350         continue;
3351     }
3352     // For an ICmpZero, negating a solitary base register won't lead to
3353     // new solutions.
3354     if (LU.Kind == LSRUse::ICmpZero &&
3355         !Base.AM.HasBaseReg && Base.AM.BaseOffs == 0 && !Base.AM.BaseGV)
3356       continue;
3357     // For each addrec base reg, apply the scale, if possible.
3358     for (size_t i = 0, e = Base.BaseRegs.size(); i != e; ++i)
3359       if (const SCEVAddRecExpr *AR =
3360             dyn_cast<SCEVAddRecExpr>(Base.BaseRegs[i])) {
3361         const SCEV *FactorS = SE.getConstant(IntTy, Factor);
3362         if (FactorS->isZero())
3363           continue;
3364         // Divide out the factor, ignoring high bits, since we'll be
3365         // scaling the value back up in the end.
3366         if (const SCEV *Quotient = getExactSDiv(AR, FactorS, SE, true)) {
3367           // TODO: This could be optimized to avoid all the copying.
3368           Formula F = Base;
3369           F.ScaledReg = Quotient;
3370           F.DeleteBaseReg(F.BaseRegs[i]);
3371           (void)InsertFormula(LU, LUIdx, F);
3372         }
3373       }
3374   }
3375 }
3376
3377 /// GenerateTruncates - Generate reuse formulae from different IV types.
3378 void LSRInstance::GenerateTruncates(LSRUse &LU, unsigned LUIdx, Formula Base) {
3379   // Don't bother truncating symbolic values.
3380   if (Base.AM.BaseGV) return;
3381
3382   // Determine the integer type for the base formula.
3383   Type *DstTy = Base.getType();
3384   if (!DstTy) return;
3385   DstTy = SE.getEffectiveSCEVType(DstTy);
3386
3387   for (SmallSetVector<Type *, 4>::const_iterator
3388        I = Types.begin(), E = Types.end(); I != E; ++I) {
3389     Type *SrcTy = *I;
3390     if (SrcTy != DstTy && TTI.isTruncateFree(SrcTy, DstTy)) {
3391       Formula F = Base;
3392
3393       if (F.ScaledReg) F.ScaledReg = SE.getAnyExtendExpr(F.ScaledReg, *I);
3394       for (SmallVectorImpl<const SCEV *>::iterator J = F.BaseRegs.begin(),
3395            JE = F.BaseRegs.end(); J != JE; ++J)
3396         *J = SE.getAnyExtendExpr(*J, SrcTy);
3397
3398       // TODO: This assumes we've done basic processing on all uses and
3399       // have an idea what the register usage is.
3400       if (!F.hasRegsUsedByUsesOtherThan(LUIdx, RegUses))
3401         continue;
3402
3403       (void)InsertFormula(LU, LUIdx, F);
3404     }
3405   }
3406 }
3407
3408 namespace {
3409
3410 /// WorkItem - Helper class for GenerateCrossUseConstantOffsets. It's used to
3411 /// defer modifications so that the search phase doesn't have to worry about
3412 /// the data structures moving underneath it.
3413 struct WorkItem {
3414   size_t LUIdx;
3415   int64_t Imm;
3416   const SCEV *OrigReg;
3417
3418   WorkItem(size_t LI, int64_t I, const SCEV *R)
3419     : LUIdx(LI), Imm(I), OrigReg(R) {}
3420
3421   void print(raw_ostream &OS) const;
3422   void dump() const;
3423 };
3424
3425 }
3426
3427 void WorkItem::print(raw_ostream &OS) const {
3428   OS << "in formulae referencing " << *OrigReg << " in use " << LUIdx
3429      << " , add offset " << Imm;
3430 }
3431
3432 #if !defined(NDEBUG) || defined(LLVM_ENABLE_DUMP)
3433 void WorkItem::dump() const {
3434   print(errs()); errs() << '\n';
3435 }
3436 #endif
3437
3438 /// GenerateCrossUseConstantOffsets - Look for registers which are a constant
3439 /// distance apart and try to form reuse opportunities between them.
3440 void LSRInstance::GenerateCrossUseConstantOffsets() {
3441   // Group the registers by their value without any added constant offset.
3442   typedef std::map<int64_t, const SCEV *> ImmMapTy;
3443   typedef DenseMap<const SCEV *, ImmMapTy> RegMapTy;
3444   RegMapTy Map;
3445   DenseMap<const SCEV *, SmallBitVector> UsedByIndicesMap;
3446   SmallVector<const SCEV *, 8> Sequence;
3447   for (RegUseTracker::const_iterator I = RegUses.begin(), E = RegUses.end();
3448        I != E; ++I) {
3449     const SCEV *Reg = *I;
3450     int64_t Imm = ExtractImmediate(Reg, SE);
3451     std::pair<RegMapTy::iterator, bool> Pair =
3452       Map.insert(std::make_pair(Reg, ImmMapTy()));
3453     if (Pair.second)
3454       Sequence.push_back(Reg);
3455     Pair.first->second.insert(std::make_pair(Imm, *I));
3456     UsedByIndicesMap[Reg] |= RegUses.getUsedByIndices(*I);
3457   }
3458
3459   // Now examine each set of registers with the same base value. Build up
3460   // a list of work to do and do the work in a separate step so that we're
3461   // not adding formulae and register counts while we're searching.
3462   SmallVector<WorkItem, 32> WorkItems;
3463   SmallSet<std::pair<size_t, int64_t>, 32> UniqueItems;
3464   for (SmallVectorImpl<const SCEV *>::const_iterator I = Sequence.begin(),
3465        E = Sequence.end(); I != E; ++I) {
3466     const SCEV *Reg = *I;
3467     const ImmMapTy &Imms = Map.find(Reg)->second;
3468
3469     // It's not worthwhile looking for reuse if there's only one offset.
3470     if (Imms.size() == 1)
3471       continue;
3472
3473     DEBUG(dbgs() << "Generating cross-use offsets for " << *Reg << ':';
3474           for (ImmMapTy::const_iterator J = Imms.begin(), JE = Imms.end();
3475                J != JE; ++J)
3476             dbgs() << ' ' << J->first;
3477           dbgs() << '\n');
3478
3479     // Examine each offset.
3480     for (ImmMapTy::const_iterator J = Imms.begin(), JE = Imms.end();
3481          J != JE; ++J) {
3482       const SCEV *OrigReg = J->second;
3483
3484       int64_t JImm = J->first;
3485       const SmallBitVector &UsedByIndices = RegUses.getUsedByIndices(OrigReg);
3486
3487       if (!isa<SCEVConstant>(OrigReg) &&
3488           UsedByIndicesMap[Reg].count() == 1) {
3489         DEBUG(dbgs() << "Skipping cross-use reuse for " << *OrigReg << '\n');
3490         continue;
3491       }
3492
3493       // Conservatively examine offsets between this orig reg a few selected
3494       // other orig regs.
3495       ImmMapTy::const_iterator OtherImms[] = {
3496         Imms.begin(), prior(Imms.end()),
3497         Imms.lower_bound((Imms.begin()->first + prior(Imms.end())->first) / 2)
3498       };
3499       for (size_t i = 0, e = array_lengthof(OtherImms); i != e; ++i) {
3500         ImmMapTy::const_iterator M = OtherImms[i];
3501         if (M == J || M == JE) continue;
3502
3503         // Compute the difference between the two.
3504         int64_t Imm = (uint64_t)JImm - M->first;
3505         for (int LUIdx = UsedByIndices.find_first(); LUIdx != -1;
3506              LUIdx = UsedByIndices.find_next(LUIdx))
3507           // Make a memo of this use, offset, and register tuple.
3508           if (UniqueItems.insert(std::make_pair(LUIdx, Imm)))
3509             WorkItems.push_back(WorkItem(LUIdx, Imm, OrigReg));
3510       }
3511     }
3512   }
3513
3514   Map.clear();
3515   Sequence.clear();
3516   UsedByIndicesMap.clear();
3517   UniqueItems.clear();
3518
3519   // Now iterate through the worklist and add new formulae.
3520   for (SmallVectorImpl<WorkItem>::const_iterator I = WorkItems.begin(),
3521        E = WorkItems.end(); I != E; ++I) {
3522     const WorkItem &WI = *I;
3523     size_t LUIdx = WI.LUIdx;
3524     LSRUse &LU = Uses[LUIdx];
3525     int64_t Imm = WI.Imm;
3526     const SCEV *OrigReg = WI.OrigReg;
3527
3528     Type *IntTy = SE.getEffectiveSCEVType(OrigReg->getType());
3529     const SCEV *NegImmS = SE.getSCEV(ConstantInt::get(IntTy, -(uint64_t)Imm));
3530     unsigned BitWidth = SE.getTypeSizeInBits(IntTy);
3531
3532     // TODO: Use a more targeted data structure.
3533     for (size_t L = 0, LE = LU.Formulae.size(); L != LE; ++L) {
3534       const Formula &F = LU.Formulae[L];
3535       // Use the immediate in the scaled register.
3536       if (F.ScaledReg == OrigReg) {
3537         int64_t Offs = (uint64_t)F.AM.BaseOffs +
3538                        Imm * (uint64_t)F.AM.Scale;
3539         // Don't create 50 + reg(-50).
3540         if (F.referencesReg(SE.getSCEV(
3541                    ConstantInt::get(IntTy, -(uint64_t)Offs))))
3542           continue;
3543         Formula NewF = F;
3544         NewF.AM.BaseOffs = Offs;
3545         if (!isLegalUse(TTI, LU.MinOffset, LU.MaxOffset, LU.Kind, LU.AccessTy,
3546                         NewF))
3547           continue;
3548         NewF.ScaledReg = SE.getAddExpr(NegImmS, NewF.ScaledReg);
3549
3550         // If the new scale is a constant in a register, and adding the constant
3551         // value to the immediate would produce a value closer to zero than the
3552         // immediate itself, then the formula isn't worthwhile.
3553         if (const SCEVConstant *C = dyn_cast<SCEVConstant>(NewF.ScaledReg))
3554           if (C->getValue()->isNegative() !=
3555                 (NewF.AM.BaseOffs < 0) &&
3556               (C->getValue()->getValue().abs() * APInt(BitWidth, F.AM.Scale))
3557                 .ule(abs64(NewF.AM.BaseOffs)))
3558             continue;
3559
3560         // OK, looks good.
3561         (void)InsertFormula(LU, LUIdx, NewF);
3562       } else {
3563         // Use the immediate in a base register.
3564         for (size_t N = 0, NE = F.BaseRegs.size(); N != NE; ++N) {
3565           const SCEV *BaseReg = F.BaseRegs[N];
3566           if (BaseReg != OrigReg)
3567             continue;
3568           Formula NewF = F;
3569           NewF.AM.BaseOffs = (uint64_t)NewF.AM.BaseOffs + Imm;
3570           if (!isLegalUse(TTI, LU.MinOffset, LU.MaxOffset,
3571                           LU.Kind, LU.AccessTy, NewF)) {
3572             if (!TTI.isLegalAddImmediate((uint64_t)NewF.UnfoldedOffset + Imm))
3573               continue;
3574             NewF = F;
3575             NewF.UnfoldedOffset = (uint64_t)NewF.UnfoldedOffset + Imm;
3576           }
3577           NewF.BaseRegs[N] = SE.getAddExpr(NegImmS, BaseReg);
3578
3579           // If the new formula has a constant in a register, and adding the
3580           // constant value to the immediate would produce a value closer to
3581           // zero than the immediate itself, then the formula isn't worthwhile.
3582           for (SmallVectorImpl<const SCEV *>::const_iterator
3583                J = NewF.BaseRegs.begin(), JE = NewF.BaseRegs.end();
3584                J != JE; ++J)
3585             if (const SCEVConstant *C = dyn_cast<SCEVConstant>(*J))
3586               if ((C->getValue()->getValue() + NewF.AM.BaseOffs).abs().slt(
3587                    abs64(NewF.AM.BaseOffs)) &&
3588                   (C->getValue()->getValue() +
3589                    NewF.AM.BaseOffs).countTrailingZeros() >=
3590                    CountTrailingZeros_64(NewF.AM.BaseOffs))
3591                 goto skip_formula;
3592
3593           // Ok, looks good.
3594           (void)InsertFormula(LU, LUIdx, NewF);
3595           break;
3596         skip_formula:;
3597         }
3598       }
3599     }
3600   }
3601 }
3602
3603 /// GenerateAllReuseFormulae - Generate formulae for each use.
3604 void
3605 LSRInstance::GenerateAllReuseFormulae() {
3606   // This is split into multiple loops so that hasRegsUsedByUsesOtherThan
3607   // queries are more precise.
3608   for (size_t LUIdx = 0, NumUses = Uses.size(); LUIdx != NumUses; ++LUIdx) {
3609     LSRUse &LU = Uses[LUIdx];
3610     for (size_t i = 0, f = LU.Formulae.size(); i != f; ++i)
3611       GenerateReassociations(LU, LUIdx, LU.Formulae[i]);
3612     for (size_t i = 0, f = LU.Formulae.size(); i != f; ++i)
3613       GenerateCombinations(LU, LUIdx, LU.Formulae[i]);
3614   }
3615   for (size_t LUIdx = 0, NumUses = Uses.size(); LUIdx != NumUses; ++LUIdx) {
3616     LSRUse &LU = Uses[LUIdx];
3617     for (size_t i = 0, f = LU.Formulae.size(); i != f; ++i)
3618       GenerateSymbolicOffsets(LU, LUIdx, LU.Formulae[i]);
3619     for (size_t i = 0, f = LU.Formulae.size(); i != f; ++i)
3620       GenerateConstantOffsets(LU, LUIdx, LU.Formulae[i]);
3621     for (size_t i = 0, f = LU.Formulae.size(); i != f; ++i)
3622       GenerateICmpZeroScales(LU, LUIdx, LU.Formulae[i]);
3623     for (size_t i = 0, f = LU.Formulae.size(); i != f; ++i)
3624       GenerateScales(LU, LUIdx, LU.Formulae[i]);
3625   }
3626   for (size_t LUIdx = 0, NumUses = Uses.size(); LUIdx != NumUses; ++LUIdx) {
3627     LSRUse &LU = Uses[LUIdx];
3628     for (size_t i = 0, f = LU.Formulae.size(); i != f; ++i)
3629       GenerateTruncates(LU, LUIdx, LU.Formulae[i]);
3630   }
3631
3632   GenerateCrossUseConstantOffsets();
3633
3634   DEBUG(dbgs() << "\n"
3635                   "After generating reuse formulae:\n";
3636         print_uses(dbgs()));
3637 }
3638
3639 /// If there are multiple formulae with the same set of registers used
3640 /// by other uses, pick the best one and delete the others.
3641 void LSRInstance::FilterOutUndesirableDedicatedRegisters() {
3642   DenseSet<const SCEV *> VisitedRegs;
3643   SmallPtrSet<const SCEV *, 16> Regs;
3644   SmallPtrSet<const SCEV *, 16> LoserRegs;
3645 #ifndef NDEBUG
3646   bool ChangedFormulae = false;
3647 #endif
3648
3649   // Collect the best formula for each unique set of shared registers. This
3650   // is reset for each use.
3651   typedef DenseMap<SmallVector<const SCEV *, 2>, size_t, UniquifierDenseMapInfo>
3652     BestFormulaeTy;
3653   BestFormulaeTy BestFormulae;
3654
3655   for (size_t LUIdx = 0, NumUses = Uses.size(); LUIdx != NumUses; ++LUIdx) {
3656     LSRUse &LU = Uses[LUIdx];
3657     DEBUG(dbgs() << "Filtering for use "; LU.print(dbgs()); dbgs() << '\n');
3658
3659     bool Any = false;
3660     for (size_t FIdx = 0, NumForms = LU.Formulae.size();
3661          FIdx != NumForms; ++FIdx) {
3662       Formula &F = LU.Formulae[FIdx];
3663
3664       // Some formulas are instant losers. For example, they may depend on
3665       // nonexistent AddRecs from other loops. These need to be filtered
3666       // immediately, otherwise heuristics could choose them over others leading
3667       // to an unsatisfactory solution. Passing LoserRegs into RateFormula here
3668       // avoids the need to recompute this information across formulae using the
3669       // same bad AddRec. Passing LoserRegs is also essential unless we remove
3670       // the corresponding bad register from the Regs set.
3671       Cost CostF;
3672       Regs.clear();
3673       CostF.RateFormula(F, Regs, VisitedRegs, L, LU.Offsets, SE, DT,
3674                         &LoserRegs);
3675       if (CostF.isLoser()) {
3676         // During initial formula generation, undesirable formulae are generated
3677         // by uses within other loops that have some non-trivial address mode or
3678         // use the postinc form of the IV. LSR needs to provide these formulae
3679         // as the basis of rediscovering the desired formula that uses an AddRec
3680         // corresponding to the existing phi. Once all formulae have been
3681         // generated, these initial losers may be pruned.
3682         DEBUG(dbgs() << "  Filtering loser "; F.print(dbgs());
3683               dbgs() << "\n");
3684       }
3685       else {
3686         SmallVector<const SCEV *, 2> Key;
3687         for (SmallVectorImpl<const SCEV *>::const_iterator J = F.BaseRegs.begin(),
3688                JE = F.BaseRegs.end(); J != JE; ++J) {
3689           const SCEV *Reg = *J;
3690           if (RegUses.isRegUsedByUsesOtherThan(Reg, LUIdx))
3691             Key.push_back(Reg);
3692         }
3693         if (F.ScaledReg &&
3694             RegUses.isRegUsedByUsesOtherThan(F.ScaledReg, LUIdx))
3695           Key.push_back(F.ScaledReg);
3696         // Unstable sort by host order ok, because this is only used for
3697         // uniquifying.
3698         std::sort(Key.begin(), Key.end());
3699
3700         std::pair<BestFormulaeTy::const_iterator, bool> P =
3701           BestFormulae.insert(std::make_pair(Key, FIdx));
3702         if (P.second)
3703           continue;
3704
3705         Formula &Best = LU.Formulae[P.first->second];
3706
3707         Cost CostBest;
3708         Regs.clear();
3709         CostBest.RateFormula(Best, Regs, VisitedRegs, L, LU.Offsets, SE, DT);
3710         if (CostF < CostBest)
3711           std::swap(F, Best);
3712         DEBUG(dbgs() << "  Filtering out formula "; F.print(dbgs());
3713               dbgs() << "\n"
3714                         "    in favor of formula "; Best.print(dbgs());
3715               dbgs() << '\n');
3716       }
3717 #ifndef NDEBUG
3718       ChangedFormulae = true;
3719 #endif
3720       LU.DeleteFormula(F);
3721       --FIdx;
3722       --NumForms;
3723       Any = true;
3724     }
3725
3726     // Now that we've filtered out some formulae, recompute the Regs set.
3727     if (Any)
3728       LU.RecomputeRegs(LUIdx, RegUses);
3729
3730     // Reset this to prepare for the next use.
3731     BestFormulae.clear();
3732   }
3733
3734   DEBUG(if (ChangedFormulae) {
3735           dbgs() << "\n"
3736                     "After filtering out undesirable candidates:\n";
3737           print_uses(dbgs());
3738         });
3739 }
3740
3741 // This is a rough guess that seems to work fairly well.
3742 static const size_t ComplexityLimit = UINT16_MAX;
3743
3744 /// EstimateSearchSpaceComplexity - Estimate the worst-case number of
3745 /// solutions the solver might have to consider. It almost never considers
3746 /// this many solutions because it prune the search space, but the pruning
3747 /// isn't always sufficient.
3748 size_t LSRInstance::EstimateSearchSpaceComplexity() const {
3749   size_t Power = 1;
3750   for (SmallVectorImpl<LSRUse>::const_iterator I = Uses.begin(),
3751        E = Uses.end(); I != E; ++I) {
3752     size_t FSize = I->Formulae.size();
3753     if (FSize >= ComplexityLimit) {
3754       Power = ComplexityLimit;
3755       break;
3756     }
3757     Power *= FSize;
3758     if (Power >= ComplexityLimit)
3759       break;
3760   }
3761   return Power;
3762 }
3763
3764 /// NarrowSearchSpaceByDetectingSupersets - When one formula uses a superset
3765 /// of the registers of another formula, it won't help reduce register
3766 /// pressure (though it may not necessarily hurt register pressure); remove
3767 /// it to simplify the system.
3768 void LSRInstance::NarrowSearchSpaceByDetectingSupersets() {
3769   if (EstimateSearchSpaceComplexity() >= ComplexityLimit) {
3770     DEBUG(dbgs() << "The search space is too complex.\n");
3771
3772     DEBUG(dbgs() << "Narrowing the search space by eliminating formulae "
3773                     "which use a superset of registers used by other "
3774                     "formulae.\n");
3775
3776     for (size_t LUIdx = 0, NumUses = Uses.size(); LUIdx != NumUses; ++LUIdx) {
3777       LSRUse &LU = Uses[LUIdx];
3778       bool Any = false;
3779       for (size_t i = 0, e = LU.Formulae.size(); i != e; ++i) {
3780         Formula &F = LU.Formulae[i];
3781         // Look for a formula with a constant or GV in a register. If the use
3782         // also has a formula with that same value in an immediate field,
3783         // delete the one that uses a register.
3784         for (SmallVectorImpl<const SCEV *>::const_iterator
3785              I = F.BaseRegs.begin(), E = F.BaseRegs.end(); I != E; ++I) {
3786           if (const SCEVConstant *C = dyn_cast<SCEVConstant>(*I)) {
3787             Formula NewF = F;
3788             NewF.AM.BaseOffs += C->getValue()->getSExtValue();
3789             NewF.BaseRegs.erase(NewF.BaseRegs.begin() +
3790                                 (I - F.BaseRegs.begin()));
3791             if (LU.HasFormulaWithSameRegs(NewF)) {
3792               DEBUG(dbgs() << "  Deleting "; F.print(dbgs()); dbgs() << '\n');
3793               LU.DeleteFormula(F);
3794               --i;
3795               --e;
3796               Any = true;
3797               break;
3798             }
3799           } else if (const SCEVUnknown *U = dyn_cast<SCEVUnknown>(*I)) {
3800             if (GlobalValue *GV = dyn_cast<GlobalValue>(U->getValue()))
3801               if (!F.AM.BaseGV) {
3802                 Formula NewF = F;
3803                 NewF.AM.BaseGV = GV;
3804                 NewF.BaseRegs.erase(NewF.BaseRegs.begin() +
3805                                     (I - F.BaseRegs.begin()));
3806                 if (LU.HasFormulaWithSameRegs(NewF)) {
3807                   DEBUG(dbgs() << "  Deleting "; F.print(dbgs());
3808                         dbgs() << '\n');
3809                   LU.DeleteFormula(F);
3810                   --i;
3811                   --e;
3812                   Any = true;
3813                   break;
3814                 }
3815               }
3816           }
3817         }
3818       }
3819       if (Any)
3820         LU.RecomputeRegs(LUIdx, RegUses);
3821     }
3822
3823     DEBUG(dbgs() << "After pre-selection:\n";
3824           print_uses(dbgs()));
3825   }
3826 }
3827
3828 /// NarrowSearchSpaceByCollapsingUnrolledCode - When there are many registers
3829 /// for expressions like A, A+1, A+2, etc., allocate a single register for
3830 /// them.
3831 void LSRInstance::NarrowSearchSpaceByCollapsingUnrolledCode() {
3832   if (EstimateSearchSpaceComplexity() >= ComplexityLimit) {
3833     DEBUG(dbgs() << "The search space is too complex.\n");
3834
3835     DEBUG(dbgs() << "Narrowing the search space by assuming that uses "
3836                     "separated by a constant offset will use the same "
3837                     "registers.\n");
3838
3839     // This is especially useful for unrolled loops.
3840
3841     for (size_t LUIdx = 0, NumUses = Uses.size(); LUIdx != NumUses; ++LUIdx) {
3842       LSRUse &LU = Uses[LUIdx];
3843       for (SmallVectorImpl<Formula>::const_iterator I = LU.Formulae.begin(),
3844            E = LU.Formulae.end(); I != E; ++I) {
3845         const Formula &F = *I;
3846         if (F.AM.BaseOffs != 0 && F.AM.Scale == 0) {
3847           if (LSRUse *LUThatHas = FindUseWithSimilarFormula(F, LU)) {
3848             if (reconcileNewOffset(*LUThatHas, F.AM.BaseOffs,
3849                                    /*HasBaseReg=*/false,
3850                                    LU.Kind, LU.AccessTy)) {
3851               DEBUG(dbgs() << "  Deleting use "; LU.print(dbgs());
3852                     dbgs() << '\n');
3853
3854               LUThatHas->AllFixupsOutsideLoop &= LU.AllFixupsOutsideLoop;
3855
3856               // Update the relocs to reference the new use.
3857               for (SmallVectorImpl<LSRFixup>::iterator I = Fixups.begin(),
3858                    E = Fixups.end(); I != E; ++I) {
3859                 LSRFixup &Fixup = *I;
3860                 if (Fixup.LUIdx == LUIdx) {
3861                   Fixup.LUIdx = LUThatHas - &Uses.front();
3862                   Fixup.Offset += F.AM.BaseOffs;
3863                   // Add the new offset to LUThatHas' offset list.
3864                   if (LUThatHas->Offsets.back() != Fixup.Offset) {
3865                     LUThatHas->Offsets.push_back(Fixup.Offset);
3866                     if (Fixup.Offset > LUThatHas->MaxOffset)
3867                       LUThatHas->MaxOffset = Fixup.Offset;
3868                     if (Fixup.Offset < LUThatHas->MinOffset)
3869                       LUThatHas->MinOffset = Fixup.Offset;
3870                   }
3871                   DEBUG(dbgs() << "New fixup has offset "
3872                                << Fixup.Offset << '\n');
3873                 }
3874                 if (Fixup.LUIdx == NumUses-1)
3875                   Fixup.LUIdx = LUIdx;
3876               }
3877
3878               // Delete formulae from the new use which are no longer legal.
3879               bool Any = false;
3880               for (size_t i = 0, e = LUThatHas->Formulae.size(); i != e; ++i) {
3881                 Formula &F = LUThatHas->Formulae[i];
3882                 if (!isLegalUse(TTI, LUThatHas->MinOffset, LUThatHas->MaxOffset,
3883                                 LUThatHas->Kind, LUThatHas->AccessTy, F)) {
3884                   DEBUG(dbgs() << "  Deleting "; F.print(dbgs());
3885                         dbgs() << '\n');
3886                   LUThatHas->DeleteFormula(F);
3887                   --i;
3888                   --e;
3889                   Any = true;
3890                 }
3891               }
3892               if (Any)
3893                 LUThatHas->RecomputeRegs(LUThatHas - &Uses.front(), RegUses);
3894
3895               // Delete the old use.
3896               DeleteUse(LU, LUIdx);
3897               --LUIdx;
3898               --NumUses;
3899               break;
3900             }
3901           }
3902         }
3903       }
3904     }
3905
3906     DEBUG(dbgs() << "After pre-selection:\n";
3907           print_uses(dbgs()));
3908   }
3909 }
3910
3911 /// NarrowSearchSpaceByRefilteringUndesirableDedicatedRegisters - Call
3912 /// FilterOutUndesirableDedicatedRegisters again, if necessary, now that
3913 /// we've done more filtering, as it may be able to find more formulae to
3914 /// eliminate.
3915 void LSRInstance::NarrowSearchSpaceByRefilteringUndesirableDedicatedRegisters(){
3916   if (EstimateSearchSpaceComplexity() >= ComplexityLimit) {
3917     DEBUG(dbgs() << "The search space is too complex.\n");
3918
3919     DEBUG(dbgs() << "Narrowing the search space by re-filtering out "
3920                     "undesirable dedicated registers.\n");
3921
3922     FilterOutUndesirableDedicatedRegisters();
3923
3924     DEBUG(dbgs() << "After pre-selection:\n";
3925           print_uses(dbgs()));
3926   }
3927 }
3928
3929 /// NarrowSearchSpaceByPickingWinnerRegs - Pick a register which seems likely
3930 /// to be profitable, and then in any use which has any reference to that
3931 /// register, delete all formulae which do not reference that register.
3932 void LSRInstance::NarrowSearchSpaceByPickingWinnerRegs() {
3933   // With all other options exhausted, loop until the system is simple
3934   // enough to handle.
3935   SmallPtrSet<const SCEV *, 4> Taken;
3936   while (EstimateSearchSpaceComplexity() >= ComplexityLimit) {
3937     // Ok, we have too many of formulae on our hands to conveniently handle.
3938     // Use a rough heuristic to thin out the list.
3939     DEBUG(dbgs() << "The search space is too complex.\n");
3940
3941     // Pick the register which is used by the most LSRUses, which is likely
3942     // to be a good reuse register candidate.
3943     const SCEV *Best = 0;
3944     unsigned BestNum = 0;
3945     for (RegUseTracker::const_iterator I = RegUses.begin(), E = RegUses.end();
3946          I != E; ++I) {
3947       const SCEV *Reg = *I;
3948       if (Taken.count(Reg))
3949         continue;
3950       if (!Best)
3951         Best = Reg;
3952       else {
3953         unsigned Count = RegUses.getUsedByIndices(Reg).count();
3954         if (Count > BestNum) {
3955           Best = Reg;
3956           BestNum = Count;
3957         }
3958       }
3959     }
3960
3961     DEBUG(dbgs() << "Narrowing the search space by assuming " << *Best
3962                  << " will yield profitable reuse.\n");
3963     Taken.insert(Best);
3964
3965     // In any use with formulae which references this register, delete formulae
3966     // which don't reference it.
3967     for (size_t LUIdx = 0, NumUses = Uses.size(); LUIdx != NumUses; ++LUIdx) {
3968       LSRUse &LU = Uses[LUIdx];
3969       if (!LU.Regs.count(Best)) continue;
3970
3971       bool Any = false;
3972       for (size_t i = 0, e = LU.Formulae.size(); i != e; ++i) {
3973         Formula &F = LU.Formulae[i];
3974         if (!F.referencesReg(Best)) {
3975           DEBUG(dbgs() << "  Deleting "; F.print(dbgs()); dbgs() << '\n');
3976           LU.DeleteFormula(F);
3977           --e;
3978           --i;
3979           Any = true;
3980           assert(e != 0 && "Use has no formulae left! Is Regs inconsistent?");
3981           continue;
3982         }
3983       }
3984
3985       if (Any)
3986         LU.RecomputeRegs(LUIdx, RegUses);
3987     }
3988
3989     DEBUG(dbgs() << "After pre-selection:\n";
3990           print_uses(dbgs()));
3991   }
3992 }
3993
3994 /// NarrowSearchSpaceUsingHeuristics - If there are an extraordinary number of
3995 /// formulae to choose from, use some rough heuristics to prune down the number
3996 /// of formulae. This keeps the main solver from taking an extraordinary amount
3997 /// of time in some worst-case scenarios.
3998 void LSRInstance::NarrowSearchSpaceUsingHeuristics() {
3999   NarrowSearchSpaceByDetectingSupersets();
4000   NarrowSearchSpaceByCollapsingUnrolledCode();
4001   NarrowSearchSpaceByRefilteringUndesirableDedicatedRegisters();
4002   NarrowSearchSpaceByPickingWinnerRegs();
4003 }
4004
4005 /// SolveRecurse - This is the recursive solver.
4006 void LSRInstance::SolveRecurse(SmallVectorImpl<const Formula *> &Solution,
4007                                Cost &SolutionCost,
4008                                SmallVectorImpl<const Formula *> &Workspace,
4009                                const Cost &CurCost,
4010                                const SmallPtrSet<const SCEV *, 16> &CurRegs,
4011                                DenseSet<const SCEV *> &VisitedRegs) const {
4012   // Some ideas:
4013   //  - prune more:
4014   //    - use more aggressive filtering
4015   //    - sort the formula so that the most profitable solutions are found first
4016   //    - sort the uses too
4017   //  - search faster:
4018   //    - don't compute a cost, and then compare. compare while computing a cost
4019   //      and bail early.
4020   //    - track register sets with SmallBitVector
4021
4022   const LSRUse &LU = Uses[Workspace.size()];
4023
4024   // If this use references any register that's already a part of the
4025   // in-progress solution, consider it a requirement that a formula must
4026   // reference that register in order to be considered. This prunes out
4027   // unprofitable searching.
4028   SmallSetVector<const SCEV *, 4> ReqRegs;
4029   for (SmallPtrSet<const SCEV *, 16>::const_iterator I = CurRegs.begin(),
4030        E = CurRegs.end(); I != E; ++I)
4031     if (LU.Regs.count(*I))
4032       ReqRegs.insert(*I);
4033
4034   SmallPtrSet<const SCEV *, 16> NewRegs;
4035   Cost NewCost;
4036   for (SmallVectorImpl<Formula>::const_iterator I = LU.Formulae.begin(),
4037        E = LU.Formulae.end(); I != E; ++I) {
4038     const Formula &F = *I;
4039
4040     // Ignore formulae which do not use any of the required registers.
4041     bool SatisfiedReqReg = true;
4042     for (SmallSetVector<const SCEV *, 4>::const_iterator J = ReqRegs.begin(),
4043          JE = ReqRegs.end(); J != JE; ++J) {
4044       const SCEV *Reg = *J;
4045       if ((!F.ScaledReg || F.ScaledReg != Reg) &&
4046           std::find(F.BaseRegs.begin(), F.BaseRegs.end(), Reg) ==
4047           F.BaseRegs.end()) {
4048         SatisfiedReqReg = false;
4049         break;
4050       }
4051     }
4052     if (!SatisfiedReqReg) {
4053       // If none of the formulae satisfied the required registers, then we could
4054       // clear ReqRegs and try again. Currently, we simply give up in this case.
4055       continue;
4056     }
4057
4058     // Evaluate the cost of the current formula. If it's already worse than
4059     // the current best, prune the search at that point.
4060     NewCost = CurCost;
4061     NewRegs = CurRegs;
4062     NewCost.RateFormula(F, NewRegs, VisitedRegs, L, LU.Offsets, SE, DT);
4063     if (NewCost < SolutionCost) {
4064       Workspace.push_back(&F);
4065       if (Workspace.size() != Uses.size()) {
4066         SolveRecurse(Solution, SolutionCost, Workspace, NewCost,
4067                      NewRegs, VisitedRegs);
4068         if (F.getNumRegs() == 1 && Workspace.size() == 1)
4069           VisitedRegs.insert(F.ScaledReg ? F.ScaledReg : F.BaseRegs[0]);
4070       } else {
4071         DEBUG(dbgs() << "New best at "; NewCost.print(dbgs());
4072               dbgs() << ".\n Regs:";
4073               for (SmallPtrSet<const SCEV *, 16>::const_iterator
4074                    I = NewRegs.begin(), E = NewRegs.end(); I != E; ++I)
4075                 dbgs() << ' ' << **I;
4076               dbgs() << '\n');
4077
4078         SolutionCost = NewCost;
4079         Solution = Workspace;
4080       }
4081       Workspace.pop_back();
4082     }
4083   }
4084 }
4085
4086 /// Solve - Choose one formula from each use. Return the results in the given
4087 /// Solution vector.
4088 void LSRInstance::Solve(SmallVectorImpl<const Formula *> &Solution) const {
4089   SmallVector<const Formula *, 8> Workspace;
4090   Cost SolutionCost;
4091   SolutionCost.Loose();
4092   Cost CurCost;
4093   SmallPtrSet<const SCEV *, 16> CurRegs;
4094   DenseSet<const SCEV *> VisitedRegs;
4095   Workspace.reserve(Uses.size());
4096
4097   // SolveRecurse does all the work.
4098   SolveRecurse(Solution, SolutionCost, Workspace, CurCost,
4099                CurRegs, VisitedRegs);
4100   if (Solution.empty()) {
4101     DEBUG(dbgs() << "\nNo Satisfactory Solution\n");
4102     return;
4103   }
4104
4105   // Ok, we've now made all our decisions.
4106   DEBUG(dbgs() << "\n"
4107                   "The chosen solution requires "; SolutionCost.print(dbgs());
4108         dbgs() << ":\n";
4109         for (size_t i = 0, e = Uses.size(); i != e; ++i) {
4110           dbgs() << "  ";
4111           Uses[i].print(dbgs());
4112           dbgs() << "\n"
4113                     "    ";
4114           Solution[i]->print(dbgs());
4115           dbgs() << '\n';
4116         });
4117
4118   assert(Solution.size() == Uses.size() && "Malformed solution!");
4119 }
4120
4121 /// HoistInsertPosition - Helper for AdjustInsertPositionForExpand. Climb up
4122 /// the dominator tree far as we can go while still being dominated by the
4123 /// input positions. This helps canonicalize the insert position, which
4124 /// encourages sharing.
4125 BasicBlock::iterator
4126 LSRInstance::HoistInsertPosition(BasicBlock::iterator IP,
4127                                  const SmallVectorImpl<Instruction *> &Inputs)
4128                                                                          const {
4129   for (;;) {
4130     const Loop *IPLoop = LI.getLoopFor(IP->getParent());
4131     unsigned IPLoopDepth = IPLoop ? IPLoop->getLoopDepth() : 0;
4132
4133     BasicBlock *IDom;
4134     for (DomTreeNode *Rung = DT.getNode(IP->getParent()); ; ) {
4135       if (!Rung) return IP;
4136       Rung = Rung->getIDom();
4137       if (!Rung) return IP;
4138       IDom = Rung->getBlock();
4139
4140       // Don't climb into a loop though.
4141       const Loop *IDomLoop = LI.getLoopFor(IDom);
4142       unsigned IDomDepth = IDomLoop ? IDomLoop->getLoopDepth() : 0;
4143       if (IDomDepth <= IPLoopDepth &&
4144           (IDomDepth != IPLoopDepth || IDomLoop == IPLoop))
4145         break;
4146     }
4147
4148     bool AllDominate = true;
4149     Instruction *BetterPos = 0;
4150     Instruction *Tentative = IDom->getTerminator();
4151     for (SmallVectorImpl<Instruction *>::const_iterator I = Inputs.begin(),
4152          E = Inputs.end(); I != E; ++I) {
4153       Instruction *Inst = *I;
4154       if (Inst == Tentative || !DT.dominates(Inst, Tentative)) {
4155         AllDominate = false;
4156         break;
4157       }
4158       // Attempt to find an insert position in the middle of the block,
4159       // instead of at the end, so that it can be used for other expansions.
4160       if (IDom == Inst->getParent() &&
4161           (!BetterPos || !DT.dominates(Inst, BetterPos)))
4162         BetterPos = llvm::next(BasicBlock::iterator(Inst));
4163     }
4164     if (!AllDominate)
4165       break;
4166     if (BetterPos)
4167       IP = BetterPos;
4168     else
4169       IP = Tentative;
4170   }
4171
4172   return IP;
4173 }
4174
4175 /// AdjustInsertPositionForExpand - Determine an input position which will be
4176 /// dominated by the operands and which will dominate the result.
4177 BasicBlock::iterator
4178 LSRInstance::AdjustInsertPositionForExpand(BasicBlock::iterator LowestIP,
4179                                            const LSRFixup &LF,
4180                                            const LSRUse &LU,
4181                                            SCEVExpander &Rewriter) const {
4182   // Collect some instructions which must be dominated by the
4183   // expanding replacement. These must be dominated by any operands that
4184   // will be required in the expansion.
4185   SmallVector<Instruction *, 4> Inputs;
4186   if (Instruction *I = dyn_cast<Instruction>(LF.OperandValToReplace))
4187     Inputs.push_back(I);
4188   if (LU.Kind == LSRUse::ICmpZero)
4189     if (Instruction *I =
4190           dyn_cast<Instruction>(cast<ICmpInst>(LF.UserInst)->getOperand(1)))
4191       Inputs.push_back(I);
4192   if (LF.PostIncLoops.count(L)) {
4193     if (LF.isUseFullyOutsideLoop(L))
4194       Inputs.push_back(L->getLoopLatch()->getTerminator());
4195     else
4196       Inputs.push_back(IVIncInsertPos);
4197   }
4198   // The expansion must also be dominated by the increment positions of any
4199   // loops it for which it is using post-inc mode.
4200   for (PostIncLoopSet::const_iterator I = LF.PostIncLoops.begin(),
4201        E = LF.PostIncLoops.end(); I != E; ++I) {
4202     const Loop *PIL = *I;
4203     if (PIL == L) continue;
4204
4205     // Be dominated by the loop exit.
4206     SmallVector<BasicBlock *, 4> ExitingBlocks;
4207     PIL->getExitingBlocks(ExitingBlocks);
4208     if (!ExitingBlocks.empty()) {
4209       BasicBlock *BB = ExitingBlocks[0];
4210       for (unsigned i = 1, e = ExitingBlocks.size(); i != e; ++i)
4211         BB = DT.findNearestCommonDominator(BB, ExitingBlocks[i]);
4212       Inputs.push_back(BB->getTerminator());
4213     }
4214   }
4215
4216   assert(!isa<PHINode>(LowestIP) && !isa<LandingPadInst>(LowestIP)
4217          && !isa<DbgInfoIntrinsic>(LowestIP) &&
4218          "Insertion point must be a normal instruction");
4219
4220   // Then, climb up the immediate dominator tree as far as we can go while
4221   // still being dominated by the input positions.
4222   BasicBlock::iterator IP = HoistInsertPosition(LowestIP, Inputs);
4223
4224   // Don't insert instructions before PHI nodes.
4225   while (isa<PHINode>(IP)) ++IP;
4226
4227   // Ignore landingpad instructions.
4228   while (isa<LandingPadInst>(IP)) ++IP;
4229
4230   // Ignore debug intrinsics.
4231   while (isa<DbgInfoIntrinsic>(IP)) ++IP;
4232
4233   // Set IP below instructions recently inserted by SCEVExpander. This keeps the
4234   // IP consistent across expansions and allows the previously inserted
4235   // instructions to be reused by subsequent expansion.
4236   while (Rewriter.isInsertedInstruction(IP) && IP != LowestIP) ++IP;
4237
4238   return IP;
4239 }
4240
4241 /// Expand - Emit instructions for the leading candidate expression for this
4242 /// LSRUse (this is called "expanding").
4243 Value *LSRInstance::Expand(const LSRFixup &LF,
4244                            const Formula &F,
4245                            BasicBlock::iterator IP,
4246                            SCEVExpander &Rewriter,
4247                            SmallVectorImpl<WeakVH> &DeadInsts) const {
4248   const LSRUse &LU = Uses[LF.LUIdx];
4249
4250   // Determine an input position which will be dominated by the operands and
4251   // which will dominate the result.
4252   IP = AdjustInsertPositionForExpand(IP, LF, LU, Rewriter);
4253
4254   // Inform the Rewriter if we have a post-increment use, so that it can
4255   // perform an advantageous expansion.
4256   Rewriter.setPostInc(LF.PostIncLoops);
4257
4258   // This is the type that the user actually needs.
4259   Type *OpTy = LF.OperandValToReplace->getType();
4260   // This will be the type that we'll initially expand to.
4261   Type *Ty = F.getType();
4262   if (!Ty)
4263     // No type known; just expand directly to the ultimate type.
4264     Ty = OpTy;
4265   else if (SE.getEffectiveSCEVType(Ty) == SE.getEffectiveSCEVType(OpTy))
4266     // Expand directly to the ultimate type if it's the right size.
4267     Ty = OpTy;
4268   // This is the type to do integer arithmetic in.
4269   Type *IntTy = SE.getEffectiveSCEVType(Ty);
4270
4271   // Build up a list of operands to add together to form the full base.
4272   SmallVector<const SCEV *, 8> Ops;
4273
4274   // Expand the BaseRegs portion.
4275   for (SmallVectorImpl<const SCEV *>::const_iterator I = F.BaseRegs.begin(),
4276        E = F.BaseRegs.end(); I != E; ++I) {
4277     const SCEV *Reg = *I;
4278     assert(!Reg->isZero() && "Zero allocated in a base register!");
4279
4280     // If we're expanding for a post-inc user, make the post-inc adjustment.
4281     PostIncLoopSet &Loops = const_cast<PostIncLoopSet &>(LF.PostIncLoops);
4282     Reg = TransformForPostIncUse(Denormalize, Reg,
4283                                  LF.UserInst, LF.OperandValToReplace,
4284                                  Loops, SE, DT);
4285
4286     Ops.push_back(SE.getUnknown(Rewriter.expandCodeFor(Reg, 0, IP)));
4287   }
4288
4289   // Expand the ScaledReg portion.
4290   Value *ICmpScaledV = 0;
4291   if (F.AM.Scale != 0) {
4292     const SCEV *ScaledS = F.ScaledReg;
4293
4294     // If we're expanding for a post-inc user, make the post-inc adjustment.
4295     PostIncLoopSet &Loops = const_cast<PostIncLoopSet &>(LF.PostIncLoops);
4296     ScaledS = TransformForPostIncUse(Denormalize, ScaledS,
4297                                      LF.UserInst, LF.OperandValToReplace,
4298                                      Loops, SE, DT);
4299
4300     if (LU.Kind == LSRUse::ICmpZero) {
4301       // An interesting way of "folding" with an icmp is to use a negated
4302       // scale, which we'll implement by inserting it into the other operand
4303       // of the icmp.
4304       assert(F.AM.Scale == -1 &&
4305              "The only scale supported by ICmpZero uses is -1!");
4306       ICmpScaledV = Rewriter.expandCodeFor(ScaledS, 0, IP);
4307     } else {
4308       // Otherwise just expand the scaled register and an explicit scale,
4309       // which is expected to be matched as part of the address.
4310
4311       // Flush the operand list to suppress SCEVExpander hoisting address modes.
4312       if (!Ops.empty() && LU.Kind == LSRUse::Address) {
4313         Value *FullV = Rewriter.expandCodeFor(SE.getAddExpr(Ops), Ty, IP);
4314         Ops.clear();
4315         Ops.push_back(SE.getUnknown(FullV));
4316       }
4317       ScaledS = SE.getUnknown(Rewriter.expandCodeFor(ScaledS, 0, IP));
4318       ScaledS = SE.getMulExpr(ScaledS,
4319                               SE.getConstant(ScaledS->getType(), F.AM.Scale));
4320       Ops.push_back(ScaledS);
4321     }
4322   }
4323
4324   // Expand the GV portion.
4325   if (F.AM.BaseGV) {
4326     // Flush the operand list to suppress SCEVExpander hoisting.
4327     if (!Ops.empty()) {
4328       Value *FullV = Rewriter.expandCodeFor(SE.getAddExpr(Ops), Ty, IP);
4329       Ops.clear();
4330       Ops.push_back(SE.getUnknown(FullV));
4331     }
4332     Ops.push_back(SE.getUnknown(F.AM.BaseGV));
4333   }
4334
4335   // Flush the operand list to suppress SCEVExpander hoisting of both folded and
4336   // unfolded offsets. LSR assumes they both live next to their uses.
4337   if (!Ops.empty()) {
4338     Value *FullV = Rewriter.expandCodeFor(SE.getAddExpr(Ops), Ty, IP);
4339     Ops.clear();
4340     Ops.push_back(SE.getUnknown(FullV));
4341   }
4342
4343   // Expand the immediate portion.
4344   int64_t Offset = (uint64_t)F.AM.BaseOffs + LF.Offset;
4345   if (Offset != 0) {
4346     if (LU.Kind == LSRUse::ICmpZero) {
4347       // The other interesting way of "folding" with an ICmpZero is to use a
4348       // negated immediate.
4349       if (!ICmpScaledV)
4350         ICmpScaledV = ConstantInt::get(IntTy, -(uint64_t)Offset);
4351       else {
4352         Ops.push_back(SE.getUnknown(ICmpScaledV));
4353         ICmpScaledV = ConstantInt::get(IntTy, Offset);
4354       }
4355     } else {
4356       // Just add the immediate values. These again are expected to be matched
4357       // as part of the address.
4358       Ops.push_back(SE.getUnknown(ConstantInt::getSigned(IntTy, Offset)));
4359     }
4360   }
4361
4362   // Expand the unfolded offset portion.
4363   int64_t UnfoldedOffset = F.UnfoldedOffset;
4364   if (UnfoldedOffset != 0) {
4365     // Just add the immediate values.
4366     Ops.push_back(SE.getUnknown(ConstantInt::getSigned(IntTy,
4367                                                        UnfoldedOffset)));
4368   }
4369
4370   // Emit instructions summing all the operands.
4371   const SCEV *FullS = Ops.empty() ?
4372                       SE.getConstant(IntTy, 0) :
4373                       SE.getAddExpr(Ops);
4374   Value *FullV = Rewriter.expandCodeFor(FullS, Ty, IP);
4375
4376   // We're done expanding now, so reset the rewriter.
4377   Rewriter.clearPostInc();
4378
4379   // An ICmpZero Formula represents an ICmp which we're handling as a
4380   // comparison against zero. Now that we've expanded an expression for that
4381   // form, update the ICmp's other operand.
4382   if (LU.Kind == LSRUse::ICmpZero) {
4383     ICmpInst *CI = cast<ICmpInst>(LF.UserInst);
4384     DeadInsts.push_back(CI->getOperand(1));
4385     assert(!F.AM.BaseGV && "ICmp does not support folding a global value and "
4386                            "a scale at the same time!");
4387     if (F.AM.Scale == -1) {
4388       if (ICmpScaledV->getType() != OpTy) {
4389         Instruction *Cast =
4390           CastInst::Create(CastInst::getCastOpcode(ICmpScaledV, false,
4391                                                    OpTy, false),
4392                            ICmpScaledV, OpTy, "tmp", CI);
4393         ICmpScaledV = Cast;
4394       }
4395       CI->setOperand(1, ICmpScaledV);
4396     } else {
4397       assert(F.AM.Scale == 0 &&
4398              "ICmp does not support folding a global value and "
4399              "a scale at the same time!");
4400       Constant *C = ConstantInt::getSigned(SE.getEffectiveSCEVType(OpTy),
4401                                            -(uint64_t)Offset);
4402       if (C->getType() != OpTy)
4403         C = ConstantExpr::getCast(CastInst::getCastOpcode(C, false,
4404                                                           OpTy, false),
4405                                   C, OpTy);
4406
4407       CI->setOperand(1, C);
4408     }
4409   }
4410
4411   return FullV;
4412 }
4413
4414 /// RewriteForPHI - Helper for Rewrite. PHI nodes are special because the use
4415 /// of their operands effectively happens in their predecessor blocks, so the
4416 /// expression may need to be expanded in multiple places.
4417 void LSRInstance::RewriteForPHI(PHINode *PN,
4418                                 const LSRFixup &LF,
4419                                 const Formula &F,
4420                                 SCEVExpander &Rewriter,
4421                                 SmallVectorImpl<WeakVH> &DeadInsts,
4422                                 Pass *P) const {
4423   DenseMap<BasicBlock *, Value *> Inserted;
4424   for (unsigned i = 0, e = PN->getNumIncomingValues(); i != e; ++i)
4425     if (PN->getIncomingValue(i) == LF.OperandValToReplace) {
4426       BasicBlock *BB = PN->getIncomingBlock(i);
4427
4428       // If this is a critical edge, split the edge so that we do not insert
4429       // the code on all predecessor/successor paths.  We do this unless this
4430       // is the canonical backedge for this loop, which complicates post-inc
4431       // users.
4432       if (e != 1 && BB->getTerminator()->getNumSuccessors() > 1 &&
4433           !isa<IndirectBrInst>(BB->getTerminator())) {
4434         BasicBlock *Parent = PN->getParent();
4435         Loop *PNLoop = LI.getLoopFor(Parent);
4436         if (!PNLoop || Parent != PNLoop->getHeader()) {
4437           // Split the critical edge.
4438           BasicBlock *NewBB = 0;
4439           if (!Parent->isLandingPad()) {
4440             NewBB = SplitCriticalEdge(BB, Parent, P,
4441                                       /*MergeIdenticalEdges=*/true,
4442                                       /*DontDeleteUselessPhis=*/true);
4443           } else {
4444             SmallVector<BasicBlock*, 2> NewBBs;
4445             SplitLandingPadPredecessors(Parent, BB, "", "", P, NewBBs);
4446             NewBB = NewBBs[0];
4447           }
4448           // If NewBB==NULL, then SplitCriticalEdge refused to split because all
4449           // phi predecessors are identical. The simple thing to do is skip
4450           // splitting in this case rather than complicate the API.
4451           if (NewBB) {
4452             // If PN is outside of the loop and BB is in the loop, we want to
4453             // move the block to be immediately before the PHI block, not
4454             // immediately after BB.
4455             if (L->contains(BB) && !L->contains(PN))
4456               NewBB->moveBefore(PN->getParent());
4457
4458             // Splitting the edge can reduce the number of PHI entries we have.
4459             e = PN->getNumIncomingValues();
4460             BB = NewBB;
4461             i = PN->getBasicBlockIndex(BB);
4462           }
4463         }
4464       }
4465
4466       std::pair<DenseMap<BasicBlock *, Value *>::iterator, bool> Pair =
4467         Inserted.insert(std::make_pair(BB, static_cast<Value *>(0)));
4468       if (!Pair.second)
4469         PN->setIncomingValue(i, Pair.first->second);
4470       else {
4471         Value *FullV = Expand(LF, F, BB->getTerminator(), Rewriter, DeadInsts);
4472
4473         // If this is reuse-by-noop-cast, insert the noop cast.
4474         Type *OpTy = LF.OperandValToReplace->getType();
4475         if (FullV->getType() != OpTy)
4476           FullV =
4477             CastInst::Create(CastInst::getCastOpcode(FullV, false,
4478                                                      OpTy, false),
4479                              FullV, LF.OperandValToReplace->getType(),
4480                              "tmp", BB->getTerminator());
4481
4482         PN->setIncomingValue(i, FullV);
4483         Pair.first->second = FullV;
4484       }
4485     }
4486 }
4487
4488 /// Rewrite - Emit instructions for the leading candidate expression for this
4489 /// LSRUse (this is called "expanding"), and update the UserInst to reference
4490 /// the newly expanded value.
4491 void LSRInstance::Rewrite(const LSRFixup &LF,
4492                           const Formula &F,
4493                           SCEVExpander &Rewriter,
4494                           SmallVectorImpl<WeakVH> &DeadInsts,
4495                           Pass *P) const {
4496   // First, find an insertion point that dominates UserInst. For PHI nodes,
4497   // find the nearest block which dominates all the relevant uses.
4498   if (PHINode *PN = dyn_cast<PHINode>(LF.UserInst)) {
4499     RewriteForPHI(PN, LF, F, Rewriter, DeadInsts, P);
4500   } else {
4501     Value *FullV = Expand(LF, F, LF.UserInst, Rewriter, DeadInsts);
4502
4503     // If this is reuse-by-noop-cast, insert the noop cast.
4504     Type *OpTy = LF.OperandValToReplace->getType();
4505     if (FullV->getType() != OpTy) {
4506       Instruction *Cast =
4507         CastInst::Create(CastInst::getCastOpcode(FullV, false, OpTy, false),
4508                          FullV, OpTy, "tmp", LF.UserInst);
4509       FullV = Cast;
4510     }
4511
4512     // Update the user. ICmpZero is handled specially here (for now) because
4513     // Expand may have updated one of the operands of the icmp already, and
4514     // its new value may happen to be equal to LF.OperandValToReplace, in
4515     // which case doing replaceUsesOfWith leads to replacing both operands
4516     // with the same value. TODO: Reorganize this.
4517     if (Uses[LF.LUIdx].Kind == LSRUse::ICmpZero)
4518       LF.UserInst->setOperand(0, FullV);
4519     else
4520       LF.UserInst->replaceUsesOfWith(LF.OperandValToReplace, FullV);
4521   }
4522
4523   DeadInsts.push_back(LF.OperandValToReplace);
4524 }
4525
4526 /// ImplementSolution - Rewrite all the fixup locations with new values,
4527 /// following the chosen solution.
4528 void
4529 LSRInstance::ImplementSolution(const SmallVectorImpl<const Formula *> &Solution,
4530                                Pass *P) {
4531   // Keep track of instructions we may have made dead, so that
4532   // we can remove them after we are done working.
4533   SmallVector<WeakVH, 16> DeadInsts;
4534
4535   SCEVExpander Rewriter(SE, "lsr");
4536 #ifndef NDEBUG
4537   Rewriter.setDebugType(DEBUG_TYPE);
4538 #endif
4539   Rewriter.disableCanonicalMode();
4540   Rewriter.enableLSRMode();
4541   Rewriter.setIVIncInsertPos(L, IVIncInsertPos);
4542
4543   // Mark phi nodes that terminate chains so the expander tries to reuse them.
4544   for (SmallVectorImpl<IVChain>::const_iterator ChainI = IVChainVec.begin(),
4545          ChainE = IVChainVec.end(); ChainI != ChainE; ++ChainI) {
4546     if (PHINode *PN = dyn_cast<PHINode>(ChainI->tailUserInst()))
4547       Rewriter.setChainedPhi(PN);
4548   }
4549
4550   // Expand the new value definitions and update the users.
4551   for (SmallVectorImpl<LSRFixup>::const_iterator I = Fixups.begin(),
4552        E = Fixups.end(); I != E; ++I) {
4553     const LSRFixup &Fixup = *I;
4554
4555     Rewrite(Fixup, *Solution[Fixup.LUIdx], Rewriter, DeadInsts, P);
4556
4557     Changed = true;
4558   }
4559
4560   for (SmallVectorImpl<IVChain>::const_iterator ChainI = IVChainVec.begin(),
4561          ChainE = IVChainVec.end(); ChainI != ChainE; ++ChainI) {
4562     GenerateIVChain(*ChainI, Rewriter, DeadInsts);
4563     Changed = true;
4564   }
4565   // Clean up after ourselves. This must be done before deleting any
4566   // instructions.
4567   Rewriter.clear();
4568
4569   Changed |= DeleteTriviallyDeadInstructions(DeadInsts);
4570 }
4571
4572 LSRInstance::LSRInstance(Loop *L, Pass *P)
4573     : IU(P->getAnalysis<IVUsers>()), SE(P->getAnalysis<ScalarEvolution>()),
4574       DT(P->getAnalysis<DominatorTree>()), LI(P->getAnalysis<LoopInfo>()),
4575       TTI(P->getAnalysis<TargetTransformInfo>()), L(L), Changed(false),
4576       IVIncInsertPos(0) {
4577   // If LoopSimplify form is not available, stay out of trouble.
4578   if (!L->isLoopSimplifyForm())
4579     return;
4580
4581   // If there's no interesting work to be done, bail early.
4582   if (IU.empty()) return;
4583
4584   // If there's too much analysis to be done, bail early. We won't be able to
4585   // model the problem anyway.
4586   unsigned NumUsers = 0;
4587   for (IVUsers::const_iterator UI = IU.begin(), E = IU.end(); UI != E; ++UI) {
4588     if (++NumUsers > MaxIVUsers) {
4589       DEBUG(dbgs() << "LSR skipping loop, too many IV Users in " << *L
4590             << "\n");
4591       return;
4592     }
4593   }
4594
4595 #ifndef NDEBUG
4596   // All dominating loops must have preheaders, or SCEVExpander may not be able
4597   // to materialize an AddRecExpr whose Start is an outer AddRecExpr.
4598   //
4599   // IVUsers analysis should only create users that are dominated by simple loop
4600   // headers. Since this loop should dominate all of its users, its user list
4601   // should be empty if this loop itself is not within a simple loop nest.
4602   for (DomTreeNode *Rung = DT.getNode(L->getLoopPreheader());
4603        Rung; Rung = Rung->getIDom()) {
4604     BasicBlock *BB = Rung->getBlock();
4605     const Loop *DomLoop = LI.getLoopFor(BB);
4606     if (DomLoop && DomLoop->getHeader() == BB) {
4607       assert(DomLoop->getLoopPreheader() && "LSR needs a simplified loop nest");
4608     }
4609   }
4610 #endif // DEBUG
4611
4612   DEBUG(dbgs() << "\nLSR on loop ";
4613         WriteAsOperand(dbgs(), L->getHeader(), /*PrintType=*/false);
4614         dbgs() << ":\n");
4615
4616   // First, perform some low-level loop optimizations.
4617   OptimizeShadowIV();
4618   OptimizeLoopTermCond();
4619
4620   // If loop preparation eliminates all interesting IV users, bail.
4621   if (IU.empty()) return;
4622
4623   // Skip nested loops until we can model them better with formulae.
4624   if (!L->empty()) {
4625     DEBUG(dbgs() << "LSR skipping outer loop " << *L << "\n");
4626     return;
4627   }
4628
4629   // Start collecting data and preparing for the solver.
4630   CollectChains();
4631   CollectInterestingTypesAndFactors();
4632   CollectFixupsAndInitialFormulae();
4633   CollectLoopInvariantFixupsAndFormulae();
4634
4635   assert(!Uses.empty() && "IVUsers reported at least one use");
4636   DEBUG(dbgs() << "LSR found " << Uses.size() << " uses:\n";
4637         print_uses(dbgs()));
4638
4639   // Now use the reuse data to generate a bunch of interesting ways
4640   // to formulate the values needed for the uses.
4641   GenerateAllReuseFormulae();
4642
4643   FilterOutUndesirableDedicatedRegisters();
4644   NarrowSearchSpaceUsingHeuristics();
4645
4646   SmallVector<const Formula *, 8> Solution;
4647   Solve(Solution);
4648
4649   // Release memory that is no longer needed.
4650   Factors.clear();
4651   Types.clear();
4652   RegUses.clear();
4653
4654   if (Solution.empty())
4655     return;
4656
4657 #ifndef NDEBUG
4658   // Formulae should be legal.
4659   for (SmallVectorImpl<LSRUse>::const_iterator I = Uses.begin(), E = Uses.end();
4660        I != E; ++I) {
4661     const LSRUse &LU = *I;
4662     for (SmallVectorImpl<Formula>::const_iterator J = LU.Formulae.begin(),
4663                                                   JE = LU.Formulae.end();
4664          J != JE; ++J)
4665       assert(isLegalUse(TTI, LU.MinOffset, LU.MaxOffset, LU.Kind, LU.AccessTy,
4666                         *J) && "Illegal formula generated!");
4667   };
4668 #endif
4669
4670   // Now that we've decided what we want, make it so.
4671   ImplementSolution(Solution, P);
4672 }
4673
4674 void LSRInstance::print_factors_and_types(raw_ostream &OS) const {
4675   if (Factors.empty() && Types.empty()) return;
4676
4677   OS << "LSR has identified the following interesting factors and types: ";
4678   bool First = true;
4679
4680   for (SmallSetVector<int64_t, 8>::const_iterator
4681        I = Factors.begin(), E = Factors.end(); I != E; ++I) {
4682     if (!First) OS << ", ";
4683     First = false;
4684     OS << '*' << *I;
4685   }
4686
4687   for (SmallSetVector<Type *, 4>::const_iterator
4688        I = Types.begin(), E = Types.end(); I != E; ++I) {
4689     if (!First) OS << ", ";
4690     First = false;
4691     OS << '(' << **I << ')';
4692   }
4693   OS << '\n';
4694 }
4695
4696 void LSRInstance::print_fixups(raw_ostream &OS) const {
4697   OS << "LSR is examining the following fixup sites:\n";
4698   for (SmallVectorImpl<LSRFixup>::const_iterator I = Fixups.begin(),
4699        E = Fixups.end(); I != E; ++I) {
4700     dbgs() << "  ";
4701     I->print(OS);
4702     OS << '\n';
4703   }
4704 }
4705
4706 void LSRInstance::print_uses(raw_ostream &OS) const {
4707   OS << "LSR is examining the following uses:\n";
4708   for (SmallVectorImpl<LSRUse>::const_iterator I = Uses.begin(),
4709        E = Uses.end(); I != E; ++I) {
4710     const LSRUse &LU = *I;
4711     dbgs() << "  ";
4712     LU.print(OS);
4713     OS << '\n';
4714     for (SmallVectorImpl<Formula>::const_iterator J = LU.Formulae.begin(),
4715          JE = LU.Formulae.end(); J != JE; ++J) {
4716       OS << "    ";
4717       J->print(OS);
4718       OS << '\n';
4719     }
4720   }
4721 }
4722
4723 void LSRInstance::print(raw_ostream &OS) const {
4724   print_factors_and_types(OS);
4725   print_fixups(OS);
4726   print_uses(OS);
4727 }
4728
4729 #if !defined(NDEBUG) || defined(LLVM_ENABLE_DUMP)
4730 void LSRInstance::dump() const {
4731   print(errs()); errs() << '\n';
4732 }
4733 #endif
4734
4735 namespace {
4736
4737 class LoopStrengthReduce : public LoopPass {
4738 public:
4739   static char ID; // Pass ID, replacement for typeid
4740   LoopStrengthReduce();
4741
4742 private:
4743   bool runOnLoop(Loop *L, LPPassManager &LPM);
4744   void getAnalysisUsage(AnalysisUsage &AU) const;
4745 };
4746
4747 }
4748
4749 char LoopStrengthReduce::ID = 0;
4750 INITIALIZE_PASS_BEGIN(LoopStrengthReduce, "loop-reduce",
4751                 "Loop Strength Reduction", false, false)
4752 INITIALIZE_AG_DEPENDENCY(TargetTransformInfo)
4753 INITIALIZE_PASS_DEPENDENCY(DominatorTree)
4754 INITIALIZE_PASS_DEPENDENCY(ScalarEvolution)
4755 INITIALIZE_PASS_DEPENDENCY(IVUsers)
4756 INITIALIZE_PASS_DEPENDENCY(LoopInfo)
4757 INITIALIZE_PASS_DEPENDENCY(LoopSimplify)
4758 INITIALIZE_PASS_END(LoopStrengthReduce, "loop-reduce",
4759                 "Loop Strength Reduction", false, false)
4760
4761
4762 Pass *llvm::createLoopStrengthReducePass() {
4763   return new LoopStrengthReduce();
4764 }
4765
4766 LoopStrengthReduce::LoopStrengthReduce() : LoopPass(ID) {
4767   initializeLoopStrengthReducePass(*PassRegistry::getPassRegistry());
4768 }
4769
4770 void LoopStrengthReduce::getAnalysisUsage(AnalysisUsage &AU) const {
4771   // We split critical edges, so we change the CFG.  However, we do update
4772   // many analyses if they are around.
4773   AU.addPreservedID(LoopSimplifyID);
4774
4775   AU.addRequired<LoopInfo>();
4776   AU.addPreserved<LoopInfo>();
4777   AU.addRequiredID(LoopSimplifyID);
4778   AU.addRequired<DominatorTree>();
4779   AU.addPreserved<DominatorTree>();
4780   AU.addRequired<ScalarEvolution>();
4781   AU.addPreserved<ScalarEvolution>();
4782   // Requiring LoopSimplify a second time here prevents IVUsers from running
4783   // twice, since LoopSimplify was invalidated by running ScalarEvolution.
4784   AU.addRequiredID(LoopSimplifyID);
4785   AU.addRequired<IVUsers>();
4786   AU.addPreserved<IVUsers>();
4787   AU.addRequired<TargetTransformInfo>();
4788 }
4789
4790 bool LoopStrengthReduce::runOnLoop(Loop *L, LPPassManager & /*LPM*/) {
4791   bool Changed = false;
4792
4793   // Run the main LSR transformation.
4794   Changed |= LSRInstance(L, this).getChanged();
4795
4796   // Remove any extra phis created by processing inner loops.
4797   Changed |= DeleteDeadPHIs(L->getHeader());
4798   if (EnablePhiElim && L->isLoopSimplifyForm()) {
4799     SmallVector<WeakVH, 16> DeadInsts;
4800     SCEVExpander Rewriter(getAnalysis<ScalarEvolution>(), "lsr");
4801 #ifndef NDEBUG
4802     Rewriter.setDebugType(DEBUG_TYPE);
4803 #endif
4804     unsigned numFolded =
4805         Rewriter.replaceCongruentIVs(L, &getAnalysis<DominatorTree>(),
4806                                      DeadInsts,
4807                                      &getAnalysis<TargetTransformInfo>());
4808     if (numFolded) {
4809       Changed = true;
4810       DeleteTriviallyDeadInstructions(DeadInsts);
4811       DeleteDeadPHIs(L->getHeader());
4812     }
4813   }
4814   return Changed;
4815 }