Implement X86TTI::getUnrollingPreferences
authorHal Finkel <hfinkel@anl.gov>
Tue, 1 Apr 2014 18:50:34 +0000 (18:50 +0000)
committerHal Finkel <hfinkel@anl.gov>
Tue, 1 Apr 2014 18:50:34 +0000 (18:50 +0000)
commite30aa957e33a8e75a79a5ffb5faa1e1397731273
treeff0b70af194f1aef77c0f7b259f4f8a6618b5157
parent0d5c0629bbd49977ed53a093fd96ed3fd2c234f5
Implement X86TTI::getUnrollingPreferences

This provides an initial implementation of getUnrollingPreferences for x86.
getUnrollingPreferences is used by the generic (concatenation) unroller, which
is distinct from the unrolling done by the loop vectorizer. Many modern x86
cores have some kind of uop cache and loop-stream detector (LSD) used to
efficiently dispatch small loops, and taking full advantage of this requires
unrolling small loops (small here means 10s of uops).

These caches also have limits on the number of taken branches in the loop, and
so we also cap the loop unrolling factor based on the maximum "depth" of the
loop. This is currently calculated with a partial DFS traversal (partial
because it will stop early if the path length grows too much). This is still an
approximation, and one that is both conservative (because it does not account
for branches eliminated via block placement) and optimistic (because it is only
recording the maximum depth over minimum paths). Nevertheless, because the
loops that fit in these uop caches are so small, it is not clear how much the
details matter.

The original set of patches posted for review produced the following test-suite
performance results (from the TSVC benchmark) at that time:
  ControlLoops-dbl - 13% speedup
  ControlLoops-flt - 15% speedup
  Reductions-dbl - 7.5% speedup

git-svn-id: https://llvm.org/svn/llvm-project/llvm/trunk@205348 91177308-0d34-0410-b5e6-96231b3b80d8
lib/Target/X86/X86TargetTransformInfo.cpp
test/Transforms/LoopUnroll/X86/lit.local.cfg [new file with mode: 0644]
test/Transforms/LoopUnroll/X86/partial.ll [new file with mode: 0644]
test/Transforms/LoopVectorize/X86/metadata-enable.ll