[x86] Add a much more powerful framework for combining x86 shuffle
authorChandler Carruth <chandlerc@gmail.com>
Sun, 27 Jul 2014 01:15:58 +0000 (01:15 +0000)
committerChandler Carruth <chandlerc@gmail.com>
Sun, 27 Jul 2014 01:15:58 +0000 (01:15 +0000)
commita6f9501b620310638a76b04fba069c71974c646a
tree8e005eb1a734d91ffa07be4ea0a5322052b6a3a7
parent8e704b16f1f4f0723c93a6b3cd7dcb8331c53246
[x86] Add a much more powerful framework for combining x86 shuffle
instructions in the legalized DAG, and leverage it to combine long
sequences of instructions to PSHUFB.

Eventually, the other x86-instruction-specific shuffle combines will
probably all be driven out of this routine. But the real motivation is
to detect after we have fully legalized and optimized a shuffle to the
minimal number of x86 instructions whether it is profitable to replace
the chain with a fully generic PSHUFB instruction even though doing so
requires either a load from a constant pool or tying up a register with
the mask.

While the Intel manuals claim it should be used when it replaces 5 or
more instructions (!!!!) my experience is that it is actually very fast
on modern chips, and so I've gon with a much more aggressive model of
replacing any sequence of 3 or more instructions.

I've also taught it to do some basic canonicalization to special-purpose
instructions which have smaller encodings than their generic
counterparts.

There are still quite a few FIXMEs here, and I've not yet implemented
support for lowering blends with PSHUFB (where its power really shines
due to being able to zero out lanes), but this starts implementing real
PSHUFB support even when using the new, fancy shuffle lowering. =]

git-svn-id: https://llvm.org/svn/llvm-project/llvm/trunk@214042 91177308-0d34-0410-b5e6-96231b3b80d8
lib/Target/X86/X86ISelLowering.cpp
test/CodeGen/X86/avx-basic.ll
test/CodeGen/X86/avx-intrinsics-x86.ll
test/CodeGen/X86/avx-splat.ll
test/CodeGen/X86/vector-shuffle-128-v8.ll