The isel pattern that selects the memory-register form of VCVTPH2PS
The isel pattern that selects the memory-register form of VCVTPH2PS
(64 to 128-bit) matches against the pattern fragment 'vzmovl_v2i64'
(a zero-extended 64-bit load).

However, a change in r248784 teaches the instruction combiner that only
the lower 64 bits of the input to a 128-bit vcvtph2ps are used.  This means
the instruction combiner will ordinarily optimize away the upper 64-bit
insertelement instruction in the zero-extension and so we no longer select
the memory-register form.  To fix this a new pattern has been added.

Differential Revision: http://reviews.llvm.org/D16067

The --debug-only option now takes a comma separated list of debug types.
The --debug-only option now takes a comma separated list of debug types.

This means that the DEBUG_TYPE cannot take a comma anymore. All existing passes
conform to this rule.

Differential Revision: http://reviews.llvm.org/D15645

AVX512: VPMOVAPS/PD and VPMOVUPS/PD (load) intrinsic implementation.
AVX512: VPMOVAPS/PD and VPMOVUPS/PD (load) intrinsic implementation.

Differential Revision: http://reviews.llvm.org/D16042

Explicitly enable OBJECT library "target".
Explicitly enable OBJECT library "target".

With this, one can build a lib from the objects of other libs:

Reviewed by Chris Bieneman - thanks!

7 years ago[Orc] Comment out debugging output in OrcRemoteTargetClient::reserveMem to see
[Orc] Comment out debugging output in OrcRemoteTargetClient::reserveMem to see
whether this affects the GCC 4.7 ICE on
http://lab.llvm.org:8011/builders/clang-x86_64-ubuntu-gdb-75 .

Revert r257003
Revert r257003

This revision breaks llvm-config if you set
BUILD_SHARED_LIBS=on in a CMake build. Backing
out until the fix is ready to land.

[ORC] Remove extraneous '&'.
[ORC] Remove extraneous '&'.

[ORC] Replace some more 'auto' uses with std::error_code.
[ORC] Replace some more 'auto' uses with std::error_code.

One of the GCC 4.7 bots doesn't seem to like auto, and is currently suffering
from an ICE. I'm hoping this will help.

[Orc] Add overloads of RPC::handle and RPC::expect that take member functions as
handlers.
[Orc] Add overloads of RPC::handle and RPC::expect that take member functions as

It is expected that RPC handlers will usually be member functions. Accepting them
directly in handle and expect allows for the remove of a lot of lambdas an
explicit error variables.

This patch also uses this new feature to substantially tidy up the
OrcRemoteTargetServer class.

LoopUnroll: Move the actual unrolling logic to a standalone function. NFC
LoopUnroll: Move the actual unrolling logic to a standalone function. NFC

This is pure code motion - break the actual work out of runOnLoop into
a reusable standalone function.

[WebAssembly] Implement a prototype instruction encoder and disassembler.
[WebAssembly] Implement a prototype instruction encoder and disassembler.

This is using an extremely simple temporary made-up binary format, not the
official binary format (which isn't defined yet).

[WebAssembly] Register the MC subtarget info.
[WebAssembly] Register the MC subtarget info.

[WebAssembly] Define OperandTypes for decoding immediate values.
[WebAssembly] Define OperandTypes for decoding immediate values.

[WebAssembly] Define a custom segment type for function definitions.
[WebAssembly] Define a custom segment type for function definitions.

Since function definitions are not loaded into the address space, PT_LOAD is
inappropriate. PT_WEBASSEMBLY_FUNCTIONS is used to identify where the function
definitions are so that they can be processed at program startup time.

[libFuzzer] when a new unit is discovered using a dictionary, print all used dictionary entries
[libFuzzer] when a new unit is discovered using a dictionary, print all used dictionary entries

[libFuzzer] add various debug prints. Also don't mutate based on a cmp trace like (a eq a) or (a neq a)
[libFuzzer] add various debug prints. Also don't mutate based on a cmp trace like (a eq a) or (a neq a)

[WebAssembly] Use TSFlags instead of keeping a list of special-case opcodes.
[WebAssembly] Use TSFlags instead of keeping a list of special-case opcodes.

OrcRemoteTargetServer.h: Suppress a warning. [-Wunused-variable]
FIXME: It may return ErrorOr.
OrcRemoteTargetServer.h: Suppress a warning. [-Wunused-variable]

FIXME: It may return ErrorOr.

lli: Fix warnings. [-Wsign-compare]
lli: Fix warnings. [-Wsign-compare]

CXX_FAST_TLS calling convention: performance improvement for x86-64.
CXX_FAST_TLS calling convention: performance improvement for x86-64.

This is the same change on x86-64 as r255821 on AArch64.

LoopUnroll: Make canUnrollCompletely static - it doesn't use any state. NFC
LoopUnroll: Make canUnrollCompletely static - it doesn't use any state. NFC

LoopUnroll: Clean up the maze of initialization for unroll parameters. NFC
LoopUnroll: Clean up the maze of initialization for unroll parameters. NFC

The layering of where the various loop unroll parameters are
initialized and overridden here was very confusing, making it pretty
difficult to tell just how the various sources interacted. Instead, we
put all of the initialization logic together in a single function so
that it's obvious what overrides what.

CXX_FAST_TLS calling convention: performance improvement for ARM.
CXX_FAST_TLS calling convention: performance improvement for ARM.

This is the same change on ARM as r255821 on AArch64.

7 years ago[libFuzzer] extend the weak memcmp/strcmp/strncmp interceptors to receive the result...
[libFuzzer] extend the weak memcmp/strcmp/strncmp interceptors to receive the result of the computations. With that, don't do any mutations if memcmp/etc returned 0

[IRMover] Don't copy personality, etc unless creating def
[IRMover] Don't copy personality, etc unless creating def

Function::copyAttributesFrom will copy the personality function, prefix
data and prolog data from the source function to the new function, and
is invoked when the IRMover copies the function prototype. This puts a
reference to a constant in the source module on a function in the dest
module, which causes an error when deleting the source module after
importing, since the personality function in the source module still has
uses (this would presumably also be an issue for the prologue and prefix
data). Remove the copies added to the dest copy when creating the new
prototype, as they are mapped properly when/if we link the function body.

[Orc] XFAIL a few remote-jit test cases that I missed in r257391.
[Orc] XFAIL a few remote-jit test cases that I missed in r257391.

CXX_FAST_TLS calling convention: Add support for ARM on Darwin.
CXX_FAST_TLS calling convention: Add support for ARM on Darwin.


[WebAssembly] Define WebAssembly-specific relocation codes.
[WebAssembly] Define WebAssembly-specific relocation codes.

Currently WebAssembly has two kinds of relocations; data addresses and
function addresses. This adds ELF relocations for them, as well as an
MC symbol kind to indicate which type of relocation is needed.

Avoid the deprecated GetVersionEx API
Avoid the deprecated GetVersionEx API

Apparently the preferred version is the incredibly complicated
VerifyVersionInfoW function.

Rename the function to avoid potential future name clashes.

[LibCallSimplifier] use instruction-level fast-math-flags to transform log calls
[LibCallSimplifier] use instruction-level fast-math-flags to transform log calls

Also, add tests to verify that we're checking 'fast' on both calls of each transform pair,
tighten the CHECK lines, and give the tests more meaningful names.

This is a continuation of:

Remove a bugs assert.
Remove a bugs assert.

There is no reason the value being printed has to be positive.
Fixes pr25802.

lli-child-target: Introduce a new dependency on RuntimeDyld.
lli-child-target: Introduce a new dependency on RuntimeDyld.

[LibCallSimplifier] don't allow sqrt transform unless all ops are unsafe
[LibCallSimplifier] don't allow sqrt transform unless all ops are unsafe

Fix the FIXME added with:

LoopUnroll: Use the optsize threshold for minsize as well
LoopUnroll: Use the optsize threshold for minsize as well

Currently we're unrolling loops more in minsize than in optsize, which
means -Oz will have a larger code size than -Os. That doesn't make any

This resolves the FIXME about this in LoopUnrollPass and extends the
optsize test to make sure we use the smaller threshold for minsize as

more space; NFC
more space; NFC

[LibCallSimplifier] use instruction-level fast-math-flags to transform sqrt calls
[LibCallSimplifier] use instruction-level fast-math-flags to transform sqrt calls

This is a continuation of adding FMF to call instructions:

The intent of the patch is to preserve the current behavior of the transform except
that we use the sqrt instruction's 'fast' attribute as a trigger rather than the
function-level attribute.

But this raises a bug noted by the new FIXME comment.

In order to do this transform:
sqrt((x * x) * y) ---> fabs(x) * sqrt(y)

...we need all of the sqrt, the first fmul, and the second fmul to be 'fast'.
If any of those ops is strict, we should bail out.

Differential Revision: http://reviews.llvm.org/D15937

getParent()->getParent() == getFunction() and clang-format ; NFC
getParent()->getParent() == getFunction() and clang-format ; NFC

don't repeat function names in comments; NFC
don't repeat function names in comments; NFC

Add a missing error handling to llvm-lto.
Add a missing error handling to llvm-lto.

[WebAssembly] Reorganize address offset folding.
[WebAssembly] Reorganize address offset folding.

Always expect tglobaladdr and texternalsym to be wrapped in
WebAssemblywrapper nodes. Also, split out a regPlusGA from regPlusImm so
that it can special-case global addresses, as they can be folded in more

Unfortunately this doesn't enable any new optimizations yet due to
SelectionDAG limitations. I'll be submitting changes to the SelectionDAG
infrastructure, along with tests, in a separate patch.

AMDGPU: Implement {{s|u}}int_to_fp i64 -> f32
AMDGPU: Implement {{s|u}}int_to_fp i64 -> f32

The old lowering for uint_to_fp failed opencl conformance.
It might be OK for fast math mode, but I'm not sure.

XFAIL the LLI remote JIT tests on Win32.
XFAIL the LLI remote JIT tests on Win32.

Split resolveCycles(bool AllowTemps) into two interfaces and document
Split resolveCycles(bool AllowTemps) into two interfaces and document

Address review feedback from r255909.

Move body of resolveCycles(bool AllowTemps) to
resolveRecursivelyImpl(bool AllowTemps). Revert resolveCycles back
to asserting on temps, and add new resolveNonTemporaries interface
to invoke the new implementation with AllowTemps=true. Document
the differences between these interfaces, specifically the effect
on RAUW support and uniquing. Call appropriate interface from

BumpPtrAllocator::Reset should also poison the first slab which doesn't get deallocated.
BumpPtrAllocator::Reset should also poison the first slab which doesn't get deallocated.

When asan is enabled, we poison slabs as we allocate them, and only unpoison the pieces
we need from the slab.

However, in Reset, we were failing to reset the state of the slab back to being poisoned.

Patch by b17 c0de.

AMDGPU: Cleanup udiv test
AMDGPU: Cleanup udiv test

AMDGPU: Fix crash with dispatch.ptr intrinsic with non-HSA target
AMDGPU: Fix crash with dispatch.ptr intrinsic with non-HSA target

It might be better to let this be a select failure instead.

[X86] Add AVX512 testcase for r248965/PR24512.
[X86] Add AVX512 testcase for r248965/PR24512.

Revert "[Windows] Simplify assertion code. NFC."
Revert "[Windows] Simplify assertion code. NFC."

This reverts commit r254363.

load64BitDebugHelp() has the side effect of loading dbghelp and setting
globals. It should be called in no-asserts builds as well as debug

llvm_unreachable is also not appropriate here, since we actually want to
return if dbghelp couldn't be loaded in a non-asserts build.

[ORC] Add explicit move construction/assignment to
OrcRemoteTargetClient::RCMemoryManager.
[ORC] Add explicit move construction/assignment to

More MSVC bot appeasement.

Update the VS getting started docs to reflect the current state of support
Update the VS getting started docs to reflect the current state of support

Use ::GetVersionEx directly rather than the Win8.1 SDK helpers
Use ::GetVersionEx directly rather than the Win8.1 SDK helpers

This removes ifdefs and fixes the build for users of the Win8.0 SDK,
which I happen to be. Upgrading is not hard, but executing the same code
everywhere seems better.

[ORC] More MSVC error wrangling.
[ORC] More MSVC error wrangling.

Ensure -mcpu=xscale works for arm targets, after rL252903 and rL252904
Ensure -mcpu=xscale works for arm targets, after rL252903 and rL252904

After these revisions, for arm targets, the -mcpu=xscale option caused
an error: "the clang compiler does not support '-mcpu=xscale'".  Adding
"v5e" as a SUB_ARCH in ARMTargetParser.def helps.

Submitted by: Andrew Turner
Differential Revision: http://reviews.llvm.org/D16043

git-svn-id: https://llvm.org/svn/llvm-project/llvm/trunk@257376 91177308-0d34-0410-b5e6-96231b3b80d8

[sanitizer] [msan] Fix origin store of array types
Adhemerval Zanella [Mon, 11 Jan 2016 19:55:27 +0000 (19:55 +0000)]
[sanitizer] [msan] Fix origin store of array types

This patch fixes the memory sanitizer origin store instrumentation for
array types.  This can be triggered by cases where frontend lowers
function return to array type instead of aggregation.

For instance, the C code:

struct mypair {
 int64_t x;
 int y;

mypair my_make_pair(int64_t x, int y)  {
 mypair p;
 p.x = x;
 p.y = y;
 return p;

int foo (int p)
  mypair z = my_make_pair(p, 0);
  return z.y + z.x;

It will be lowered with target set to aarch64-linux and -O0 to:

define i32 @_Z3fooi(i32 %p) #0 {
%call = call [2 x i64] @_Z12my_make_pairxi(i64 %conv, i32 0)
%1 = bitcast %struct.mypair* %z to [2 x i64]*
store [2 x i64] %call, [2 x i64]* %1, align 8

The origin store will emit a 'icmp' to test each store value again the
TLS origin array.  However since 'icmp' does not support ArrayType the
memory instrumentation phase will bail out with an error.

This patch change it by using the same strategy used for struct type on

It fixes the 'test/msan/insertvalue_origin.cc' for aarch64 (the -O0 case).

[Orc] Fix missing return.
[Orc] Fix missing return.

[Orc] Add explicit move construction/assignment to RCMemoryManager.
[Orc] Add explicit move construction/assignment to RCMemoryManager.

Yet another attempt to pacify MSVC.

Fix some GCC 4.7 issues with the new Orc remote JIT support
Fix some GCC 4.7 issues with the new Orc remote JIT support

I'm still seeing GCC ICE locally, but figured I'd throw this at the wall
& see if it sticks for the bots at least. Will continue investigating
the ICE in any case.

Code refactoring for commit r257278.
Code refactoring for commit r257278.

[NFC] Fix whitespace.
[NFC] Fix whitespace.

[ORC] Explicitly delete copy constructors for RCMemoryManager::Alloc.
[ORC] Explicitly delete copy constructors for RCMemoryManager::Alloc.

More MSVC bot appeasement.

[Orc] Include <system_error> in OrcTargetClient.
[Orc] Include <system_error> in OrcTargetClient.

Another shot at appeasing the clang-x86_64-ubuntu-gdb-75 builder.

lli/ChildTarget now depends on OrcJIT. Add that component to the Makefile.
lli/ChildTarget now depends on OrcJIT. Add that component to the Makefile.

Remove the remote-JIT small code model tests for now. They're causing
intermittent XPASSes on some builders.
Remove the remote-JIT small code model tests for now. They're causing
intermittent XPASSes on some builders.

These can be reinstated when we have proper support for small-code model in
the JIT.

[Orc] More explicit move construction/assignment to appease MSVC.
[Orc] More explicit move construction/assignment to appease MSVC.

7 years agoXFAIL the remote small code model tests on x86. Small code model is not properly
XFAIL the remote small code model tests on x86. Small code model is not properly
supported, and only worked previously because we weren't really running them

AMDGPU: int_to_fp test cleanups
AMDGPU: int_to_fp test cleanups

AMDGPU: Fix ctlz combine for sub 32-bit types
AMDGPU: Fix ctlz combine for sub 32-bit types

AMDGPU: Pattern match ffbh pattern to instruction.
AMDGPU: Pattern match ffbh pattern to instruction.

The hardware instruction's output on 0 is -1 rather than 32.
Eliminate a test and select to -1. This removes an extra instruction
from the compatability function with HSAIL's firstbit instruction.

[LLI] Remove dependence on RemoteTarget.cpp from ChildTarget's Makefile.
[LLI] Remove dependence on RemoteTarget.cpp from ChildTarget's Makefile.

RemoteTarget.cpp was removed in r257343.

[ORC] Pacify MSVC by adding explicit move construction/assignment to
OrcRemoteTargetClient.
[ORC] Pacify MSVC by adding explicit move construction/assignment to

[ORC] Change 'auto' to 'std::error_code' to try to coax GCC builder into
providing a more helpful error diagnostic.
[ORC] Change 'auto' to 'std::error_code' to try to coax GCC builder into
providing a more helpful error diagnostic.

AMDGPU: Custom lower i64 ctlz
AMDGPU: Custom lower i64 ctlz

Mips: Remove lowerSELECT_CC
Mips: Remove lowerSELECT_CC

This is the same as the default expansion.

LegalizeDAG: Expand ctlz with ctlz_zero_undef if legal
LegalizeDAG: Expand ctlz with ctlz_zero_undef if legal

AMDGPU: Remove dead target dag combine
AMDGPU: Remove dead target dag combine

[LLI] Replace the LLI remote-JIT support with the new ORC remote-JIT components.
[LLI] Replace the LLI remote-JIT support with the new ORC remote-JIT components.

The new ORC remote-JITing support provides a superset of the old code's
functionality, so we can replace the old stuff. As a bonus, a couple of
previously XFAILed tests have started passing.

Revert r257164 - it has caused spec2k6 failures in LTO mode
Revert r257164 - it has caused spec2k6 failures in LTO mode

[mips] Never select JAL for calls to an absolute immediate address.
[mips] Never select JAL for calls to an absolute immediate address.

It actually takes an offset into the current PC-region.

This fixes the 'expr' command in lldb.

Reviewers: vkalintiris, jaydeep, bhushan

Subscribers: dsanders, llvm-commits

Differential Revision: http://reviews.llvm.org/D16054

[Hexagon] Add check for nullptr in getFixupNoBits
[Hexagon] Add check for nullptr in getFixupNoBits

[Hexagon] Add implicit uses of GP to GP-relative loads and stores
[Hexagon] Add implicit uses of GP to GP-relative loads and stores

[Hexagon] Mark D14 and GP as reserved registers
[Hexagon] Mark D14 and GP as reserved registers

[X86] Reduce complexity of the LEA optimization pass, by Andrey Turetsky.
[X86] Reduce complexity of the LEA optimization pass, by Andrey Turetsky.
In the OptimizeLEA pass keep instructions' positions in the basic block saved and use them for calculation of the distance between two instructions instead of std::distance. This reduces complexity of the pass from O(n^3) to O(n^2) and thus the compile time.
Differential Revision: http://reviews.llvm.org/D15692

[BranchFolding] Set correct mem refs (2nd try)
[BranchFolding] Set correct mem refs (2nd try)

This is a recommit of r257253 which was reverted in r257270.
Previous testcase can make failure on some targets due to using opt with O3 option.

Original Summary:
Merge MBBICommon and MBBI's MMOs.

Differential Revision: http://reviews.llvm.org/D15990

[ORC] Move ORC RPC helper classes that rely on partial specialization into a
non-template base class.
[ORC] Move ORC RPC helper classes that rely on partial specialization into a
non-template base class.

Hopefully this should fix the issues with the windows bots arrising from

7 years ago[TableGen] Allow asm writer to use up to 3 OpInfo tables instead of 2. This allows...
[TableGen] Allow asm writer to use up to 3 OpInfo tables instead of 2. This allows x86 to use 56 total bits made up of a 32-bit, 16-bit, and 8-bit table. Previously we were using 64 total bits.

This saves 14K from the x86 table size. And saves space on other targets as well.

[TableGen] Remove unnecessary 0 term
[TableGen] Remove unnecessary 0 terminator from an array that only existed to prevent ending an array with a comma. But that's perfectly legal and not something we need to prevent. NFC

7 years agoFix examples corresponding to r257302.
Fix examples corresponding to r257302.

7 years ago[Orc] Remove the empty class definitions in RPCUtils.h in the hope of working
[Orc] Remove the empty class definitions in RPCUtils.h in the hope of working
around MSVC's C2783 error.

7 years agoMove all decls in coverage namespace into CoverageMapping.h/NFC
Move all decls in coverage namespace into CoverageMapping.h/NFC

7 years agoOrc] Drop PageSize member from Orc architecture support class in favour of
Orc] Drop PageSize member from Orc architecture support class in favour of
Process::getPageSize() - the former is redundant.


7 years ago[Orc] Remove the FPRPCChannel class from RPCChannel.h - it requires unistd.h,
[Orc] Remove the FPRPCChannel class from RPCChannel.h - it requires unistd.h,
which was removed in r257306.

7 years ago[TableGen] Remove a few spaces from AsmMatcher output. NFC
[TableGen] Remove a few spaces from AsmMatcher output. NFC

7 years ago[Orc] Include the IndirectionUtils header in OrcRemoteTargetClient.
[Orc] Include the IndirectionUtils header in OrcRemoteTargetClient.

This should fix the modules builder.

7 years ago[Orc] Remote the <unistd> include introduced in r257305 - it's not needed, and
[Orc] Remote the <unistd> include introduced in r257305 - it's not needed, and
broke the windows bots.

7 years ago[Orc] Add support for remote JITing to the ORC API.
[Orc] Add support for remote JITing to the ORC API.

This patch adds utilities to ORC for managing a remote JIT target. It consists

1. A very primitive RPC system for making calls over a byte-stream.  See
RPCChannel.h, RPCUtils.h.

2. An RPC API defined in the above system for managing memory, looking up
symbols, creating stubs, etc. on a remote target. See OrcRemoteTargetRPCAPI.h.

3. An interface for creating high-level JIT components (memory managers,
callback managers, stub managers, etc.) that operate over the RPC API. See

4. A helper class for building servers that can handle the RPC calls. See

The system is designed to work neatly with the existing ORC components and
functionality. In particular, the ORC callback API (and consequently the
CompileOnDemandLayer) is supported, enabling lazy compilation of remote code.

Assuming this doesn't trigger any builder failures, a follow-up patch will be
committed which tests these utilities by using them to replace LLI's existing
remote-JITing demo code.

7 years ago[AVX-512] Remove another extra space from the Intel syntax asm strings.
[AVX-512] Remove another extra space from the Intel syntax asm strings.

7 years ago[AVX-512] Fix test case update missed in r257299.
[AVX-512] Fix test case update missed in r257299.

7 years ago[Orc] Rename OrcTargetSupport to OrcArchitectureSupport to avoid confusion with
[Orc] Rename OrcTargetSupport to OrcArchitectureSupport to avoid confusion with
the upcoming remote-target support classes.

7 years ago[AVX-512] Remove more superfluous spaces from asm strings.
[AVX-512] Remove more superfluous spaces from asm strings.

7 years ago[AVX-512] Remove unused Round and Itinerary from the maskable_cmp multiclasses. They...
[AVX-512] Remove unused Round and Itinerary from the maskable_cmp multiclasses. They weren't used and there were extra spaces in the asm string to prepare for the concatenations of the round string that wasn't ever used.

