AMDGPU: Split x8 and x16 vector loads instead of scalarize

[oota-llvm.git] / lib / Target / AMDGPU / SIISelLowering.cpp
diff --git a/lib/Target/AMDGPU/SIISelLowering.cpp b/lib/Target/AMDGPU/SIISelLowering.cpp

index 0c5c10486aefdca4882db4519979013194b0f302..5aed57b4b4d4f8ef8656821fbdd486e98876ffb1 100644 (file)
--- a/lib/Target/AMDGPU/SIISelLowering.cpp
+++ b/lib/Target/AMDGPU/SIISelLowering.cpp
@@ -1178,10 +1178,14 @@ SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
             "Custom lowering for non-i32 vectors hasn't been implemented.");
      unsigned NumElements = Op.getValueType().getVectorNumElements();
      assert(NumElements != 2 && "v2 loads are supported for all address spaces.");
+
      switch (Load->getAddressSpace()) {
        default: break;
        case AMDGPUAS::GLOBAL_ADDRESS:
        case AMDGPUAS::PRIVATE_ADDRESS:
+        if (NumElements >= 8)
+          return SplitVectorLoad(Op, DAG);
+
          // v4 loads are supported for private and global memory.
          if (NumElements <= 4)
            break;
@@ -1409,7 +1413,7 @@ SDValue SITargetLowering::LowerSTORE(SDValue Op, SelectionDAG &DAG) const {
      return Ret;
  
    if (VT.isVector() && VT.getVectorNumElements() >= 8)
-      return ScalarizeVectorStore(Op, DAG);
+      return SplitVectorStore(Op, DAG);
  
    if (VT == MVT::i1)
      return DAG.getTruncStore(Store->getChain(), DL,