test/CodeGen/X86/sse_reload_fold.ll

   1 ; RUN: llvm-as < %s | \
   2 ; RUN: llc -march=x86-64 -mattr=+64bit,+sse3 -print-failed-fuse-candidates |& \
   3 ; RUN:   grep fail | count 1
   4
   5 declare void @bar()
   6 declare <4 x float> @qux()
   7 declare <2 x double> @pin()
   8 declare float @llvm.sqrt.f32(float)
   9 declare double @llvm.sqrt.f64(double)
  10
  11 declare <4 x float> @llvm.x86.sse.rsqrt.ps(<4 x float>)
  12 declare <4 x float> @llvm.x86.sse.sqrt.ps(<4 x float>)
  13 declare <4 x float> @llvm.x86.sse.rcp.ps(<4 x float>)
  14 declare <4 x float> @llvm.x86.sse.min.ps(<4 x float>, <4 x float>)
  15 declare <4 x float> @llvm.x86.sse.max.ps(<4 x float>, <4 x float>)
  16 declare <4 x float> @llvm.x86.sse.cmp.ps(<4 x float>, <4 x float>, i8)
  17 declare <4 x float> @llvm.x86.sse3.addsub.ps(<4 x float>, <4 x float>)
  18 declare <4 x float> @llvm.x86.sse3.hadd.ps(<4 x float>, <4 x float>)
  19 declare <4 x float> @llvm.x86.sse3.hsub.ps(<4 x float>, <4 x float>)
  20 declare <2 x double> @llvm.x86.sse2.sqrt.pd(<2 x double>)
  21 declare <2 x double> @llvm.x86.sse2.min.pd(<2 x double>, <2 x double>)
  22 declare <2 x double> @llvm.x86.sse2.max.pd(<2 x double>, <2 x double>)
  23 declare <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double>, <2 x double>, i8)
  24 declare <2 x double> @llvm.x86.sse3.addsub.pd(<2 x double>, <2 x double>)
  25 declare <2 x double> @llvm.x86.sse3.hadd.pd(<2 x double>, <2 x double>)
  26 declare <2 x double> @llvm.x86.sse3.hsub.pd(<2 x double>, <2 x double>)
  27
  28 define float @foo(float %f) {
  29   call void @bar()
  30   %t = call float @llvm.sqrt.f32(float %f)
  31   ret float %t
  32 }
  33 define double @doo(double %f) {
  34   call void @bar()
  35   %t = call double @llvm.sqrt.f64(double %f)
  36   ret double %t
  37 }
  38 define <4 x float> @a0(<4 x float> %f) {
  39   call void @bar()
  40   %t = call <4 x float> @llvm.x86.sse.rsqrt.ps(<4 x float> %f)
  41   ret <4 x float> %t
  42 }
  43 define <4 x float> @a1(<4 x float> %f) {
  44   call void @bar()
  45   %t = call <4 x float> @llvm.x86.sse.sqrt.ps(<4 x float> %f)
  46   ret <4 x float> %t
  47 }
  48 define <4 x float> @a2(<4 x float> %f) {
  49   call void @bar()
  50   %t = call <4 x float> @llvm.x86.sse.rcp.ps(<4 x float> %f)
  51   ret <4 x float> %t
  52 }
  53 define <4 x float> @b3(<4 x float> %f) {
  54   %y = call <4 x float> @qux()
  55   %t = call <4 x float> @llvm.x86.sse.min.ps(<4 x float> %y, <4 x float> %f)
  56   ret <4 x float> %t
  57 }
  58 define <4 x float> @b4(<4 x float> %f) {
  59   %y = call <4 x float> @qux()
  60   %t = call <4 x float> @llvm.x86.sse.max.ps(<4 x float> %y, <4 x float> %f)
  61   ret <4 x float> %t
  62 }
  63 define <4 x float> @b5(<4 x float> %f) {
  64   %y = call <4 x float> @qux()
  65   %t = call <4 x float> @llvm.x86.sse.cmp.ps(<4 x float> %y, <4 x float> %f, i8 7)
  66   ret <4 x float> %t
  67 }
  68 define <4 x float> @b6(<4 x float> %f) {
  69   %y = call <4 x float> @qux()
  70   %t = call <4 x float> @llvm.x86.sse3.addsub.ps(<4 x float> %y, <4 x float> %f)
  71   ret <4 x float> %t
  72 }
  73 define <4 x float> @b7(<4 x float> %f) {
  74   %y = call <4 x float> @qux()
  75   %t = call <4 x float> @llvm.x86.sse3.hadd.ps(<4 x float> %y, <4 x float> %f)
  76   ret <4 x float> %t
  77 }
  78 define <4 x float> @b8(<4 x float> %f) {
  79   %y = call <4 x float> @qux()
  80   %t = call <4 x float> @llvm.x86.sse3.hsub.ps(<4 x float> %y, <4 x float> %f)
  81   ret <4 x float> %t
  82 }
  83 define <2 x double> @c1(<2 x double> %f) {
  84   call void @bar()
  85   %t = call <2 x double> @llvm.x86.sse2.sqrt.pd(<2 x double> %f)
  86   ret <2 x double> %t
  87 }
  88 define <2 x double> @d3(<2 x double> %f) {
  89   %y = call <2 x double> @pin()
  90   %t = call <2 x double> @llvm.x86.sse2.min.pd(<2 x double> %y, <2 x double> %f)
  91   ret <2 x double> %t
  92 }
  93 define <2 x double> @d4(<2 x double> %f) {
  94   %y = call <2 x double> @pin()
  95   %t = call <2 x double> @llvm.x86.sse2.max.pd(<2 x double> %y, <2 x double> %f)
  96   ret <2 x double> %t
  97 }
  98 define <2 x double> @d5(<2 x double> %f) {
  99   %y = call <2 x double> @pin()
 100   %t = call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %y, <2 x double> %f, i8 7)
 101   ret <2 x double> %t
 102 }
 103 define <2 x double> @d6(<2 x double> %f) {
 104   %y = call <2 x double> @pin()
 105   %t = call <2 x double> @llvm.x86.sse3.addsub.pd(<2 x double> %y, <2 x double> %f)
 106   ret <2 x double> %t
 107 }
 108 define <2 x double> @d7(<2 x double> %f) {
 109   %y = call <2 x double> @pin()
 110   %t = call <2 x double> @llvm.x86.sse3.hadd.pd(<2 x double> %y, <2 x double> %f)
 111   ret <2 x double> %t
 112 }
 113 define <2 x double> @d8(<2 x double> %f) {
 114   %y = call <2 x double> @pin()
 115   %t = call <2 x double> @llvm.x86.sse3.hsub.pd(<2 x double> %y, <2 x double> %f)
 116   ret <2 x double> %t
 117 }
 118
 119 ; This one should fail to fuse.
 120 define <2 x double> @z0(<2 x double> %f) {
 121   %y = call <2 x double> @pin()
 122   %t = call <2 x double> @llvm.x86.sse3.hsub.pd(<2 x double> %f, <2 x double> %y)
 123   ret <2 x double> %t
 124 }