ceffd05421520bcfddfef91216953ceb2ba9c407
[oota-llvm.git] / test / CodeGen / R600 / llvm.AMDGPU.div_fmas.ll
1 ; RUN: llc -march=amdgcn -mcpu=SI -verify-machineinstrs < %s | FileCheck -check-prefix=GCN -check-prefix=SI %s
2 ; XUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s | FileCheck -check-prefix=GCN -check-prefix=VI %s
3
4 ; FIXME: Enable for VI.
5
6 declare i32 @llvm.r600.read.tidig.x() nounwind readnone
7 declare void @llvm.AMDGPU.barrier.global() nounwind noduplicate
8 declare float @llvm.AMDGPU.div.fmas.f32(float, float, float, i1) nounwind readnone
9 declare double @llvm.AMDGPU.div.fmas.f64(double, double, double, i1) nounwind readnone
10
11 ; GCN-LABEL: {{^}}test_div_fmas_f32:
12 ; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb
13 ; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd
14 ; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc
15 ; VI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c
16 ; VI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x34
17 ; VI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30
18 ; GCN-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]
19 ; GCN-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
20 ; GCN-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[SA]]
21 ; GCN: v_div_fmas_f32 [[RESULT:v[0-9]+]], [[VA]], [[VB]], [[VC]]
22 ; GCN: buffer_store_dword [[RESULT]],
23 ; GCN: s_endpgm
24 define void @test_div_fmas_f32(float addrspace(1)* %out, float %a, float %b, float %c, i1 %d) nounwind {
25   %result = call float @llvm.AMDGPU.div.fmas.f32(float %a, float %b, float %c, i1 %d) nounwind readnone
26   store float %result, float addrspace(1)* %out, align 4
27   ret void
28 }
29
30 ; GCN-LABEL: {{^}}test_div_fmas_f64:
31 ; GCN: v_div_fmas_f64
32 define void @test_div_fmas_f64(double addrspace(1)* %out, double %a, double %b, double %c, i1 %d) nounwind {
33   %result = call double @llvm.AMDGPU.div.fmas.f64(double %a, double %b, double %c, i1 %d) nounwind readnone
34   store double %result, double addrspace(1)* %out, align 8
35   ret void
36 }
37
38 ; GCN-LABEL: {{^}}test_div_fmas_f32_cond_to_vcc:
39 ; SI: v_cmp_eq_i32_e64 vcc, s{{[0-9]+}}, 0
40 ; SI: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
41 define void @test_div_fmas_f32_cond_to_vcc(float addrspace(1)* %out, float %a, float %b, float %c, i32 %i) nounwind {
42   %cmp = icmp eq i32 %i, 0
43   %result = call float @llvm.AMDGPU.div.fmas.f32(float %a, float %b, float %c, i1 %cmp) nounwind readnone
44   store float %result, float addrspace(1)* %out, align 4
45   ret void
46 }
47
48 ; GCN-LABEL: {{^}}test_div_fmas_f32_imm_false_cond_to_vcc:
49 ; SI: s_mov_b64 vcc, 0
50 ; SI: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
51 define void @test_div_fmas_f32_imm_false_cond_to_vcc(float addrspace(1)* %out, float %a, float %b, float %c) nounwind {
52   %result = call float @llvm.AMDGPU.div.fmas.f32(float %a, float %b, float %c, i1 false) nounwind readnone
53   store float %result, float addrspace(1)* %out, align 4
54   ret void
55 }
56
57 ; GCN-LABEL: {{^}}test_div_fmas_f32_imm_true_cond_to_vcc:
58 ; SI: s_mov_b64 vcc, -1
59 ; SI: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
60 define void @test_div_fmas_f32_imm_true_cond_to_vcc(float addrspace(1)* %out, float %a, float %b, float %c) nounwind {
61   %result = call float @llvm.AMDGPU.div.fmas.f32(float %a, float %b, float %c, i1 true) nounwind readnone
62   store float %result, float addrspace(1)* %out, align 4
63   ret void
64 }
65
66 ; GCN-LABEL: {{^}}test_div_fmas_f32_logical_cond_to_vcc:
67 ; SI-DAG: buffer_load_dword [[A:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
68 ; SI-DAG: buffer_load_dword [[B:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
69 ; SI-DAG: buffer_load_dword [[C:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
70
71 ; SI-DAG: v_cmp_eq_i32_e64 [[CMP0:s\[[0-9]+:[0-9]+\]]], v{{[0-9]+}}, 0
72 ; SI-DAG: v_cmp_ne_i32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]], s{{[0-9]+}}, 0
73 ; SI: s_and_b64 vcc, [[CMP0]], [[CMP1]]
74 ; SI: v_div_fmas_f32 {{v[0-9]+}}, [[B]], [[A]], [[C]]
75 ; SI: s_endpgm
76 define void @test_div_fmas_f32_logical_cond_to_vcc(float addrspace(1)* %out, float addrspace(1)* %in, i32 %d) nounwind {
77   %tid = call i32 @llvm.r600.read.tidig.x() nounwind readnone
78   %gep.a = getelementptr float addrspace(1)* %in, i32 %tid
79   %gep.b = getelementptr float addrspace(1)* %gep.a, i32 1
80   %gep.c = getelementptr float addrspace(1)* %gep.a, i32 2
81   %gep.out = getelementptr float addrspace(1)* %out, i32 2
82
83   %a = load float addrspace(1)* %gep.a
84   %b = load float addrspace(1)* %gep.b
85   %c = load float addrspace(1)* %gep.c
86
87   %cmp0 = icmp eq i32 %tid, 0
88   %cmp1 = icmp ne i32 %d, 0
89   %and = and i1 %cmp0, %cmp1
90
91   %result = call float @llvm.AMDGPU.div.fmas.f32(float %a, float %b, float %c, i1 %and) nounwind readnone
92   store float %result, float addrspace(1)* %gep.out, align 4
93   ret void
94 }
95
96 ; GCN-LABEL: {{^}}test_div_fmas_f32_i1_phi_vcc:
97 ; SI: v_cmp_eq_i32_e64 [[CMPTID:s\[[0-9]+:[0-9]+\]]], v{{[0-9]+}}, 0
98 ; SI: s_and_saveexec_b64 [[CMPTID]], [[CMPTID]]
99 ; SI: s_xor_b64 [[CMPTID]], exec, [[CMPTID]]
100
101 ; SI: buffer_load_dword [[LOAD:v[0-9]+]]
102 ; SI: v_cmp_ne_i32_e64 [[CMPLOAD:s\[[0-9]+:[0-9]+\]]], [[LOAD]], 0
103 ; SI: v_cndmask_b32_e64 {{v[0-9]+}}, 0, -1, [[CMPLOAD]]
104
105
106 ; SI: BB6_2:
107 ; SI: s_or_b64 exec, exec, [[CMPTID]]
108 ; SI: v_cmp_ne_i32_e32 vcc, 0, v0
109 ; SI: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
110 ; SI: buffer_store_dword
111 ; SI: s_endpgm
112 define void @test_div_fmas_f32_i1_phi_vcc(float addrspace(1)* %out, float addrspace(1)* %in, i32 addrspace(1)* %dummy) nounwind {
113 entry:
114   %tid = call i32 @llvm.r600.read.tidig.x() nounwind readnone
115   %gep.out = getelementptr float addrspace(1)* %out, i32 2
116   %gep.a = getelementptr float addrspace(1)* %in, i32 %tid
117   %gep.b = getelementptr float addrspace(1)* %gep.a, i32 1
118   %gep.c = getelementptr float addrspace(1)* %gep.a, i32 2
119
120   %a = load float addrspace(1)* %gep.a
121   %b = load float addrspace(1)* %gep.b
122   %c = load float addrspace(1)* %gep.c
123
124   %cmp0 = icmp eq i32 %tid, 0
125   br i1 %cmp0, label %bb, label %exit
126
127 bb:
128   %val = load i32 addrspace(1)* %dummy
129   %cmp1 = icmp ne i32 %val, 0
130   br label %exit
131
132 exit:
133   %cond = phi i1 [false, %entry], [%cmp1, %bb]
134   %result = call float @llvm.AMDGPU.div.fmas.f32(float %a, float %b, float %c, i1 %cond) nounwind readnone
135   store float %result, float addrspace(1)* %gep.out, align 4
136   ret void
137 }