Remove some not-really-used variables, as warned
[oota-llvm.git] / lib / Support / regengine.inc
1 /*-
2  * This code is derived from OpenBSD's libc/regex, original license follows:
3  *
4  * Copyright (c) 1992, 1993, 1994 Henry Spencer.
5  * Copyright (c) 1992, 1993, 1994
6  *      The Regents of the University of California.  All rights reserved.
7  *
8  * This code is derived from software contributed to Berkeley by
9  * Henry Spencer.
10  *
11  * Redistribution and use in source and binary forms, with or without
12  * modification, are permitted provided that the following conditions
13  * are met:
14  * 1. Redistributions of source code must retain the above copyright
15  *    notice, this list of conditions and the following disclaimer.
16  * 2. Redistributions in binary form must reproduce the above copyright
17  *    notice, this list of conditions and the following disclaimer in the
18  *    documentation and/or other materials provided with the distribution.
19  * 3. Neither the name of the University nor the names of its contributors
20  *    may be used to endorse or promote products derived from this software
21  *    without specific prior written permission.
22  *
23  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
24  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
25  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
26  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
27  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
28  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
29  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
30  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
31  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
32  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
33  * SUCH DAMAGE.
34  *
35  *      @(#)engine.c    8.5 (Berkeley) 3/20/94
36  */
37
38 /*
39  * The matching engine and friends.  This file is #included by regexec.c
40  * after suitable #defines of a variety of macros used herein, so that
41  * different state representations can be used without duplicating masses
42  * of code.
43  */
44
45 #ifdef SNAMES
46 #define matcher smatcher
47 #define fast    sfast
48 #define slow    sslow
49 #define dissect sdissect
50 #define backref sbackref
51 #define step    sstep
52 #define print   sprint
53 #define at      sat
54 #define match   smat
55 #define nope    snope
56 #endif
57 #ifdef LNAMES
58 #define matcher lmatcher
59 #define fast    lfast
60 #define slow    lslow
61 #define dissect ldissect
62 #define backref lbackref
63 #define step    lstep
64 #define print   lprint
65 #define at      lat
66 #define match   lmat
67 #define nope    lnope
68 #endif
69
70 /* another structure passed up and down to avoid zillions of parameters */
71 struct match {
72         struct re_guts *g;
73         int eflags;
74         llvm_regmatch_t *pmatch;        /* [nsub+1] (0 element unused) */
75         char *offp;             /* offsets work from here */
76         char *beginp;           /* start of string -- virtual NUL precedes */
77         char *endp;             /* end of string -- virtual NUL here */
78         char *coldp;            /* can be no match starting before here */
79         char **lastpos;         /* [nplus+1] */
80         STATEVARS;
81         states st;              /* current states */
82         states fresh;           /* states for a fresh start */
83         states tmp;             /* temporary */
84         states empty;           /* empty set of states */
85 };
86
87 static int matcher(struct re_guts *, char *, size_t, llvm_regmatch_t[], int);
88 static char *dissect(struct match *, char *, char *, sopno, sopno);
89 static char *backref(struct match *, char *, char *, sopno, sopno, sopno, int);
90 static char *fast(struct match *, char *, char *, sopno, sopno);
91 static char *slow(struct match *, char *, char *, sopno, sopno);
92 static states step(struct re_guts *, sopno, sopno, states, int, states);
93 #define MAX_RECURSION   100
94 #define BOL     (OUT+1)
95 #define EOL     (BOL+1)
96 #define BOLEOL  (BOL+2)
97 #define NOTHING (BOL+3)
98 #define BOW     (BOL+4)
99 #define EOW     (BOL+5)
100 #define CODEMAX (BOL+5)         /* highest code used */
101 #define NONCHAR(c)      ((c) > CHAR_MAX)
102 #define NNONCHAR        (CODEMAX-CHAR_MAX)
103 #ifdef REDEBUG
104 static void print(struct match *, char *, states, int, FILE *);
105 #endif
106 #ifdef REDEBUG
107 static void at(struct match *, char *, char *, char *, sopno, sopno);
108 #endif
109 #ifdef REDEBUG
110 static char *pchar(int);
111 #endif
112
113 #ifdef REDEBUG
114 #define SP(t, s, c)     print(m, t, s, c, stdout)
115 #define AT(t, p1, p2, s1, s2)   at(m, t, p1, p2, s1, s2)
116 #define NOTE(str)       { if (m->eflags&REG_TRACE) (void)printf("=%s\n", (str)); }
117 static int nope = 0;
118 #else
119 #define SP(t, s, c)     /* nothing */
120 #define AT(t, p1, p2, s1, s2)   /* nothing */
121 #define NOTE(s) /* nothing */
122 #endif
123
124 /*
125  - matcher - the actual matching engine
126  */
127 static int                      /* 0 success, REG_NOMATCH failure */
128 matcher(struct re_guts *g, char *string, size_t nmatch, llvm_regmatch_t pmatch[],
129     int eflags)
130 {
131         char *endp;
132         size_t i;
133         struct match mv;
134         struct match *m = &mv;
135         char *dp;
136         const sopno gf = g->firststate+1;       /* +1 for OEND */
137         const sopno gl = g->laststate;
138         char *start;
139         char *stop;
140
141         /* simplify the situation where possible */
142         if (g->cflags&REG_NOSUB)
143                 nmatch = 0;
144         if (eflags&REG_STARTEND) {
145                 start = string + pmatch[0].rm_so;
146                 stop = string + pmatch[0].rm_eo;
147         } else {
148                 start = string;
149                 stop = start + strlen(start);
150         }
151         if (stop < start)
152                 return(REG_INVARG);
153
154         /* prescreening; this does wonders for this rather slow code */
155         if (g->must != NULL) {
156                 for (dp = start; dp < stop; dp++)
157                         if (*dp == g->must[0] && stop - dp >= g->mlen &&
158                                 memcmp(dp, g->must, (size_t)g->mlen) == 0)
159                                 break;
160                 if (dp == stop)         /* we didn't find g->must */
161                         return(REG_NOMATCH);
162         }
163
164         /* match struct setup */
165         m->g = g;
166         m->eflags = eflags;
167         m->pmatch = NULL;
168         m->lastpos = NULL;
169         m->offp = string;
170         m->beginp = start;
171         m->endp = stop;
172         STATESETUP(m, 4);
173         SETUP(m->st);
174         SETUP(m->fresh);
175         SETUP(m->tmp);
176         SETUP(m->empty);
177         CLEAR(m->empty);
178
179         /* this loop does only one repetition except for backrefs */
180         for (;;) {
181                 endp = fast(m, start, stop, gf, gl);
182                 if (endp == NULL) {             /* a miss */
183                         free(m->pmatch);
184                         free(m->lastpos);
185                         STATETEARDOWN(m);
186                         return(REG_NOMATCH);
187                 }
188                 if (nmatch == 0 && !g->backrefs)
189                         break;          /* no further info needed */
190
191                 /* where? */
192                 assert(m->coldp != NULL);
193                 for (;;) {
194                         NOTE("finding start");
195                         endp = slow(m, m->coldp, stop, gf, gl);
196                         if (endp != NULL)
197                                 break;
198                         assert(m->coldp < m->endp);
199                         m->coldp++;
200                 }
201                 if (nmatch == 1 && !g->backrefs)
202                         break;          /* no further info needed */
203
204                 /* oh my, he wants the subexpressions... */
205                 if (m->pmatch == NULL)
206                         m->pmatch = (llvm_regmatch_t *)malloc((m->g->nsub + 1) *
207                                                         sizeof(llvm_regmatch_t));
208                 if (m->pmatch == NULL) {
209                         STATETEARDOWN(m);
210                         return(REG_ESPACE);
211                 }
212                 for (i = 1; i <= m->g->nsub; i++)
213                         m->pmatch[i].rm_so = m->pmatch[i].rm_eo = -1;
214                 if (!g->backrefs && !(m->eflags&REG_BACKR)) {
215                         NOTE("dissecting");
216                         dp = dissect(m, m->coldp, endp, gf, gl);
217                 } else {
218                         if (g->nplus > 0 && m->lastpos == NULL)
219                                 m->lastpos = (char **)malloc((g->nplus+1) *
220                                                         sizeof(char *));
221                         if (g->nplus > 0 && m->lastpos == NULL) {
222                                 free(m->pmatch);
223                                 STATETEARDOWN(m);
224                                 return(REG_ESPACE);
225                         }
226                         NOTE("backref dissect");
227                         dp = backref(m, m->coldp, endp, gf, gl, (sopno)0, 0);
228                 }
229                 if (dp != NULL)
230                         break;
231
232                 /* uh-oh... we couldn't find a subexpression-level match */
233                 assert(g->backrefs);    /* must be back references doing it */
234                 assert(g->nplus == 0 || m->lastpos != NULL);
235                 for (;;) {
236                         if (dp != NULL || endp <= m->coldp)
237                                 break;          /* defeat */
238                         NOTE("backoff");
239                         endp = slow(m, m->coldp, endp-1, gf, gl);
240                         if (endp == NULL)
241                                 break;          /* defeat */
242                         /* try it on a shorter possibility */
243 #ifndef NDEBUG
244                         for (i = 1; i <= m->g->nsub; i++) {
245                                 assert(m->pmatch[i].rm_so == -1);
246                                 assert(m->pmatch[i].rm_eo == -1);
247                         }
248 #endif
249                         NOTE("backoff dissect");
250                         dp = backref(m, m->coldp, endp, gf, gl, (sopno)0, 0);
251                 }
252                 assert(dp == NULL || dp == endp);
253                 if (dp != NULL)         /* found a shorter one */
254                         break;
255
256                 /* despite initial appearances, there is no match here */
257                 NOTE("false alarm");
258                 if (m->coldp == stop)
259                         break;
260                 start = m->coldp + 1;   /* recycle starting later */
261         }
262
263         /* fill in the details if requested */
264         if (nmatch > 0) {
265                 pmatch[0].rm_so = m->coldp - m->offp;
266                 pmatch[0].rm_eo = endp - m->offp;
267         }
268         if (nmatch > 1) {
269                 assert(m->pmatch != NULL);
270                 for (i = 1; i < nmatch; i++)
271                         if (i <= m->g->nsub)
272                                 pmatch[i] = m->pmatch[i];
273                         else {
274                                 pmatch[i].rm_so = -1;
275                                 pmatch[i].rm_eo = -1;
276                         }
277         }
278
279         if (m->pmatch != NULL)
280                 free((char *)m->pmatch);
281         if (m->lastpos != NULL)
282                 free((char *)m->lastpos);
283         STATETEARDOWN(m);
284         return(0);
285 }
286
287 /*
288  - dissect - figure out what matched what, no back references
289  */
290 static char *                   /* == stop (success) always */
291 dissect(struct match *m, char *start, char *stop, sopno startst, sopno stopst)
292 {
293         int i;
294         sopno ss;       /* start sop of current subRE */
295         sopno es;       /* end sop of current subRE */
296         char *sp;       /* start of string matched by it */
297         char *stp;      /* string matched by it cannot pass here */
298         char *rest;     /* start of rest of string */
299         char *tail;     /* string unmatched by rest of RE */
300         sopno ssub;     /* start sop of subsubRE */
301         sopno esub;     /* end sop of subsubRE */
302         char *ssp;      /* start of string matched by subsubRE */
303         char *sep;      /* end of string matched by subsubRE */
304         char *oldssp;   /* previous ssp */
305
306         AT("diss", start, stop, startst, stopst);
307         sp = start;
308         for (ss = startst; ss < stopst; ss = es) {
309                 /* identify end of subRE */
310                 es = ss;
311                 switch (OP(m->g->strip[es])) {
312                 case OPLUS_:
313                 case OQUEST_:
314                         es += OPND(m->g->strip[es]);
315                         break;
316                 case OCH_:
317                         while (OP(m->g->strip[es]) != O_CH)
318                                 es += OPND(m->g->strip[es]);
319                         break;
320                 }
321                 es++;
322
323                 /* figure out what it matched */
324                 switch (OP(m->g->strip[ss])) {
325                 case OEND:
326                         assert(nope);
327                         break;
328                 case OCHAR:
329                         sp++;
330                         break;
331                 case OBOL:
332                 case OEOL:
333                 case OBOW:
334                 case OEOW:
335                         break;
336                 case OANY:
337                 case OANYOF:
338                         sp++;
339                         break;
340                 case OBACK_:
341                 case O_BACK:
342                         assert(nope);
343                         break;
344                 /* cases where length of match is hard to find */
345                 case OQUEST_:
346                         stp = stop;
347                         for (;;) {
348                                 /* how long could this one be? */
349                                 rest = slow(m, sp, stp, ss, es);
350                                 assert(rest != NULL);   /* it did match */
351                                 /* could the rest match the rest? */
352                                 tail = slow(m, rest, stop, es, stopst);
353                                 if (tail == stop)
354                                         break;          /* yes! */
355                                 /* no -- try a shorter match for this one */
356                                 stp = rest - 1;
357                                 assert(stp >= sp);      /* it did work */
358                         }
359                         ssub = ss + 1;
360                         esub = es - 1;
361                         /* did innards match? */
362                         if (slow(m, sp, rest, ssub, esub) != NULL) {
363                                 char *dp = dissect(m, sp, rest, ssub, esub);
364                                 assert(dp == rest);
365                         } else          /* no */
366                                 assert(sp == rest);
367                         sp = rest;
368                         break;
369                 case OPLUS_:
370                         stp = stop;
371                         for (;;) {
372                                 /* how long could this one be? */
373                                 rest = slow(m, sp, stp, ss, es);
374                                 assert(rest != NULL);   /* it did match */
375                                 /* could the rest match the rest? */
376                                 tail = slow(m, rest, stop, es, stopst);
377                                 if (tail == stop)
378                                         break;          /* yes! */
379                                 /* no -- try a shorter match for this one */
380                                 stp = rest - 1;
381                                 assert(stp >= sp);      /* it did work */
382                         }
383                         ssub = ss + 1;
384                         esub = es - 1;
385                         ssp = sp;
386                         oldssp = ssp;
387                         for (;;) {      /* find last match of innards */
388                                 sep = slow(m, ssp, rest, ssub, esub);
389                                 if (sep == NULL || sep == ssp)
390                                         break;  /* failed or matched null */
391                                 oldssp = ssp;   /* on to next try */
392                                 ssp = sep;
393                         }
394                         if (sep == NULL) {
395                                 /* last successful match */
396                                 sep = ssp;
397                                 ssp = oldssp;
398                         }
399                         assert(sep == rest);    /* must exhaust substring */
400                         assert(slow(m, ssp, sep, ssub, esub) == rest);
401                         {
402                                 char *dp = dissect(m, ssp, sep, ssub, esub);
403                                 assert(dp == sep);
404                         }
405                         sp = rest;
406                         break;
407                 case OCH_:
408                         stp = stop;
409                         for (;;) {
410                                 /* how long could this one be? */
411                                 rest = slow(m, sp, stp, ss, es);
412                                 assert(rest != NULL);   /* it did match */
413                                 /* could the rest match the rest? */
414                                 tail = slow(m, rest, stop, es, stopst);
415                                 if (tail == stop)
416                                         break;          /* yes! */
417                                 /* no -- try a shorter match for this one */
418                                 stp = rest - 1;
419                                 assert(stp >= sp);      /* it did work */
420                         }
421                         ssub = ss + 1;
422                         esub = ss + OPND(m->g->strip[ss]) - 1;
423                         assert(OP(m->g->strip[esub]) == OOR1);
424                         for (;;) {      /* find first matching branch */
425                                 if (slow(m, sp, rest, ssub, esub) == rest)
426                                         break;  /* it matched all of it */
427                                 /* that one missed, try next one */
428                                 assert(OP(m->g->strip[esub]) == OOR1);
429                                 esub++;
430                                 assert(OP(m->g->strip[esub]) == OOR2);
431                                 ssub = esub + 1;
432                                 esub += OPND(m->g->strip[esub]);
433                                 if (OP(m->g->strip[esub]) == OOR2)
434                                         esub--;
435                                 else
436                                         assert(OP(m->g->strip[esub]) == O_CH);
437                         }
438                         {
439                                 char *dp = dissect(m, sp, rest, ssub, esub);
440                                 assert(dp == rest);
441                         }
442                         sp = rest;
443                         break;
444                 case O_PLUS:
445                 case O_QUEST:
446                 case OOR1:
447                 case OOR2:
448                 case O_CH:
449                         assert(nope);
450                         break;
451                 case OLPAREN:
452                         i = OPND(m->g->strip[ss]);
453                         assert(0 < i && i <= m->g->nsub);
454                         m->pmatch[i].rm_so = sp - m->offp;
455                         break;
456                 case ORPAREN:
457                         i = OPND(m->g->strip[ss]);
458                         assert(0 < i && i <= m->g->nsub);
459                         m->pmatch[i].rm_eo = sp - m->offp;
460                         break;
461                 default:                /* uh oh */
462                         assert(nope);
463                         break;
464                 }
465         }
466
467         assert(sp == stop);
468         return(sp);
469 }
470
471 /*
472  - backref - figure out what matched what, figuring in back references
473  */
474 static char *                   /* == stop (success) or NULL (failure) */
475 backref(struct match *m, char *start, char *stop, sopno startst, sopno stopst,
476     sopno lev, int rec)                 /* PLUS nesting level */
477 {
478         int i;
479         sopno ss;       /* start sop of current subRE */
480         char *sp;       /* start of string matched by it */
481         sopno ssub;     /* start sop of subsubRE */
482         sopno esub;     /* end sop of subsubRE */
483         char *ssp;      /* start of string matched by subsubRE */
484         char *dp;
485         size_t len;
486         int hard;
487         sop s;
488         llvm_regoff_t offsave;
489         cset *cs;
490
491         AT("back", start, stop, startst, stopst);
492         sp = start;
493
494         /* get as far as we can with easy stuff */
495         hard = 0;
496         for (ss = startst; !hard && ss < stopst; ss++)
497                 switch (OP(s = m->g->strip[ss])) {
498                 case OCHAR:
499                         if (sp == stop || *sp++ != (char)OPND(s))
500                                 return(NULL);
501                         break;
502                 case OANY:
503                         if (sp == stop)
504                                 return(NULL);
505                         sp++;
506                         break;
507                 case OANYOF:
508                         cs = &m->g->sets[OPND(s)];
509                         if (sp == stop || !CHIN(cs, *sp++))
510                                 return(NULL);
511                         break;
512                 case OBOL:
513                         if ( (sp == m->beginp && !(m->eflags&REG_NOTBOL)) ||
514                                         (sp < m->endp && *(sp-1) == '\n' &&
515                                                 (m->g->cflags&REG_NEWLINE)) )
516                                 { /* yes */ }
517                         else
518                                 return(NULL);
519                         break;
520                 case OEOL:
521                         if ( (sp == m->endp && !(m->eflags&REG_NOTEOL)) ||
522                                         (sp < m->endp && *sp == '\n' &&
523                                                 (m->g->cflags&REG_NEWLINE)) )
524                                 { /* yes */ }
525                         else
526                                 return(NULL);
527                         break;
528                 case OBOW:
529                         if (( (sp == m->beginp && !(m->eflags&REG_NOTBOL)) ||
530                                         (sp < m->endp && *(sp-1) == '\n' &&
531                                                 (m->g->cflags&REG_NEWLINE)) ||
532                                         (sp > m->beginp &&
533                                                         !ISWORD(*(sp-1))) ) &&
534                                         (sp < m->endp && ISWORD(*sp)) )
535                                 { /* yes */ }
536                         else
537                                 return(NULL);
538                         break;
539                 case OEOW:
540                         if (( (sp == m->endp && !(m->eflags&REG_NOTEOL)) ||
541                                         (sp < m->endp && *sp == '\n' &&
542                                                 (m->g->cflags&REG_NEWLINE)) ||
543                                         (sp < m->endp && !ISWORD(*sp)) ) &&
544                                         (sp > m->beginp && ISWORD(*(sp-1))) )
545                                 { /* yes */ }
546                         else
547                                 return(NULL);
548                         break;
549                 case O_QUEST:
550                         break;
551                 case OOR1:      /* matches null but needs to skip */
552                         ss++;
553                         s = m->g->strip[ss];
554                         do {
555                                 assert(OP(s) == OOR2);
556                                 ss += OPND(s);
557                         } while (OP(s = m->g->strip[ss]) != O_CH);
558                         /* note that the ss++ gets us past the O_CH */
559                         break;
560                 default:        /* have to make a choice */
561                         hard = 1;
562                         break;
563                 }
564         if (!hard) {            /* that was it! */
565                 if (sp != stop)
566                         return(NULL);
567                 return(sp);
568         }
569         ss--;                   /* adjust for the for's final increment */
570
571         /* the hard stuff */
572         AT("hard", sp, stop, ss, stopst);
573         s = m->g->strip[ss];
574         switch (OP(s)) {
575         case OBACK_:            /* the vilest depths */
576                 i = OPND(s);
577                 assert(0 < i && i <= m->g->nsub);
578                 if (m->pmatch[i].rm_eo == -1)
579                         return(NULL);
580                 assert(m->pmatch[i].rm_so != -1);
581                 len = m->pmatch[i].rm_eo - m->pmatch[i].rm_so;
582                 if (len == 0 && rec++ > MAX_RECURSION)
583                         return(NULL);
584                 assert(stop - m->beginp >= len);
585                 if (sp > stop - len)
586                         return(NULL);   /* not enough left to match */
587                 ssp = m->offp + m->pmatch[i].rm_so;
588                 if (memcmp(sp, ssp, len) != 0)
589                         return(NULL);
590                 while (m->g->strip[ss] != SOP(O_BACK, i))
591                         ss++;
592                 return(backref(m, sp+len, stop, ss+1, stopst, lev, rec));
593                 break;
594         case OQUEST_:           /* to null or not */
595                 dp = backref(m, sp, stop, ss+1, stopst, lev, rec);
596                 if (dp != NULL)
597                         return(dp);     /* not */
598                 return(backref(m, sp, stop, ss+OPND(s)+1, stopst, lev, rec));
599                 break;
600         case OPLUS_:
601                 assert(m->lastpos != NULL);
602                 assert(lev+1 <= m->g->nplus);
603                 m->lastpos[lev+1] = sp;
604                 return(backref(m, sp, stop, ss+1, stopst, lev+1, rec));
605                 break;
606         case O_PLUS:
607                 if (sp == m->lastpos[lev])      /* last pass matched null */
608                         return(backref(m, sp, stop, ss+1, stopst, lev-1, rec));
609                 /* try another pass */
610                 m->lastpos[lev] = sp;
611                 dp = backref(m, sp, stop, ss-OPND(s)+1, stopst, lev, rec);
612                 if (dp == NULL)
613                         return(backref(m, sp, stop, ss+1, stopst, lev-1, rec));
614                 else
615                         return(dp);
616                 break;
617         case OCH_:              /* find the right one, if any */
618                 ssub = ss + 1;
619                 esub = ss + OPND(s) - 1;
620                 assert(OP(m->g->strip[esub]) == OOR1);
621                 for (;;) {      /* find first matching branch */
622                         dp = backref(m, sp, stop, ssub, esub, lev, rec);
623                         if (dp != NULL)
624                                 return(dp);
625                         /* that one missed, try next one */
626                         if (OP(m->g->strip[esub]) == O_CH)
627                                 return(NULL);   /* there is none */
628                         esub++;
629                         assert(OP(m->g->strip[esub]) == OOR2);
630                         ssub = esub + 1;
631                         esub += OPND(m->g->strip[esub]);
632                         if (OP(m->g->strip[esub]) == OOR2)
633                                 esub--;
634                         else
635                                 assert(OP(m->g->strip[esub]) == O_CH);
636                 }
637                 break;
638         case OLPAREN:           /* must undo assignment if rest fails */
639                 i = OPND(s);
640                 assert(0 < i && i <= m->g->nsub);
641                 offsave = m->pmatch[i].rm_so;
642                 m->pmatch[i].rm_so = sp - m->offp;
643                 dp = backref(m, sp, stop, ss+1, stopst, lev, rec);
644                 if (dp != NULL)
645                         return(dp);
646                 m->pmatch[i].rm_so = offsave;
647                 return(NULL);
648                 break;
649         case ORPAREN:           /* must undo assignment if rest fails */
650                 i = OPND(s);
651                 assert(0 < i && i <= m->g->nsub);
652                 offsave = m->pmatch[i].rm_eo;
653                 m->pmatch[i].rm_eo = sp - m->offp;
654                 dp = backref(m, sp, stop, ss+1, stopst, lev, rec);
655                 if (dp != NULL)
656                         return(dp);
657                 m->pmatch[i].rm_eo = offsave;
658                 return(NULL);
659                 break;
660         default:                /* uh oh */
661                 assert(nope);
662                 break;
663         }
664
665         /* "can't happen" */
666         assert(nope);
667         /* NOTREACHED */
668         return NULL;
669 }
670
671 /*
672  - fast - step through the string at top speed
673  */
674 static char *                   /* where tentative match ended, or NULL */
675 fast(struct match *m, char *start, char *stop, sopno startst, sopno stopst)
676 {
677         states st = m->st;
678         states fresh = m->fresh;
679         states tmp = m->tmp;
680         char *p = start;
681         int c = (start == m->beginp) ? OUT : *(start-1);
682         int lastc;      /* previous c */
683         int flagch;
684         int i;
685         char *coldp;    /* last p after which no match was underway */
686
687         CLEAR(st);
688         SET1(st, startst);
689         st = step(m->g, startst, stopst, st, NOTHING, st);
690         ASSIGN(fresh, st);
691         SP("start", st, *p);
692         coldp = NULL;
693         for (;;) {
694                 /* next character */
695                 lastc = c;
696                 c = (p == m->endp) ? OUT : *p;
697                 if (EQ(st, fresh))
698                         coldp = p;
699
700                 /* is there an EOL and/or BOL between lastc and c? */
701                 flagch = '\0';
702                 i = 0;
703                 if ( (lastc == '\n' && m->g->cflags&REG_NEWLINE) ||
704                                 (lastc == OUT && !(m->eflags&REG_NOTBOL)) ) {
705                         flagch = BOL;
706                         i = m->g->nbol;
707                 }
708                 if ( (c == '\n' && m->g->cflags&REG_NEWLINE) ||
709                                 (c == OUT && !(m->eflags&REG_NOTEOL)) ) {
710                         flagch = (flagch == BOL) ? BOLEOL : EOL;
711                         i += m->g->neol;
712                 }
713                 if (i != 0) {
714                         for (; i > 0; i--)
715                                 st = step(m->g, startst, stopst, st, flagch, st);
716                         SP("boleol", st, c);
717                 }
718
719                 /* how about a word boundary? */
720                 if ( (flagch == BOL || (lastc != OUT && !ISWORD(lastc))) &&
721                                         (c != OUT && ISWORD(c)) ) {
722                         flagch = BOW;
723                 }
724                 if ( (lastc != OUT && ISWORD(lastc)) &&
725                                 (flagch == EOL || (c != OUT && !ISWORD(c))) ) {
726                         flagch = EOW;
727                 }
728                 if (flagch == BOW || flagch == EOW) {
729                         st = step(m->g, startst, stopst, st, flagch, st);
730                         SP("boweow", st, c);
731                 }
732
733                 /* are we done? */
734                 if (ISSET(st, stopst) || p == stop)
735                         break;          /* NOTE BREAK OUT */
736
737                 /* no, we must deal with this character */
738                 ASSIGN(tmp, st);
739                 ASSIGN(st, fresh);
740                 assert(c != OUT);
741                 st = step(m->g, startst, stopst, tmp, c, st);
742                 SP("aft", st, c);
743                 assert(EQ(step(m->g, startst, stopst, st, NOTHING, st), st));
744                 p++;
745         }
746
747         assert(coldp != NULL);
748         m->coldp = coldp;
749         if (ISSET(st, stopst))
750                 return(p+1);
751         else
752                 return(NULL);
753 }
754
755 /*
756  - slow - step through the string more deliberately
757  */
758 static char *                   /* where it ended */
759 slow(struct match *m, char *start, char *stop, sopno startst, sopno stopst)
760 {
761         states st = m->st;
762         states empty = m->empty;
763         states tmp = m->tmp;
764         char *p = start;
765         int c = (start == m->beginp) ? OUT : *(start-1);
766         int lastc;      /* previous c */
767         int flagch;
768         int i;
769         char *matchp;   /* last p at which a match ended */
770
771         AT("slow", start, stop, startst, stopst);
772         CLEAR(st);
773         SET1(st, startst);
774         SP("sstart", st, *p);
775         st = step(m->g, startst, stopst, st, NOTHING, st);
776         matchp = NULL;
777         for (;;) {
778                 /* next character */
779                 lastc = c;
780                 c = (p == m->endp) ? OUT : *p;
781
782                 /* is there an EOL and/or BOL between lastc and c? */
783                 flagch = '\0';
784                 i = 0;
785                 if ( (lastc == '\n' && m->g->cflags&REG_NEWLINE) ||
786                                 (lastc == OUT && !(m->eflags&REG_NOTBOL)) ) {
787                         flagch = BOL;
788                         i = m->g->nbol;
789                 }
790                 if ( (c == '\n' && m->g->cflags&REG_NEWLINE) ||
791                                 (c == OUT && !(m->eflags&REG_NOTEOL)) ) {
792                         flagch = (flagch == BOL) ? BOLEOL : EOL;
793                         i += m->g->neol;
794                 }
795                 if (i != 0) {
796                         for (; i > 0; i--)
797                                 st = step(m->g, startst, stopst, st, flagch, st);
798                         SP("sboleol", st, c);
799                 }
800
801                 /* how about a word boundary? */
802                 if ( (flagch == BOL || (lastc != OUT && !ISWORD(lastc))) &&
803                                         (c != OUT && ISWORD(c)) ) {
804                         flagch = BOW;
805                 }
806                 if ( (lastc != OUT && ISWORD(lastc)) &&
807                                 (flagch == EOL || (c != OUT && !ISWORD(c))) ) {
808                         flagch = EOW;
809                 }
810                 if (flagch == BOW || flagch == EOW) {
811                         st = step(m->g, startst, stopst, st, flagch, st);
812                         SP("sboweow", st, c);
813                 }
814
815                 /* are we done? */
816                 if (ISSET(st, stopst))
817                         matchp = p;
818                 if (EQ(st, empty) || p == stop)
819                         break;          /* NOTE BREAK OUT */
820
821                 /* no, we must deal with this character */
822                 ASSIGN(tmp, st);
823                 ASSIGN(st, empty);
824                 assert(c != OUT);
825                 st = step(m->g, startst, stopst, tmp, c, st);
826                 SP("saft", st, c);
827                 assert(EQ(step(m->g, startst, stopst, st, NOTHING, st), st));
828                 p++;
829         }
830
831         return(matchp);
832 }
833
834
835 /*
836  - step - map set of states reachable before char to set reachable after
837  */
838 static states
839 step(struct re_guts *g,
840     sopno start,                /* start state within strip */
841     sopno stop,                 /* state after stop state within strip */
842     states bef,                 /* states reachable before */
843     int ch,                     /* character or NONCHAR code */
844     states aft)                 /* states already known reachable after */
845 {
846         cset *cs;
847         sop s;
848         sopno pc;
849         onestate here;          /* note, macros know this name */
850         sopno look;
851         int i;
852
853         for (pc = start, INIT(here, pc); pc != stop; pc++, INC(here)) {
854                 s = g->strip[pc];
855                 switch (OP(s)) {
856                 case OEND:
857                         assert(pc == stop-1);
858                         break;
859                 case OCHAR:
860                         /* only characters can match */
861                         assert(!NONCHAR(ch) || ch != (char)OPND(s));
862                         if (ch == (char)OPND(s))
863                                 FWD(aft, bef, 1);
864                         break;
865                 case OBOL:
866                         if (ch == BOL || ch == BOLEOL)
867                                 FWD(aft, bef, 1);
868                         break;
869                 case OEOL:
870                         if (ch == EOL || ch == BOLEOL)
871                                 FWD(aft, bef, 1);
872                         break;
873                 case OBOW:
874                         if (ch == BOW)
875                                 FWD(aft, bef, 1);
876                         break;
877                 case OEOW:
878                         if (ch == EOW)
879                                 FWD(aft, bef, 1);
880                         break;
881                 case OANY:
882                         if (!NONCHAR(ch))
883                                 FWD(aft, bef, 1);
884                         break;
885                 case OANYOF:
886                         cs = &g->sets[OPND(s)];
887                         if (!NONCHAR(ch) && CHIN(cs, ch))
888                                 FWD(aft, bef, 1);
889                         break;
890                 case OBACK_:            /* ignored here */
891                 case O_BACK:
892                         FWD(aft, aft, 1);
893                         break;
894                 case OPLUS_:            /* forward, this is just an empty */
895                         FWD(aft, aft, 1);
896                         break;
897                 case O_PLUS:            /* both forward and back */
898                         FWD(aft, aft, 1);
899                         i = ISSETBACK(aft, OPND(s));
900                         BACK(aft, aft, OPND(s));
901                         if (!i && ISSETBACK(aft, OPND(s))) {
902                                 /* oho, must reconsider loop body */
903                                 pc -= OPND(s) + 1;
904                                 INIT(here, pc);
905                         }
906                         break;
907                 case OQUEST_:           /* two branches, both forward */
908                         FWD(aft, aft, 1);
909                         FWD(aft, aft, OPND(s));
910                         break;
911                 case O_QUEST:           /* just an empty */
912                         FWD(aft, aft, 1);
913                         break;
914                 case OLPAREN:           /* not significant here */
915                 case ORPAREN:
916                         FWD(aft, aft, 1);
917                         break;
918                 case OCH_:              /* mark the first two branches */
919                         FWD(aft, aft, 1);
920                         assert(OP(g->strip[pc+OPND(s)]) == OOR2);
921                         FWD(aft, aft, OPND(s));
922                         break;
923                 case OOR1:              /* done a branch, find the O_CH */
924                         if (ISSTATEIN(aft, here)) {
925                                 for (look = 1;
926                                                 OP(s = g->strip[pc+look]) != O_CH;
927                                                 look += OPND(s))
928                                         assert(OP(s) == OOR2);
929                                 FWD(aft, aft, look);
930                         }
931                         break;
932                 case OOR2:              /* propagate OCH_'s marking */
933                         FWD(aft, aft, 1);
934                         if (OP(g->strip[pc+OPND(s)]) != O_CH) {
935                                 assert(OP(g->strip[pc+OPND(s)]) == OOR2);
936                                 FWD(aft, aft, OPND(s));
937                         }
938                         break;
939                 case O_CH:              /* just empty */
940                         FWD(aft, aft, 1);
941                         break;
942                 default:                /* ooooops... */
943                         assert(nope);
944                         break;
945                 }
946         }
947
948         return(aft);
949 }
950
951 #ifdef REDEBUG
952 /*
953  - print - print a set of states
954  */
955 static void
956 print(struct match *m, char *caption, states st, int ch, FILE *d)
957 {
958         struct re_guts *g = m->g;
959         int i;
960         int first = 1;
961
962         if (!(m->eflags&REG_TRACE))
963                 return;
964
965         (void)fprintf(d, "%s", caption);
966         if (ch != '\0')
967                 (void)fprintf(d, " %s", pchar(ch));
968         for (i = 0; i < g->nstates; i++)
969                 if (ISSET(st, i)) {
970                         (void)fprintf(d, "%s%d", (first) ? "\t" : ", ", i);
971                         first = 0;
972                 }
973         (void)fprintf(d, "\n");
974 }
975
976 /* 
977  - at - print current situation
978  */
979 static void
980 at(struct match *m, char *title, char *start, char *stop, sopno startst,
981     sopno stopst)
982 {
983         if (!(m->eflags&REG_TRACE))
984                 return;
985
986         (void)printf("%s %s-", title, pchar(*start));
987         (void)printf("%s ", pchar(*stop));
988         (void)printf("%ld-%ld\n", (long)startst, (long)stopst);
989 }
990
991 #ifndef PCHARDONE
992 #define PCHARDONE       /* never again */
993 /*
994  - pchar - make a character printable
995  *
996  * Is this identical to regchar() over in debug.c?  Well, yes.  But a
997  * duplicate here avoids having a debugging-capable regexec.o tied to
998  * a matching debug.o, and this is convenient.  It all disappears in
999  * the non-debug compilation anyway, so it doesn't matter much.
1000  */
1001 static char *                   /* -> representation */
1002 pchar(int ch)
1003 {
1004         static char pbuf[10];
1005
1006         if (isprint(ch) || ch == ' ')
1007                 (void)snprintf(pbuf, sizeof pbuf, "%c", ch);
1008         else
1009                 (void)snprintf(pbuf, sizeof pbuf, "\\%o", ch);
1010         return(pbuf);
1011 }
1012 #endif
1013 #endif
1014
1015 #undef  matcher
1016 #undef  fast
1017 #undef  slow
1018 #undef  dissect
1019 #undef  backref
1020 #undef  step
1021 #undef  print
1022 #undef  at
1023 #undef  match
1024 #undef  nope