Прытков В.А. Конспект лекций по дисциплине Системное программное обеспечение ЭВМ

Подождите немного. Документ загружается.

подстроку, повторение которой произвольное кол-во раз порождает новые строки того же языка. Если для данного языка

выполняется эта лемма, то он регулярный, ели не выполняется, то он нерегулярный. Например, язык L={0

| m,n≥0} регу-

лярный, а язык L={0

| n≥1} нерегулярный.

Доказано, что для регулярных языков разрешимы следующие проблемы:

- проблема эквивалентности. Даны два регулярных языка L

(A) и L

(A). Существует алгоритм проверки их на эквивалент-

ность.

- Проблема принадлежности цепочки языку. Дан регулярный язык L(A) и цепочка α∈А

. Существует алгоритм проверки

цепочки на принадлежность языку.

- Проблема пустоты языка. Дан регулярный язык L(A). Существует алгоритм проверки, является ли этот язык пустым, т.е.

существует ли хотя бы одна цепочка α≠λ, α∈L(A).

Регулярные (праволинейные и леволинейные) грамматики , конечные автоматы и регулярные множества (регулярные выра-

жения) – это три способа задания регулярных языков.

Преобразование регулярной грамматики к автоматному виду.

Имеется регулярная грамматика G(T,N,P,S), надо преобразовать ее в почти эквивалентную автоматную грамматику

G’(T’,N’,P’,S’). Будем использовать леволинейную грамматику. Алгоритм преобразования:

1) ∀A∈N, N’=N’∪{A}. Т.е. все нетерминальные символы грамматики G переносятся в новую грамматику G’.

2) ∀a∈T, T’=T’∪{a}. Т.е. все терминальные символы грамматики G переносятся в новую грамматику G’.

3) ∀p

∈P: А→Вa

, либо А→a

, A,B∈N, a

∈T ⇒ P’=P’∪{p

}. Т.е. правила этого вида переносятся в G’ без изменений.

4) ∀p

∈P: А→Вa

…a

, n>1, A,B∈N, a

∈T, k=1,2,…,n ⇒

N’=N’∪{A

,…,A

n-1

}, P’=P’∪{A

→A

k-1

, k=1,2,…,n, где A

=A, A

=B}. Добавляется n-1 нетерминал и n новых правил.

5) ∀p

∈P: А→a

…a

, n>1, A∈N, a

∈T, k=1,2,…,n ⇒

N’=N’∪{A

,…,A

n-1

}, P’=P’∪{A

→A

k-1

, k=1,2,…,n, где A

=A, A

=λ}. Добавляется n-1 нетерминал и n новых правил.

6) ∀p

∈P: А→B, либо А→λ, A,B∈N ⇒ P’=P’∪{p

}. Т.е. правила этого вида переносятся в G’ без изменений.

7) ∀p

∈P’: А→B, и ∃ B→C | B→Ca | B→a | B→λ, ∀A,B,C∈N’, a∈T’ ⇒ P’=P’∪{A→C}|{A→Ca}|{A→a}|{A→λ} соответст-

венно. P’=P’\{А→B}. Т.е. правило заменяется “синонимами” и удаляется.

8) ∀p

∈P’: А→λ, и ∃ B→A | B→Aa, ∀A,B,∈N’, A≠S, a∈T’ ⇒ P’=P’∪{B→λ}|{B→a} соответственно. P’=P’\{А→λ}. Т.е. пра-

вило заменяется “синонимами” и удаляется.

9) Если шаги 7,8 были выполнены хотя бы для одного правила, то вернуться к шагу 7

10) S’=S. Т.е. аксиома сохраняется.

Если грамматика не содержит цепных правил вида А→B, либо А→λ то шаги 6-9 не выполняются. Как правило, реальные

регулярные грамматики не содержат цепных правил.

Пример. Грамматика описывает строковые выражения, соответствующие комментариям в С.

G({/,*,a,↓,←},{S,C,K},P,{S}), здесь ↓ - символ перевода строки (chr(13)), ← - символ возврата каретки (chr(10)), a – любой

символ, кроме /,*,↓,←. Парой ↓,← в текстовых файлах отмечается конец строки.

P: S → C*/ | K↓←

C → /* | C/ | C* | Ca | C↓←

K → // | K/ | K* | Ka

1. N’={S,C,K}

2. T’={/,*,a,↓,←}

3. P’=P’∪{ C → C/ | C* | Ca, K → K/ | K* | Ka }

4. А→Вa

…a

, ⇒ N’=N’∪{A

,…,A

n-1

}, P’=P’∪{A

→A

k-1

, k=1,2,…,n, где A

=A, A

=B}.

4.1. S → C*/ : N’=N’∪{A

}, A

→A

k-1

, A

=A, A

=B : A

→A

*, A

→A

/ ⇒ A

→C*, S→A

/ ⇒ P’=P’∪{ A

→C*, S→A

/}.

4.2. S → K↓← : N’=N’∪{A

}, P’=P’∪{ A

→K↓, S→A

←}.

4.3. C → C↓← : N’=N’∪{A

}, P’=P’∪{ A

→C↓, C→A

←}.

5. А→a

…a

, ⇒ N’=N’∪{A

,…,A

n-1

}, P’=P’∪{A

→A

k-1

, k=1,2,…,n, где A

=A, A

=λ}.

5.1. C → /* : N’=N’∪{A

}, A

→A

k-1

, A

=A, A

=λ : A

→A

/, A

→A

* ⇒ A

→/, C→A

* ⇒ P’=P’∪{ A

→/, C→A

*}.

5.2. K → // : N’=N’∪{A

}, P’=P’∪{ A

→/, K→A

/}.

6-9. Правил вида А→B, либо А→λ нет

10. S’={S}

G’=({/,*,a,↓,←}, {S,C,K,A

}, P’, S) G’=({/,*,a,↓,←}, {S,C,K,A,B,D,E}, P’, S)

P’: S → A

/ | A

← P’= S → A/ | B←

C → C/ | C* | Ca | A

← | A

* C → C/ | C* | Ca | D← | E*

K → K/ | K* | Ka | A

/ K → K/ | K* | Ka | E/

→ C* A → C*

→ K↓ B → K↓

→ C↓ D → C↓

→ / E → /

→ /

Построение регулярного выражения, соответствующего регулярной грамматике. В общем виде алгоритм состоит из

двух частей: строится система уравнений с регулярными коэффициентами; решается полученная система, решение, соответ-

ствующее аксиоме грамматики и будет искомым регулярным выражением:

1. Переименовываются нетерминальные символы грамматики: N={X

, X

, … X

}, соответственно правила грамматики пере-

писываются в виде: X

→ X

γ, X

→ γ, X

, X

∈N, γ∈T

. Для праволинейной грамматики нетерминалы и терминальные цепочки

в правой части меняются местами.

2. Строится система УРК:

= α

+ X

+ … + X

= α

+ X

+ … + X

…

= α

+ X

+ … + X

Коэффициенты α

выбираются следующим образом: α

= (γ

| γ

| … | γ

) | ∀p∈P: X

→ X

| X

| … | X

, i>0, j≥0, X

= λ.

Если правил такого вида в грамматике не существует, то α

=∅. Для праволинейной грамматики нетерминалы и терминаль-

ные цепочки в правой части меняются местами.

3. Решается система уравнений:

3.1. i=0;

3.2. i++; Уравнение для X

переписывается в виде X

= X

+ β

, β

=α

+ X

i+1

ii+1

+ … + X

3.3. Находится решение уравнения в виде X

= β

=(α

+ X

i+1

ii+1

+ … + X

)α

, для праволинейной грамматики решение

будет в виде X

= α

.Следует отметить, что если i=n, то решение для X

будет конечным, т.е. α

и β

не будут содержать в

своем составе переменных X

3.4. ∀k | i<k≤n, в уравнениях для X

выполняется подстановка вида X

→ β

3.5. Если i<n, перейти к шагу 3.2.

3.6. i--

3.7. ∀k | i<k≤n, в уравнениях для X

выполняется подстановка окончательных решений для X

3.8. Если i>1, перейти к шагу 3.6.

3.9. Решение для X

, соответствующего аксиоме грамматики, и будет искомым регулярным выражением.

Пример. Грамматика описывает объявление многомерных массивов в С.

G({[,],n,i,0},{R,L,K},P,{R}), здесь n – любой символ 1..9, 0 не включается, чтобы исключить объявления вида x[0], i – иден-

тификатор.

P: R → L]

L → L0 | Ln | Kn

K → i[ | R[

1. R=X

, L=X

, K=X

; P: X

→ X

]; X

→ X

0 | X

n | X

n; X

→ i[ | X

[ .

2. X

= X

] = ∅ + X

∅ + X

] + X

∅

= X

0 + X

n + X

n = ∅ + X

∅ + X

(0+n) + X

= i[ + X

[ = i[ + X

[ + X

∅ + X

∅

3.2. i=1. X

= X

]; α

=∅; β

= X

];

3.3. Решение будет само уравнение X

= X

3.4. В уравнении для Х

подстановки не требуется. X

= i[ + X

[ = i[ + X

][

3.2. i=2. X

= X

0 + X

n + X

n = X

(0+n) + X

n; α

=0+n; β

= X

3.3. Решением будет X

= β

= X

n(0+n)

3.4. X

= i[ + X

][ = i[ + X

n(0+n)

][ .

3.2. i=3. X

= i[ + X

n(0+n)

][ = X

n(0+n)

][ + i[ ; α

= n(0+n)

][ ; β

= i[ .

3.3. Решением будет X

= β

= i[ (n(0+n)

][)

3.7. i=2. X

= X

n(0+n)

= i[ (n(0+n)

][)

n(0+n)

3.7. i=1. X

= X

] = i[ (n(0+n)

][)

n(0+n)

]

3.9. Аксиоме соответствует Х

. Следовательно грамматике соответствует регулярное выражение для Х

: =

i[(n(0|n)

][)

n(0|n)

Конечные автоматы

Конечные автоматы. Детерминированные и недетерминированные КА. Диаграмма состояний КА. Связь КА и синтаксиче-

ских диаграмм. Построение КА на основе леволинейной и праволинейной грамматик. Построение леволинейной и праволи-

нейной грамматик на основе КА. Преобразование КА к детерминированному виду. Минимизация КА. Устранение недости-

жимых и эквивалентных состояний КА. Автоматизация построения лексических анализаторов. Программа LEX

Конечные автоматы.

Конечным автоматом называется пятерка следующего вида: M (Q, V, δ, q

, F), где Q – конечное множество состояний авто-

мата, V – конечное множество допустимых входных символов (алфавит автомата), δ - функция переходов, отображающая

декартово произведение множеств V

Q во множество подмножеств Q: δ(a,q)=R, a∈V, q∈Q, R⊆Q; q

– начальное состояние

автомата, q

∈Q; F – непустое множество конечных состояний автомата, F⊆Q, F≠∅.

КА полностью определен, если в каждом его состоянии существует функция перехода для всех возможных входных симво-

лов: ∀a∈V, ∀q∈Q ∃ δ(a,q)=R, R⊆Q.

В начале работы автомат всегда находится в состоянии q

. На каждом такте он под воздействием очередного символа вход-

ной цепочки либо переходит в новое состояние либо остается в текущем. Если функция перехода допускает несколько воз-

можных состояний, то КА может перейти в любое из них. Работа КА продолжается до тех пор, пока на его вход поступают

символы из входной цепочки.

КА M (Q, V, δ, q

, F) принимает цепочку символов ω∈V

, если получив на вход эту цепочку, он из начального состояния

может перейти в одно из конечных состояний f∈F. Язык L(M), заданный КА – это множество всех цепочек символов, ко-

торые принимаются этим автоматом. Два КА эквивалентны, если они задают один и тот же язык. Все КА являются распо-

знавателями для регулярных языков.

Граф переходов КА – это ориентированный граф, в котором состояния

КА соответствуют вершинам, а переходам δ(p,a)=q, a∈V, p,q∈Q -

дугам (p,q), помеченным символом а. Вершины, соответствующие

начальному и конечным состояниям, выделяются, обычно двойной

границей. На рисунке представлен КА: M({H,A,B,S},{a,b},δ,H,{S}). δ:

δ(H,b)=B, δ(B,a)=A, δ(A,b)={B,S}. Чтобы исключить ситуации, из

которых нет переходов по входным символам, в КА добавляют еще одно

состояние, на которое замыкают все неопределенные переходы,

преобразуя автомат к полностью определенному виду. Это

дополнительное состояние соответствует состоянию ошибки.

КА M (Q, V, δ, q

, F) называется детерминированным КА, если ∀a∈V,

∀q∈Q: δ(q,a)={r}, r∈Q либо δ(q,a)=∅, т.е. в каждом из его состояний

для любого входного символа функция перехода содержит не более

одного состояния. Иначе КА недетерминированный.

Связь КА и синтаксических диаграмм.

Построение КА по леволинейной грамматике. Имеется леволинейная грамматика G(T,N,P,S), задающая язык L(G). Необ-

ходимо построить эквивалентный ей КА M(Q,V,δ,q

,F), задающий тот же язык L(M)=L(G). Задача решается в 2 этапа. 1. Ис-

ходная леволинейная грамматика G приводится к автоматному виду G’. 2. Искомый автомат M(Q,V,δ,q

,F) строится на осно-

ве полученной автоматной грамматики G’(T’,N’,P’,S’). Алгоритм построения КА:

1) Q=N∪{H}. Множество состояний соответствует нетерминальным символам грамматики, к которым добавляется еще

один символ H.

2) V=T. Входной алфавит соответствует множеству терминальных символов.

3) ∀p

∈P: A→t, A∈N, t∈T ⇒ δ(H,t)= δ(H,t)∪{A}. В функцию переходов для состояния H добавляется состояние А.

4) ∀p

∈P: A→Bt, A,B∈N, t∈T ⇒ δ(B,t)= δ(B,t)∪{A}. В функцию переходов для состояния B добавляется состояние А.

5) q

=H. Начальное состояние соответствует добавленному на первом шаге состоянию Н.

6) F={S}. Множество конечных состояний соответствует аксиоме S.

Пример.

G=({/,*,a,↓,←}, {S,C,K,A,B,D,E}, P, S)

Р= { S → A/ | B←; C → C/ | C* | Ca | D← | E*; K → K/ | K* | Ka | E/; A → C*; B → K↓; D → C↓; E → / }

1. Q={S,C,K,A,B,D,E,H}

2. V={/,*,a,↓,←}

3. E → / ⇒ δ(H,/)= δ(H,/)∪{E}.

4.1. S → A/ ⇒ δ(A,/)= δ(A,/)∪{S}; S → B← ⇒ δ(B, ←)= δ(B, ←)∪{S}

4.2. δ(C,/)= δ(C,/)∪{C}; δ(C,*)= δ(C,*)∪{C}; δ(C,a)= δ(C,a)∪{C}; δ(D, ←)= δ(D, ←)∪{C}; δ(E,*)= δ(E*,)∪{C}

4.3. δ(K,/)= δ(K,/)∪{K}; δ(K,*)= δ(K,*)∪{K}; δ(K,a)= δ(K,a)∪{K}; δ(E,/)= δ(E,/)∪{K}

4.4. δ(C,*)= δ(C,*)∪{A}; δ(K,↓)= δ(K,↓)∪{B}; δ(C,↓)= δ(C,↓)∪{D}

5. q

6. F={S}

S C K A B D E H

C K S K E

C,A K C

C K

↓

D B

←

S C

Видно, что автомат недетерминированный, т.к. δ(С,*)={C,A}.

Колонки, соответствующие конечному состоянию в общем случае

могут и не быть пустыми. Автомат не полностью определен.

Построим граф.

Построение КА по праволинейной грамматике. Имеется праволинейная грамматика G(T,N,P,S), задающая язык L(G). Не-

обходимо построить эквивалентный ей КА M(Q,V,δ,q

,F), задающий тот же язык L(M)=L(G). Аналогично предыдущему слу-

чаю, исходная грамматика приводится к автоматному виду, после чего строится автомат. Алгоритм построения КА:

1) Q=N∪{H}. Множество состояний соответствует нетерминальным символам грамматики, к которым добавляется еще

один символ H.

2) V=T. Входной алфавит соответствует множеству терминальных символов.

3) ∀p

∈P: A→t, A∈N, t∈T ⇒ δ(A,t)= δ(A,t)∪{H}. В функцию переходов для состояния A добавляется состояние H.

4) ∀p

∈P: A→tB, A,B∈N, t∈T ⇒ δ(A,t)= δ(A,t)∪{B}. В функцию переходов для состояния A добавляется состояние B.

5) q

=S. Начальное состояние соответствует аксиоме S.

6) F={H}. Множество конечных состояний соответствует добавленному на первом шаге состоянию Н.

Построение леволинейной грамматики по КА. Имеется КА M(Q,V,δ,q

,F), определяющий язык L(M). Необходимо по-

строить эквивалентную ему леволинейную грамматику G(T,N,P,S), задающую тот же язык L(G)=L(M). Алгоритм построения

леволинейной грамматики:

1) T=V. Множество терминальных символов строится из входного алфавита автомата.

2) N=Q\{q

}. Множество нетерминалов грамматики соответствует множеству состояний автомата за исключением началь-

ного.

3) A

= q

| δ(A

,t)={B

, B

,…, B

}, n>0, B

∈Q, k=1,2,..,n, t∈V ⇒ P=P∪{B

→t}. Пополняется множество правил.

4) ∀A

≠ q

, A

∈Q| δ(A

,t)={B

, B

,…, B

}, n>0, B

∈Q, k=1,2,..,n, t∈V ⇒ P=P∪{B

→A

t}. Пополняется множество правил.

5) Если F={F

} ⇒ S={F

}. Если у автомата одно конечное состояние, оно становится аксиомой грамматики.

6) Если F={F

, F

,…, F

}, n>1 ⇒ N=N∪{S}, P=P∪{S→F

| F

|…| F

}. Если у автомата несколько конечных состояний, то

добавляется новый нетерминал S, и пополняется множество правил.

Построение праволинейной грамматики по КА. Имеется КА M(Q,V,δ,q

,F), определяющий язык L(M). Необходимо по-

строить эквивалентную ему праволинейную грамматику G(T,N,P,S), задающую тот же язык L(G)=L(M). Алгоритм:

1) T=V. Множество терминальных символов строится из входного алфавита автомата.

2) N=Q. Множество нетерминалов грамматики соответствует множеству состояний автомата.

3) ∀A

∈Q: δ(A

,t)={B

, B

,…, B

}, n>0, B

∈Q, B

∉F, k=1,2,..,n, t∈V ⇒ P=P∪{A

→tB

}. Пополняется множество правил.

4) ∀A

∈Q: δ(A

,t)={B

, B

,…, B

}, n>0, B

∈Q, B

∈F, k=1,2,..,n, t∈V ⇒ P=P∪{A

→t}. Пополняется множество правил.

5) ∀A

∈Q: δ(A

,t)={B

, B

,…, B

}, n>0, B

∈Q, B

∈F, k=1,2,..,n, t∈V, ∃δ(B

,t’)={C

, C

,…, C

} C

∈Q, q=1,2,..,m, t’∈V ⇒

P=P∪{A

→tB

}. Пополняется множество правил, если есть переходы из конечных состояний.

6) S={q

}

Пример.

M({S,C,K,A,B,D,E,H},{/,*,a,↓,←},δ,H,{S})

S C K A B D E H

C K S K E

C,A K C

C K

↓

D B

←

S C

1. T={/,*,a,↓,←}

2. N={S,C,K,A,B,D,E,H}

3.1. δ(C,/)={C} ⇒ P=P∪{C→/C}; δ(C,*)={C,A} ⇒ P=P∪{C→*C | *A};

P=P∪{C→aC}; P=P∪{C→↓D};

3.2. P=P∪{K→/K | *K | aK | ↓B};

3.3. P=P∪{D→←С};

3.4. P=P∪{E→/K | *C};

3.5. P=P∪{H→/E}

4. δ(A,/)={S} ⇒ P=P∪{A→/}; δ(B,←)={S} ⇒ P=P∪{B→←}.

5. Если бы из состояния S были переходы, то добавились бы A→/S; B→←S.

6. S={H}

P: {A→/; B→←; C→/C | *C | *A | aC | ↓D; K→/K | *K | aK | ↓B; D→←С; E→/K | *C; H→/E;}

Преобразование КА к детерминированному виду. Для любого КА можно построить эквивалентный ему ДКА. Алгоритм

преобразования КА M(Q,V,δ,q

,F) в эквивалентный ему ДКА M’(Q’,V’,δ’,q

’,F’):

1) V’=V;

2) q

’= q

;

3) Q’={q

}; Начинаем с начального состояния

4) ∀q

’∈Q’ ⇒ δ(q

’, v

’)= ∪{δ(q

)}=q

’, q

∈q

’, j=1,2,..,|V|; Q’=Q’∪q

’; Итерационно формируем новые состояния и пере-

ходы;

5) ∀q

’∈Q’, q

∈F, q

∈q

’ ⇒ F’=F’∪{q

’}; Множество конечных состояний.

Пример. ИД см выше.

1. V’={/,*,a,↓,←};

2. q

’={H};

3-4.

H E K C B C,A D S C,S

H E K C B A D S G

E K K C C,S C

E K K C G C

C K C,A C,A C,A

C K A A A

K C C C

↓

B D D D

↓

B D D D

←

S C

←

S C

5. F’={{S},{CS}}; F’={S,G};

Минимизация КА. Минимизация заключается в построении

эквивалентного КА с меньшим числом состояний. Рассмотрим два

алгоритма: устранение недостижимых состояний и объединение

эквивалентных состояний. Состояние q∈Q КА M(Q,V,δ,q

,F)

недостижимое, если при ∀ω∈V

невозможен переход КА из начального

состояния в состояние q. Алгоритм устранения недостижимых состояний:

1) Q’={q

};

2) ∀q

∈Q’: δ(q

, v

)=q

, k=1,2,..,|V|; ⇒ Q’=Q’∪q

Т.е. итерационно

включаются все состояния, в которые можно попасть из начального;

3) δ’=δ’∪δ(q

), ∀q

∈Q’; т.е. остаются только соответствующие им

переходы;

4) F’=F∩Q’.

Состояния q, q’∈Q называются n-эквивалентными, n≥0, если, находясь в одном из этих состояний и получив на вход про-

извольную цепочку ω∈V

, |ω|≤n, КА может перейти в одно и то же множество конечных состояний. 0-эквивалентными со-

стояниями КА будут F и Q\F. Множества эквивалентных состояний называются классами эквивалентности, а их совокуп-

ность – множеством классов эквивалентности R(n), и R(0)={F, Q\F}. Алгоритм построения эквивалентных состояний:

1) n=0, Строится R(n)

2) n=n+1. Строится R(n): R(n)={r

(n): {q

∈Q: ∀a∈V, δ(q

,a) ⊆ r

(n-1)}}. Т.е. в новые классы входят те состояния,, которые для

одних и тех же входных символов переходят в одно и то же n-1 эквивалентные состояния.

3) Если R(n)≠R(n-1), то повторить шаг 2.

Далее каждый класс эквивалентности становится состоянием минимизированного КА, функции переходов в котором строят-

ся очевидным образом.

Пример. М({A,B,C,D,E,F,G}, {0,1}, δ, A ,{D, E})

A B C D E F G

B C B D F

C D E E D G F

1. Q’={A};

2.1. Q’=Q’∪{B,C}

2.2. Q’=Q’∪{D,E}

2.3. Q’=Q’∪{B,C,D,E}

4. F’={DE}∩{A,B,C,D,E}={D,E}

1. R(0)={{A,B,C},{D,E}}

2. R(1)={0:{A},{BC},{D,E}; 1:{A},{BC},{D,E}};

3. R(2)={0:{A},{BC},{D,E}; 1:{A},{BC},{D,E}}.

Лексический анализ используется не только при построении компиляторов, но и в различных других областях, связанных с

обработкой текста. Например, подсветка синтаксиса ЯП в текстовом редакторе, командные процессоры. Поскольку задачи

лексического анализа четко формализуются, имеется возможность автоматизировать процесс разработки ЛА. Самой извест-

ной программой подобного рода является LEX. Входной язык содержит описания лексем в терминах регулярных выраже-

ний. Результатом является программа на каком-либо ЯП, которая позволяет читать входной файл (или стандартный поток

ввода) и выделять из него лексемы, соответствующие заданным регулярным выражениям. Полученный код сканера можно

дополнять необходимыми функциями по усмотрению разработчика.

КС-грамматики. Приведение КС-грамматик

Контекстно-свободные языки. Лемма о разрастании КС-языка. Дерево синтаксического разбора. Однозначность и рекур-

сивность грамматики. Нормальные формы Хомского и Грейбах. Преобразование грамматики в нормальную форму Хомско-

го. Преобразование грамматики в нормальную форму Грейбах. Приведение КС-грамматик (устранение недостижимых и

бесполезных символов, устранение

-правил, устранение цепных правил). Устранение левой рекурсии

Синтаксический анализатор – это часть компилятора, которая отвечает за выявление и проверку синтаксических конст-

рукций входного языка. СА выполняет:

- Поиск и выделение синтаксических конструкций в тексте исходной программы

- Установку типа и проверку правильности синтаксической конструкции

- Представление синтаксических конструкций в виде, удобном для генерации результирующего кода.

СА – основная часть компилятора на этапе анализа. На вход СА поступает таблица лексем, сформированная ЛА. СА разби-

рает ее в соответствии с грамматикой входного языка.

Лемма о разрастании КС-языка. ) Пусть L – КС-язык: ∀α∈L, ∃δ,β

,ϕ,β

,γ∈V

, ∃р∈Ν>0 | α=δβ

ϕβ

γ, |α|≥p, 0<|β

|≤p, α’ =

δβ

ϕβ

γ, ∀i∈Ν≥0, α’∈L. В достаточно длинной строке КС языка всегда можно найти две подстроки с ненулевой суммарной

длиной, одновременное повторение которых произвольное кол-во раз порождает новые строки того же языка. Например,

язык L={0

| m,n≥1} КС, а язык L={0

| n≥1} не КС.

Деревом вывода грамматики G(T,N,P,S) называется дерево (граф), которое соответствует некоторой цепочке вывода и удов-

летворяет следующим условиям:

- каждая вершина обозначается символом грамматики V∈(T∪N∪{λ})

- корнем дерева является вершина, обозначенная аксиомой S

- листьями являются вершины, обозначенные символом t∈(T∪{λ})

- если некоторый узел обозначен символом A∈N, а связанные с ним узлы символами V

,…,V

n>0, V

∈(T∪N∪{λ}), то в грамматике G существует правило A→ V

,…,V

∈P

В таком виде дерево вывода всегда можно построить для КС и регулярных грамматик. Для других

типов – только частные случаи.. Пример.

G({/,*,a,↓,←},{S,C,K},P,{S}), P:{S → C*/ | K↓←; C → /* | C/ | C* | Ca | C↓←; K → // | K/ | K* | Ka}

Для цепочки //a↓← дерево вывода будет иметь следующий вид:

Для построения дерева достаточно иметь цепочку вывода.

Левосторонний вывод имеет место, когда правило применяется

всегда к самому левому нетерминалу, правосторонний – к самому

правому. Грамматика называется однозначной, если для каждой

цепочки символов языка, заданного этой грамматикой можно по-

строить единственный левосторонний и единственный

правосторонний вывод, т.е. для каждой цепочки символов языка

существует единственное дерево вывода. Однако иногда одна и та

же цепочка может иметь разные деревья вывода, например:

G({(,a,)},{S},P,{S}), P:{S → S+S | S*S | (S) | a | b}, цепочка a*b+a.

Возможные варианты вывода:

S→S+S→S*S+S→a*S+S→a*b+S→a*b+a или

S→S*S→a*S→a*S+S→a*b+S→a*b+a для левостороннего вывода.

Имеется неоднозначность. Для построения компиляторов грамматики не должны допускать подобного. Неоднозначность

может устраняться заданием приоритетов. Однозначность – это свойство грамматики, а не языка. Т.е. для языка, заданного

неоднозначной грамматикой, может найтись однозначная грамматика, задающая тот же самый язык. Если в грамматике

имеются правила вида:

S→SS | α

S→SαS | β

S→αS | Sβ | γ

S→αS | αSβS | γ , то она является неоднозначной. Это необходимое, но не достаточное условие однозначности, т.е.

отсутствие правил такого вида еще не гарантирует однозначности.

Рекурсия может быть явной, когда символ определяется сам через себя (пример) и неявной (косвенной), тогда тоже самой происходит черезцепочку

правил (пример).

Грамматика называется леворекурсивной, если в ней имеются выводы вида: ∃A∈N: A⇒

Aα, α∈V

Праворекурсивной: ∃A∈N: A⇒

αА, α∈V

Самовставляющей (самовложенной) ∃A∈N: A⇒

αAβ, α,β∈V

В грамматике G(N,T,P,S) символ A∈N называется бесполезным (бесплодным), если не существует вывода вида:

S⇒

αAβ⇒αbβ, α,b,β∈T

. Т.е. из него нельзя вывести ни одной цепочки терминальных символов.

Символ A называется недостижимым, если A≠S и не существует вывода вида: S⇒

αAβ, α,β∈V

. Т.е. при любом выводе

этот нетерминал не может появиться в цепочке.

Грамматика G(N,T,P,S) называется грамматикой без λ-правил, (λ-свободной) если множество Р не содержит правил вида

A→λ, A∈N, либо есть ровно одно правило S→λ, и аксиома S не встречается в правых частях других правил.

КС Грамматика G(N,T,P,S) называется грамматикой без циклов, если в ней нет выводов вида A⇒

A, A∈N. Циклы воз-

можны в грамматике только если в ней присутствуют цепные правила вида A→B, A,B∈N.

С одной стороны при описании грамматики естественно желание ее максимально упростить. Устранение недостижимых и

бесполезных символов направлены именно на это. С другой стороны, хотелось бы, чтобы СА строился максимально просто.

Устранение цепных правил (как следствие циклов) и λ-правил упрощают построение распознавателя, хотя эти методы могут

несколько усложнить грамматику. Грамматика называется приведенной, если она не имеет бесполезных и недостижимых

символов, λ-правил, цепных правил. Любая приведенная КС-грамматика, не содержащая самовложений, эквивалентна регу-

лярной грамматике. Алгоритмы выполняются в следующем порядке: удаление бесполезных символов, удаление недостижи-

мых символов, удаление λ-правил, удаление цепных правил.

Для КС грамматик существует несколько стандартных способов задания, т.н. нормальных форм. Каждая КС грамматика

G(N,T,P,S) эквивалентна КС грамматике G’=(N’,T,P’,S) в НФ Хомского, все порождающие правила из множества P’ имеют

вид: A→BC | A→a, A,B,C∈N’, a∈T; либо S→λ, если λ∈L(G) и аксиома S не встречается в правых частях правил. Существу-

ет алгоритм перевода приведенной КС грамматики в НФ Хомского:

1. T’=T, N’=N, S’=S;

2. ∀p

∈P: A→BC, A→a, S→λ, A,B,C∈N, a∈T ⇒ P’=P’∪{A→BC | A→a | S→λ};

3. ∀p

∈P: A→Ba, A,B∈N, a∈T ⇒ N’=N’∪{A’}, P’=P’∪{A→BA’, A’→a};

4. ∀p

∈P: A→aB, A,B∈N, a∈T ⇒ N’=N’∪{A’}, P’=P’∪{A→A’B, A’→a};

5. ∀p

∈P: A→A

…A

, k>2 ⇒ N’=N’∪{B

, B

,…,B

k-2

, A

’, A

’,…A

’}, P’=P’∪{B

i-1

→A

’B

}, i=1,2,…,k-1, B

=A, B

k-1

‘,

если A

∈N, A

’=A

, если A

∈Т, P’=P’∪{A

’ → A

} где A

’– новый нетерминал

Пример. G=({a,q,w},{X,D,E},{X→DaqEw},X).

1. T’={a,q,w}, N’={X,D,E}, S’=X; 5. K=5, N’=N’∪{B

, B

, A

’, A

’}={B

, B

, D, A

’, A

’, E, A

’};

P’=P’∪{B

→A

’B

, B

→A

’B

, B

→A

’B

, B

→A

’B

}={X→A

’B

, B

→A

’B

, B

→A

’B

, B

→A

’A

’}=

{ X→DB

, B

→A

’B

, B

→A

’B

, B

→EA

’}, P’=P’∪{ A

’→A

, A

’→A

, A

’→A

}={ A

’→a, A

’→q, A

’→w}

G’=({a,q,w},{X,D,E, B

, B

, A

’, A

’},{ X→DB

, B

→A

’B

, B

→A

’B

, B

→EA

’, A

’→a, A

’→q, A

’→w },X)

Другой нормальной формой является НФ Грейбах. Все порождающие правила в ней имеют вид: A→bα, A∈N, b∈T, α∈N

либо S→λ, если λ∈L(G) и аксиома S не встречается в правых частях правил. Алгоритм перевода приведенной КС-

грамматики без левой рекурсии:

1. G’=G;

2. Нетерминалы упорядочиваются N’={A

,…,A

} таким образом, что ∀p∈P’: A

→A

α, A

∈N, α∈V

, i<j; k=|N’|-1;

3. A

→A

α, A

→β

|β

|…|β

∀A

∈N’, β

∈V

⇒ A

→β

α|β

α|…|β

α; правило заменяется для всех A

, где β

, d=1,2,…m – весь

набор правил для A

. k--; если k!=0, повторить п.3

4. ∀p

∈P: A→bγ

…γ

, A∈N’, b∈T’, γ

∈V⇒ A→bY

…Y

, ∀γ

∈T’, N’=N’∪{Y

}, P’=P’∪{Y

→γ

}; ∀γ

∈N’, Y

=γ

Пример. G={{*,n},{S,A,B},{S→B*A, B→n | A*B, A→n},S}

2. S

→B

, B

→n | A

, A

→n; k=3-1=2;

3. B

→n | A

⇒ B

→n | n* B

; k=1

3. S

→B

⇒ S

→n* A

| n* B

; k=0;

4. A

→n; B

→n*B

⇒B

→nY

, N’=N’∪{Y

},P’=P’∪{Y

→*}; S

→n*A

⇒S

→nY

; S

→n*B

⇒S

→nY

G’=({*,n},{S,A,B,Y},{ A→n; B→n | nYB; Y→*; S→nYA | nYBYA}, S)

Алгоритм удаления бесполезных символов. Алгоритм работает со специальным множеством нетерминальных символов

. Вначале в него попадают только те нетерминалы, из которых можно непосредственно вывести терминальные цепочки.

Далее оно итерационно пополняется.

1. Y

=∅; i=1;

2. ∀A∈N: ∃(A→α)∈P, α∈ (Y

i-1

∪T)

⇒ Y

= Y

∪{A}; т.е. на каждом шаге включаются все нетерминалы из левых частей

правил, в правых частях которых только терминалы или нетерминалы, включенные на предыдущем шаге;

3. Если Y

≠Y

i-1

, то i=i+1 и перейти к шагу 2

4. N’=Y

; T’=T; S’=S;

5. P’=P’∪{p

}, p

: A→α, A,α∈(T∪Y

)

; остаются только правила, которые содержат используемые нетерминалы

Алгоритм удаления недостижимых символов. Алгоритм работает с множеством достижимых символов Y

. Вначале это

аксиома грамматики, затем множество итерационно пополняется. Все символы, которые в итоге не войдут в это множество,

являются недостижимыми и могут быть удалены.

1. Y

={S}; i=1;

2. ∀A∈Y

i-1

: ∃(A→αxβ)∈P, α,β∈V

, x∈V ⇒ Y

= Y

∪{x}∪ Y

i-1

; т.е на каждом шаге включаются терминалы и нетерминалы

из правых частей правил, в левых частях которых только нетерминалы, включенные на предыдущем шаге;

3. Если Y

≠Y

i-1

, то i=i+1 и перейти к шагу 2

4. N’=N∩Y

; T’=T∩ Y

; S’=S;

5. P’=P’∪{p

}, p

: A→α, A,α∈Y

; остаются только правила, которые содержат используемые символы

Пример. G({a,b,c},{A,B,C,D,E,F,G,S},P,S); P: { S→aAB | E; A→aA | bB; B→ACb | b; C→A | bA | cC | aE; E→cE | aE | Eb |

ED | FG; D→a | c | Fb; F→BC | EC | AС; G→Ga | Gb;}

Удаляем бесполезные символы:

1. Y

=∅; i=1;

2-3.1. A→α, α∈ (Y

∪T)

= {a,b,c} ⇒ Y

= Y

∪{B,D}; Y

≠Y

; i=2;

2-3.2. A→α, α∈ (Y

∪T)

= {B,D,a,b,c} ⇒ Y

= Y

∪{A,B,D}; Y

≠Y

; i=3;

2-3.3. A→α, α∈ (Y

∪T)

= {A,B,D,a,b,c} ⇒ Y

= Y

∪{S,A,B,C,D}; Y

≠Y

; i=4;

2-3.4. A→α, α∈ (Y

∪T)

= {S,A,B,C,D,a,b,c} ⇒ Y

= Y

∪{S,A,B,C,D,F}; Y

≠Y

; i=5;

2-3.5. A→α, α∈ (Y

∪T)

= {S,A,B,C,D,F,a,b,c} ⇒ Y

= Y

∪{S,A,B,C,D,F}; Y

;

4. N’=Y

={S,A,B,C,D,F}; T’=T={a,b,c}; S’=S={S};

5. P’={ S→aAB; A→aA | bB; B→ACb | b; C→A | bA | cC; D→a | c | Fb; F→BC | AС;}

Удаляем недостижимые символы:

1. Y

={S}; i=1;

2-3.1. ∀A∈Y

={S}: A→αxβ, α,β∈V

, x∈V ⇒ Y

= Y

∪{a,A,B}∪{S}={a,A,B,S}; Y

≠Y

; i=2;

2-3.2. ∀A∈Y

={a,A,B,S}: A→αxβ, α,β∈V

, x∈V ⇒ Y

= Y

∪{a,A,B,b,C}∪{a,A,B,S}={a,b,A,B,C,S}; Y

≠Y

; i=3;

2-3.3. ∀A∈Y

={a,b,A,B,C,S}: A→αxβ, α,β∈V

, x∈V ⇒ Y

= Y

∪{a,A,B,b,C,c}∪{a,b,A,B,C,S}={a,b,c,A,B,C,S}; Y

≠Y

; i=4;

2-3.4. ∀A∈Y

={a,b,c,A,B,C,S}: A→αxβ, α,β∈V

, x∈V ⇒ Y

= Y

∪{a,A,B,b,C,c}∪{a,b,c,A,B,C,S}={a,b,c,A,B,C,S}; Y

;

4. N’=N∩Y

={A,B,C,S}; T’=T∩ Y

= {a,b,c}; S’=S={S}

5. p

: A→α, A,α∈Y

; P’={ S→aAB; A→aA | bB; B→ACb | b; C→A | bA | cC; }

Алгоритм устранения λ-правил. Алгоритм работает со специальным множеством нетерминальных символов Y

. Вначале

это нетерминалы, допускающие λ-правила. Затем оно итерационно пополняется, после чего изменяется набор правил грам-

матики для нетерминалов этого множества.

1. Y

={∀A: ∃(A→λ)}; i=1;

2. ∀A: ∃(A→α)∈P, α∈Y

i-1

⇒ Y

= Y

i-1

∪{A}; т.е на каждом шаге включаются нетерминалы из левых частей правил, в пра-

вых частях которых только нетерминалы, включенные на предыдущем шаге;

3. Если Y

≠Y

i-1

, то i=i+1 и перейти к шагу 2

4. N’=N; T’=T; S’=S; P’=P\{A→λ};

5. ∀p

∈P: A→X

…X

, ∃X

∈Y

⇒ P=P∪{A→W

…W

: W

={{X

либо λ, если X

∈Y

}{X

, если X

∉Y

}}\

{A→λ, A→A;}}. Т.е. для всех правил, в правых частях которых встречаются нетерминалы из множества Y

к правилам

добавляется множество, в котором правые части представляют собой все возможные комбинации, в которых эти нетер-

миналы заменяются на λ.

6. Если S∈Y

⇒ N’=N’∪{S’}, P’=P’∪{S’→λ | S}, S’={S’}; т.е если λ∈L(G), то вводится новый нетерминал, который стано-

вится аксиомой и два новых правила

Пример. G({a,b,c},{A,B,C,S},P,S); P:{S→AaB | aB | cC; A→AB | a | b | B; B→Ba | λ; C→AB | c;}

1. Y

={B}; i=1;

2-3.1. ∃(A→B), B∈Y

⇒ Y

= Y

∪{A}={A,B}; Y

≠Y

; i=2;

2-3.2. ∃(C→AB; A→AB; A→B), A,B∈Y

⇒ Y

= Y

∪{A,B,C}={A,B,C}; Y

≠Y

; i=3;

2-3.2. ∃( C→AB; A→AB; A→B), A,B∈Y

⇒ Y

= Y

∪{A,B,C}={A,B,C}; Y

;

4. N’=N={A,B,C,S}; T’=T={a,b,c}; P’={S→AaB | aB | cC; A→AB | a | b | B; B→Ba; C→AB | c;}

5.1. S→AaB, A,B∈Y

; ⇒ P=P∪{S→AaB | Aa | aB | a};

5.2. S→aB; B∈Y

; ⇒ P=P∪{S→aB | a};

5.3. S→ cC; C∈Y

; ⇒ P=P∪{S→cC | c};

5.4. A→AB; A,B∈Y

; ⇒ P=P∪{A→AB | A | B}\{A→A};

5.5. A→B; B∈Y

; ⇒ P=P∪{A→B};

5.6. B→Ba; B∈Y

; ⇒ P=P∪{ B→Ba | a};

5.7. C→AB; A,B∈Y

; ⇒ P=P∪{ C→AB | A | B};

6. S∉Y

P’={ S→AaB | aB | cC | Aa | a | c; A→AB | a | b | B; B→Ba | a; C→AB | c | A | B;}

Алгоритм устранения цепных правил. Для каждого нетерминала X строится специальное множество цепных символов Y

на основе которых выполняется преобразование правил грамматики.

1. ∀X∈N:

2. Y

={X}; i=1;

3. ∀p

∈P: A→B, A∈Y

i-1

⇒ Y

= Y

i-1

∪{B}; т.е. включаются все нетерминалы, которые непосредственно выводятся из не-

терминалов множества, полученного на предыдущем шаге;

4. Если Y

≠Y

i-1

, то i=i+1, и перейти к шагу 3;

5. Y

\{X};

6. N’=N; T’=T; P’=P\{A→B}; S’=S;

7. ∀p

∈P’: A→α ⇒ P’=P’∪{B→α}, A∈Y

, B≠A; Идет замена цепных правил непосредственно на нетерминал-источник.

Пример. G=({+,-,/,*,a,b},{S,T,E},P,S); P={S→S+T | S-T | T; T→T*E | T/E | E; E→(S) | a | b};

1.1. Y

2.1. Y

={S}; i=1;

3-4.1.1. S→T, S∈Y

⇒ Y

= Y

∪{T}={S,T}; Y

≠Y

; i=2;

3-4.1.2. S→T, T→E, S,T∈Y

⇒ Y

= Y

∪{T,E}={S,T,E}; Y

≠Y

; i=3;

3-4.1.3. S→T, T→E, S,T∈Y

⇒ Y

= Y

∪{T,E}={S,T,E}; Y

;

5.1. Y

= Y

\{S}={T,E};

1.2. Y

2.2. Y

={T}; i=1;

3-4.2.1. T→E, T∈Y

⇒ Y

= Y

∪{E}={T,E}; Y

≠Y

; i=2;

3-4.2.2. T→E, T∈Y

⇒ Y

= Y

∪{E}={T,E}; Y

;

5.2. Y

= Y

\{T}={E};

1.3. Y

2.2. Y

={E}; i=1;

3-4.2.1. Y

= Y

5.2. Y

= Y

\{E}=∅;

6. N’=N={S,T,E}; T’=T={+,-,/,*,a,b}; P’={S→S+T | S-T; T→T*E | T/E; E→(S) | a | b}; S’=S={S};

7.1. S→S+T | S-T; S∉Y

, S∉Y

S∉Y

;

7.2. T→T*E | T/E; T∈Y

; ⇒ P’=P’∪{ S→T*E | T/E};

7.3. E→(S) | a | b; E∈Y

, E∈Y

; ⇒ P’=P’∪{ S→(S) | a | b; T→(S) | a | b };

P’={ S→S+T | S-T | T*E | T/E | (S) | a | b; T→T*E | T/E | (S) | a | b ; E→(S) | a | b }

Устранение левой рекурсии. Любая КС-грамматика может быть как леворекурсивной, так и праворекурсивной, а также

одновременно и право- и леворекурсивной. Полностью исключить рекурсию невозможно, однако один вид рекурсии можно

заменить на другой. Значительные неудобства чаще всего создает левая рекурсия. Рассмотрим алгоритм ее устранения.

1. ∀A

∈N, i=1,2… |N|: т.е. для каждого нетерминального символа выполняются действия

2. ∀p

∈P: A

→Bβ, B∈V, β∈V

, A

≠ B ⇒ P’=P’∪p

; N’=N’∪A

; т.е. если все правила для A

не содержат левой рекурсии,

они переносятся без изменений;

3. ∃p

∈P: A

→A

β, β∈V

: ⇒ A

| A

|…| A

| β

, где ∀j, 1≤j≤p, не∃β

γ, k≤i ⇒ P’=P’∪{A

→β

| β

|…|

| β

’ | β

’ |…| β

’; A

’→α

| α

|…| α

| α

’ | α

’ |…| α

’;}; N’=N’∪{A

, A

’}; т.е. если есть хотя бы одно ле-

ворекурсивное правило для A

все правила для A

переписываются с добавлением нового нетерминала

4. Если i=|N|, то все нетерминалы рассмотрены, перейти к п.9;

5. i=i+1; j=1;

6. ∀p

∈P: A

→A

γ, γ∈V

⇒ P=P∪{A

→ω

γ | ω

γ |…| ω

γ: {A

→ω

| ω

|…| ω

}∈P’}\p

; т.е. для правил данного вида каж-

дое из них меняется на множество правил;

7. Если j=i-1, то перейти к п.2;

8. j=j+1; перейти к п.6

9. S’=S;

Пример G({a,b,c,d,z},{S,A,B,C},P,S); P:{ S→Aa; A→Bb; B→Cc | d; C→Az | a;}

1. i=1; A

=S;

2-3.1. S→Aa ⇒ P’=P’∪{S→Aa}; N’=N’∪{S}; P’={ S→Aa }

4.1. i≠4

5.1. i=2; A

=A; j=1; A

=S;

6.1.1. правил в P вида A→Sγ нет

7.1.1. j=i-1, переход к п.2

2-3.2. A→Bb ⇒ P’=P’∪{A→Bb}; N’=N’∪{A}; P’={ S→Aa; A→Bb }

4.2. i≠4

5.2. i=3; A

=B; j=1; A

=S;

6.2.1. правил в P вида B→Sγ нет

7.2.1. j≠i-1

8.2.1. j=2; A

=A переход к п.6.

6.2.2. правил в P вида B→Aγ нет

7.2.2. j=i-1; переход к п.2

2-3.3. B→Cc | d ⇒ P’=P’∪{ B→Cc | d }; N’=N’∪{B}; P’={ S→Aa; A→Bb; B→Cc | d }

4.3. i≠4

5.3. i=4; A

=C; j=1; A

=S;

6.3.1. правил в P вида C→Sγ нет

7.3.1. j≠i-1

8.3.1. j=2; A

=A переход к п.6.

6.3.2. {C→Az}∈P, {A→Bb}∈P’ ⇒ P=P∪{C→Bbz}\{C→Az} P={ S→Aa; A→Bb; B→Cc | d; C→Bbz | a}

7.3.2. j≠i-1

8.3.2. j=3; A

=B переход к п.6.

6.3.3. {С→Bbz}∈P, {B→Cc | d} ∈P’ ⇒ P=P∪{ C→{Cc | d}bz = Ccbz | dbz}\{ С→Bbz }

P={ S→Aa; A→Bb; B→Cc | d; C→ Ccbz | dbz | a }

7.3.3. j=i-1; переход к п.2

2-3.4. C→ Ccbz | dbz | a ⇒ P’=P’∪{ C→dbz | a | dbzD | aD; D→cbz | cbzD }; N’=N’∪{C,D};

4.4. i=4; переход к п.9 P’={ S→Aa; A→Bb; B→Cc | d; C→dbz | a | dbzD | aD; D→cbz | cbzD }

9. S’=S; N’={S,A,B,C,D}

Алгоритмы построения синтаксических анализаторов

Автоматы с магазинной памятью. Синтаксические анализаторы КС-языков. Синтаксический анализ сверху вниз. Распо-

знаватели с возвратом. Алгоритм с подбором альтернатив. Построение МП-автомата с возвратом по заданной КС-

грамматике. Синтаксический анализ снизу вверх. Алгоритм “перенос-свертка”. Построение расширенного МП-автомата.

Построение автомата по НФ Грейбах. Распознаватели без возвратов. Алгоритм по методу рекурсивного спуска. Построе-

ние автомата для разбора S-грамматики

Язык называется контестно-свободным, если он определяется грамматикой G(N,T,P,S), в которой правила имеют вид A→β,

где A∈N, β∈V

. Распознавателями КС языков являются автоматы с магазинной (стековой) памятью. МП-автомат опреде-

ляется следующим образом: R(Q,A,Z,δ, q

, z

, F), где Q – множество состояний автомата, A – алфавит входных символов, Z –

специальный конечный алфавит магазинных символов автомата, A⊆Z, δ - функция переходов автомата, отображающая мно-

жество Qx(A∪{λ})xZ на конечное множество подмножеств P(QxZ

), q

∈Q – начальное состояние автомата, z

∈Z – началь-

ный символ магазина , F⊆Q – множество конечных состояний.

В отличие от обычного КА МП-автомат имеет стек, в который можно помещать специальные магазинные символы, обычно

это терминальные и нетерминальные символы грамматики языка. Переходы между состояниями зависят не только от вход-

ного символа, но и от символа на вершине стека. В итоге конфигурация автомата определяется тремя параметрами: состоя-

нием автомата, цепочкой еще не прочитанных символов, содержимым стека (q,α,ω). Один такт работы автомата описывается

в виде (q,aα, zω)⇒(q’,α,γω), где (q’,γ)∈δ(q,a,z), q,q’∈Q, a∈A∪{λ}, α∈A

, z∈Z∪{λ}, γ,ω∈Z

. При выполнении такта в стеке

заменяется символ, соответствующий условию перехода, на цепочку, соответствующую правилу перехода. Первый символ

этой цепочки становится новой вершиной стека. Допускаются переходы, при которых входной символ игнорируется, остава-

ясь на следующий такт. Такие переходы (такты) называются λ-переходами. Далее, автомат может и не извлекать символ из

стека (γ=z).

Начальная конфигурация определяется как (q

, α, z

), α∈A

, а множество конечных конфигураций как (q,λ,ω) q∈F, ω∈Z

МПА допускает (принимает) цепочку символов, если получив ее на вход и находясь в начальной конфигурации, он может

перейти в одну из конечных конфигураций – когда автомат находится в одном из конечных состояний, а стек содержит оп-

ределенную цепочку. Язык, определяемый МПА – множество всех цепочек, которые допускает автомат. Два МПА R1 и R2

эквивалентны, если они определяют один и тот же язык L(R1)=L(R2). МПА допускает цепочку с опустошением магазина,

если по окончании разбора автомат находится в одном из конечных состояний, а магазин пуст (конфигурация (q,λ,λ)). Для

любого МПА всегда можно построить эквивалентный ему МПА, допускающий цепочки с опустошением стека. Расширен-

ный МПА в отличие от обычного, может заменять не один символ на вершине стека, а цепочку символов на вершине стека.

Функция переходов для него отображает множество Qx(A∪{λ})xZ

. Для любого расширенного МПА всегда можно постро-

ить эквивалентный ему обычный. Для произвольной КС-грамматики всегда можно построить МПА, задающий тот же язык.

Для произвольного МПА всегда можно построить КС-грамматику, задающую тот же язык.

МПА называется детерминированным, если из каждой его конфигурации возможно не более одного перехода в другую

конфигурацию. Формально для ДМПА функция переходов δ может иметь один из трех видов:

1. δ(q,a,z) содержит 1 элемент: δ(q,a,z)={(q’,γ)}, γ∈Z

, δ(q,λ,z)=∅;

2. δ(q,a,z)=∅, δ(q,λ,z) содержит 1 элемент δ(q,λ,z)={(q’,γ)}, γ∈Z

;

3. δ(q,a,z)=∅, δ(q,λ,z)=∅;

Класс ДМПА и соответствующих им языков значительно уже, чем весь класс МПА и КС-языков. В отличие от КА, для кото-

рого всегда можно построить эквивалентный ему ДКА, не для каждого МПА можно построить эквивалентный ему ДМПА.

ДМПА определяют очень важный подкласс КС-языков – детерминированные КС-языки. Все языки, принадлежащие к это-

му подклассу, могут быть построены с помощью однозначных КС-грамматик. Однако не всякий язык, задаваемый однознач-

ной КС-грамматикой, является детерминированным. Большинство практически используемых распознавателей, относятся к

классу детерминированных КС-языков.

Все распознаватели для КС-языков можно разделить на 2 большие группы – нисходящие и восходящие. Нисходящие про-

сматривают входную цепочку символов слева направо и порождают левосторонний вывод. Дерево вывода таким распозна-

вателем строится от корня к листьям (сверху вниз). Восходящие также просматривают входную цепочку слева направо, но

порождают правосторонний вывод. Дерево вывода при этом строится от листьев к корню (снизу вверх). Для моделирования

этих групп распознавателей используются 2 алгоритма: для нисходящих алгоритм с подбором альтернатив, для восходящих

– алгоритм “сдвиг-свертка”. Для ЯП в большинстве случаев легче построить правосторонний восходящий распознаватель.

Однако на основе левостороннего (нисходящего) синтаксического анализатора легче организовать процесс порождения це-

почек результирующего языка, проще в этом случае и обнаружение и локализация ошибок в исходном тексте. На практике

используются оба варианта. Конкретный выбор зависит от реализации конкретного компилятора и сложности грамматики

входного языка.

Нисходящий синтаксический анализ. В основе лежит левосторонний разбор. При анализе сверх вниз вывод заданной

входной цепочки строят исходя из аксиомы, называемой целью. Анализируются первые символы цепочки и принимается

решение, какое правило должно быть применено, после чего выполняется попытка распознать элементы правой части пра-

вила, определяя их как подцели. И так до тех пор, пока очередные подцели не приведут к сравнению символов цепочки с

терминалами, что и позволит сделать вывод о принадлежности цепочки языку. Отличительная особенность алгоритмов нис-

ходящего разбора в том, что текущая цель (подцель) используется как вспомогательная информация для принятия решения.

В общем случае при нисходящем анализе возникают следующие проблемы:

1. Наличие леворекурсивных правил. Пусть цель – А, и первое же правило для А имеет вид А→Аγ. Раз так, то будет уста-

новлена подцель А. Она опять потребует подцели А и т.д. Для нисходящего разбора леворекурсивные правила должны быть

исключены из грамматики.

2. Пусть при нисходящем анализе необходимо заменить самый левый нетерминал, определяемый правилом вида: