08. Регулярни изрази, част 1

8 ноември 2011

Днес

Регулярните изрази в бита на програмиста
Регулярните изрази в Ruby (1.9.3)
Как да ги ползваме в Ruby код
Преди това, две дребни задачки, за да не ви е скучно

Традиционната задача

за тези от вас, които се чувстват комфортно с РИ

Имаме следната задача:

Да се напише кратък Ruby expression, който проверява дали дадено число е просто или не, посредством употреба на регулярен израз. Резултатът от изпълнението му трябва да е true за прости числа и false за всички останали. Неща, които можете да ползвате:
Самото число, разбира се.
Произволни методи от класа Regexp
Подходящ регулярен израз (шаблон)
Текстовия низ '1'.
String#*.
Някакъв условен оператор (например if-else или ? … : …)
true, false, ...

Материалът, необходим за решаването й, ще го има изцяло в днешната лекция.

Нетрадиционната задача

за тези от вас, които вече ни знаят номерата

Имаме следната задача:

Да валидирате изрази от следния тип за правилно отворени/затворени скоби:
(car (car (car ...)))
Например: (car (car (car (car list))))
Целта е израз, чийто резултат да може да се ползва в условен оператор (true/false-еквивалент)
Можете да ползвате произволни методи от класа Regexp
И регулярен израз, разбира се

Примерно решение — на някоя от следващите сбирки.

Произход

малко обща култура

На възраст над 60 години (Клини)
Practical Extraction and Report Language
Perl и PCRE-библиотеката (Perl-Compatible Regular Expressions)
Почти всеки general-purpose програмен език имплементира някаква форма на РИ
Незаменими unix-програми като grep, sed, awk, vi, Emacs...
Разглеждат се дори в курса по ДМ покрай граматики и автомати

Проблемна област

най-общо: работа с текстови низове

Търсене на по-сложна последователност от символи в низ
Заместване на такива последователности с нещо друго
Изобщо, модифициране на текстови последователности (например, Markdown към HTML)
Проверка дали даден низ отговаря на определени условия (валидация)
Проверка дали едно число е просто или не :)

Понятия

и терминология

„шаблон“, още „регулярен израз“ (pattern)
Специални символи (meta characters)
Екраниране на специалните символи (escape-ване)
Повторители и повторение (quantifiers and repetition)
Класове от символи (character classes)
Групи

РИ в Ruby

синтаксис, накратко

Всеки регулярен израз е обект, инстанция на класа Regexp
Има литерален синтаксис за създаване на регулярни изрази: /pattern/
Може да се ползва и синтаксисът с %r, например: %r{/path/maching/made/easy}
Операциите с регулярни изрази са методи на Regexp, а някои са в String

Regexp#match

ще го ползваме в примерите

За да демонстрираме какво "хващат" определени шаблони, ще ползваме Regexp#match
Този метод примеа аргумент текстов низ и връща nil, ако шаблонът не "хваща" нищо
Връща инстанция на MatchData, ако шаблонът "хваща" нещо от низа
MatchData в детайли — по-късно
От тук нататък ще ползваме match-ва като синоним на "хваща" :)

Шаблони

(регулярни изрази, patterns и т.н.)

В сърцето на всеки регулярен израз стои шаблон (pattern)
В шаблона, всеки символ (освен някои специални) означава себе си
Следователно, шаблонът /dubstep/ ще отговаря на точно тази последователност от символи в низ
Цялата магия е в специалните символи:
(, ), [, ], {, }, ., ?, +, *, ^, $, \, ...
Някои символи са специални само в определен контекст (например -)

Най-прост пример

/find me/.match 'Can you find me in this long sentence?'  # #<MatchData "find me">
/find me/.match 'I am not here and you will not find ME!' # nil

Този шаблон не съдържа специални символи
Както виждате, по подразбиране шаблоните са чувствителни към регистъра на буквите
Може да се промени

Специални символи

meta characters

. съвпада с един произволен символ (с изключение на символите за нов ред)
[ и ] се ползват за дефиниране на класове от символи
*, ?, +, { и } се ползват за указване на повторения
^, $, \b, \B и т.н. са "котви" и съответстват на определени "междусимволни дупки" :)
| има смисъл на или, например:

/day|nice/.match  'A nice dance-day.'  # #<MatchData "nice">
/da(y|n)ce/.match 'A nice dance-day.'  # #<MatchData "dance" 1:"n">

Внимавайте с приоритета на |

Екраниране

на специалните символи (escape-ване)

\ пред специален символ го прави неспециален такъв (екранира го)
За да вкарате наклонена черта, ползвате \\ (като в обикновен низ)

Класове от символи

(character classes)

Заградени между [ и ]
Match-ват един символ от посочените вътре
Могат да се декларират диапазони, например [a-z] или [0-9A-F]
Ако първият символ в класа е ^, това означава "някой символ, който не е посочен в класа"
Можете да екранирате тире в символен клас така: [a\-b]
Друг вариант е да сложите тирето в началото или в края на класа: [-abc] или [abc-] - тук то няма специален смисъл
Има предефинирани класове от символи

Примери с класове от символи

/W[aeiou]rd/.match "Word" # #<MatchData "Word">
/[0-9a-f]/.match '9f'     # #<MatchData "9">
/[9f]/.match     '9f'     # #<MatchData "9">
/[^a-z]/.match   '9f'     # #<MatchData "9">

Предефинирани класове от символи

\w - символ от дума ([a-zA-Z0-9_])
\W - символ, който не може да участва в дума ([^a-zA-Z0-9_])
\d - цифра ([0-9])
\D - символ, който не е цифра ([^0-9])
\h - шеснадесетична цифра ([0-9a-fA-F])
\H - символ, който не е шеснадесетична цифра ([^0-9a-fA-F])
\s - whitespace-символ (/[ \t\r\n\f]/)
\S - символ, който не е whitespace (/[^ \t\r\n\f]/)

POSIX-класове от символи

[[:alpha:]] - символ от азбука
[[:alnum:]] - горното или цифра
[[:blank:]] - интервал или таб
[[:cntrl:]] - контролен символ
[[:digit:]] - цифра
[[:lower:]] - малка буква
[[:upper:]] - главна буква
[[:print:]] - printable-символ
[[:punct:]] - пунктуационен символ
[[:space:]] - whitespace-символ (вкл. и нов ред)
[[:xdigit:]] - шеснадеситична цифра
И други...

Полезни не-POSIX класове

Ruby поддържа и следните не-POSIX символни класове:
[[:word:]] - символ, който може да участва в дума (работи и за Unicode, за разлика от \w)
[[:ascii:]] - ASCII-символ

Символни свойства

character properties

С конструкцията \p{} може да match-вате символи, имащи съответното свойство (подобно на POSIX)
Например: \p{Alnum}, \p{Alpha}, \p{Blank}, \p{Cntrl}, \p{Digit}, \p{Graph}
По този начин, например, може да проверите дали даден символ е от японската азбука катакана: \p{Katakana}
Или пък да match-нете символ от азбука на кирилица: \p{Cyrillic}, например:

/\s\p{Cyrillic}\p{Cyrillic}\p{Cyrillic}/.match 'Ние сме на всеки километър!' # #<MatchData " сме"># ~> -:1: invalid character property name {Cyrillic}: /\s\p{Cyrillic}\p{Cyrillic}\p{Cyrillic}/
# ~> -:1: invalid multibyte char (US-ASCII)
# ~> -:1: invalid multibyte char (US-ASCII)

Котви

Не съвпадат с реални символи, а вместо това с невидимите граници между тях
^ съвпада с началото на ред
$ съвпада с края на ред
\A съвпада с началото на текстов низ
\z съвпада с края на низ
\b отговаря на граница на дума (когато е извън [ и ]; вътре означава backspace)
\B отговаря на място, което не е граница на дума

Примери с котви

/real/.match "surrealist"    # #<MatchData "real">
/\Areal/.match "surrealist"  # nil
/\band/.match "Demand"       # nil

/\Band.+/.match "Supply and demand curve" # #<MatchData "and curve">

Повторители

(quantifiers)

Важат за непосредствено предхождащия ги символ/клас/група; нека го означим със s
s* означава нула или повече повторения на s
s+ търси едно или повече повторения на s
s? съвпада с нула или едно повторение на s
s{m,n} означава между m и n повторения на s
В последното можем да пропуснем m или n:
s{,n} има смисъл на нула до n повторения, а s{m,} — поне m повторения

Примери с повторители

/e+/.match     'Keeewl'       # #<MatchData "eee">
/[Kke]+/.match 'Keeewl'       # #<MatchData "Keee">
/\w+/.match '2038 - the year' # #<MatchData "2038">
/".*"/.match '"Quoted text!"' # #<MatchData "\"Quoted text!\"">

/[[:upper:]]+[[:lower:]]+l{2}o/.match 'Hello' # #<MatchData "Hello">

Алчност

По подразбиране повторителите са "алчни", т.е. изяждат колкото се може повече от низа
Това поведение може да се контролира с ? след повторителя
Например .*? прави повторението не-алчно
Внимавайте с лакомите повторители

/<.+>/.match("<a><b>")  # #<MatchData "<a><b>">
/<.+?>/.match("<a><b>") # #<MatchData "<a>">

Групи

и прихващане

Символите ( и ) се използват за логическо групиране на части от шаблона с цел:

Контролиране областта на влияние на дадена операция
Например, следното ще match-ва низове, съдържащи думите day или dance: /\bda(y|nce)\b/
Възможност за референция към „ограденото“ в скобите — в и извън шаблона
Задаване на по-специални (и не толкова често употребявани) конструкции

Референции към групи

Текстът, който match-ва частта на шаблона, оградена в скоби, може да се достъпва:

В самия шаблон, с нотацията \1 за първата група, \2 за втората и т.н.
Отвън, през MatchData-обекта
Отвън, през специални променливи от типа на $1, $2...
Отвън, през локални променливи, когато групите си имат име
Повече по темата — в някоя от следващите сбирки

Решение на проблема, поставен днес

проверка за просто число с РИ

Идеи, предложения?
'1' * числото =~ /някакъв регулярен израз/ ? false : true
'1' * 13 =~ /^1?$|^(11+?)\1+$/ ? false : true
Много полезно знание :) Въпроси по израза?
Регулярният израз тук може да се ползва 1:1 в Python за същата цел

Следва продължение

Остават още интересни неща за регулярните изрази, част от които ще разгледаме на една от следващите сбирки.