]> Podręcznik edytora wyrażeń regularnych Jesper K. Pedersen
blackie@kde.org
2001-07-03 0.1 &underFDL; 2001 Jesper K. Pedersen Niniejszy podręcznik opisuje moduł edytora wyrażeń regularnych środowiska &kde; KDE wyrażenie regularne
Wprowadzenie Edytor wyrażeń regularnych pozwala na graficzne konstruowanie elementów wyrażenia (bez konieczności stosowania składni w kodzie ASCII). Tradycyjna znakowa postać wyrażenia regularnego wygląda na przykład tak: ^.*kde\b. Główne wady takiego zapisu są następujące: Jest mało zrozumiały dla przeciętnego użytkownika. Wymaga stosowania sekwencji specjalnych dla pewnych symboli (np. aby wyszukać gwiazdkę '*' należy napisać \*). Wymagają pamiętania o odpowiedniej kolejności zapisów. (Do czego pasuje wyrażenie x|y*? Do pojedynczego znaku x i kilku znaków y, LUB dowolnej kombinacji kilku znaków x i y?) Edytor wyrażeń regularnych pozwala niemalże na narysowanie własnego wyrażenia regularnego w przejrzysty i jednoznaczny sposób. Dzięki niemu rozwiązane są co najmniej 2 z trzech omówionych wcześniej problemów. Nie spowoduje on jednak cudu przyswojenia problematyki wyrażeń regularnych przez osoby nie zajmujące się programowaniem, to jednak mogą potwierdzić jedynie użytkownicy. Prosimy każdego użytkownika nie zajmującego się na co dzień programowaniem, który przyswoił sobie problematykę wyrażeń regularnych dzięki temu edytorowi o kontakt z autorami. Co to jest wyrażenie regularne Wyrażenie regularne pozwala na określenie powstałych w umyśle użytkownika warunków, które należy spełnić. W typowych sytuacjach poszukując jakiegoś napisu wystarczy go wpisać w polu wyszukiwania w sposób dosłowny, z drugiej strony za pomocą wyrażenia regularnego można zapisać jak ma wyglądać dopasowany fragment. Przykładowo: poszukujemy słowa KDE ale tylko na początku wiersza, szukamy słowa the, ale nie będącego częścią innego wyrazu lub szukamy plików o nazwie rozpoczynającej się od słowa test, po którym następuje pewna liczba cyfr np. test12, test107 i test007. Wyrażenia regularne buduje się z mniejszych wyrażeń regularnych, ta samo jak z małych klocków Lego tworzy się duże budynki. Tak jak w Lego, dostępnych jest kilka podstawowych elementów. W dalszej części zostaną one opisane wraz z przykładami ich wykorzystania. Wyszukiwanie zwykłego tekstu. Jeżeli potrzebne jest jedynie wyszukanie podanego tekstu, to wyrażenia regularne nie są zbyt dobrym wyborem, dlatego że w wyrażeniach regularnych część znaków ma specjalne znaczenie. Dotyczy to m.in. następujących znaków: .*|$. Jeżeli więc użytkownik chce znaleźć napis kde. (tzn. kde z kropką na końcu) to musi zapisać to jako wyrażenie kde\.Edytor wyrażeń regularnych pozwala na łatwe ominięcie tego problemu zastępując użytkownika w we wprowadzaniu specjalnych sekwencji dla takich znaków. Zapisanie kropki w postaci wyrażenia \. to tak zwana sekwencja specjalna. Dopasowanie adresów URL Jeżeli w dowolnym edytorze środowiska KDE zostanie zaznaczony fragment tekstu wyglądający jak adres URL, program klipper zaoferuje uruchomienie polecenia konqueror i otworzenie tego adresu. Program klipper rozpoznaje adres poprzez porównanie zaznaczenia z kilkoma różnymi wyrażeniami regularnymi. Jeżeli dane wyrażenie pasuje do zaznaczonego tekstu, to udostępnione zostaje odpowiednie polecenie z nim związane. Wyrażenie regularne wyszukujące adresy URL zawiera m.in. wymaganie aby napis zaczynał się od tekstu http://. Osiągane jest to poprzez wprowadzenie znaku daszka (^) jako poprzedzającego tekst http://. Powyższy przykład przedstawia dopasowanie pozycji w tekście z wykorzystaniem wyrażeń regularnych. Analogicznie, pozycja końca wiersza może być dopasowana za pomocą znaku dolara $. Wyszukiwanie słowa <literal>the</literal>, ale nie będącego częścią wyrazu jak w np. <emphasis>the</emphasis><literal>re</literal>, <literal>brea</literal><emphasis>the</emphasis> lub <literal>ano</literal><emphasis>the</emphasis><literal>r</literal> Dodatkowo można dopasowywać pewne specjalne pozycje w tekście, są to odpowiednio:pozycja na granicy wyrazu orazpozycja, która nie jest granicą wyrazu . Są one w wyrażeniu zapisywane w postaci: \b (dla granicy wyrazu) oraz \B (dla pozycji, która nie jest granicą wyrazu). Oznacza to, iż wyszukiwanie wyrazu the może być wykonane za pomocą wyrażenia \bthe\b. Oznacza ono iż szukamy napisu the, który ani na początku, ani na końcu nie ma żadnych dodatkowych znaków (czyli ma granicę wyrazu po obu stronach) Cztery omawiane wyrażenia dopasowania pozycji w wyrażeniach regularnych są wstawiane w edytorze wyrażeń za pomocą narzędzia pozycji. Szukanie słów <literal>this</literal> albo <literal>that</literal> Przypuśćmy iż chcemy w dokumencie wyszukać słowa this oraz that. Normalna metoda wyszukiwania polegałaby na dwukrotnej operacji wyszukiwania, najpierw dla wyrazu this, a następnie dla wyrazu that. Dzięki wyrażeniom regularnym wyszukiwanie obu wyrazów może być wykonane za pomocą jednej operacji wyszukiwania. Postać takiego wyrażenia to: this|that czyli oba szukane wyrazy rozdzielone pionową kreską.Należy podkreślić iż po obu stronach pionowej kreski może znaleźć się wyrażenie regularne czyli można go stosować nie tylko dla poszukiwania różnych alternatywnych napisów, ale także dla różnych alternatywnych wyrażeń regularnych. W edytorze wyrażeń regularnych zamiast wpisania pionowej kreski z klawiatury, należy skorzystać z narzędzia alternatywy i wprowadzić alternatywne wyrażenia jedno nad drugim. Dopasowanie dowolnego wyrażenia Wyrażenia regularne często są porównywane do wzorców dopasowania nazw plików w powłoce systemowej - pozwalających określić pewien zbiór nazw plików za pomocą gwiazdki. Poniżej przedstawiono kilka przykładów wykorzystania wzorców dopasowania: ls *.txt - w tym przykładzie *.txt gwiazdka jest poleceniem dla powłoki dopasowującym każdy plik z rozszerzeniem .txt. cat test??.res - pasuje do każdego pliku, którego nazwa rozpoczyna się od test i zawiera dodatkowo dwa dowolne znaki, oraz rozszerzenie .res Przy zapisywaniu wzorców powłoki dla plików, gwiazdka oznacza dowolny znak zapisany dowolną liczbę razy. Innymi słowy, gwiazdka oznacza cokolwiek. W składni wyrażeń regularnych ma ona postać .*. Kropka pasuje do dowolnego pojedynczego znaku tzn. tylko jednego znaku, zaś gwiazdka oznacza iż poprzedzające ją wyrażenie regularne powinno być dopasowane dowolną liczbę razy (albo 0 razy). Razem zapisane oznacza to dopasowanie dowolnego pojedynczego znaku dowolną liczbę razy. Mimo iż wydaje się to zbytnio skomplikowane, to jednak daje to ogromne możliwości. Wyobraźmy sobie takie proste wyrażenie regularne: a. Litera a sama w sobie jest wyrażeniem regularnym pasującym do pojedynczej litery. Jeżeli dodamy do niej gwiazdkę zapisując a*, to otrzymujemy wyrażenie pasujące do dowolnej liczby liter a (lub do pustego ciągu znaków). Wyrażenia regularne można ze sobą łączyć zapisując je po kolei, np. ba(na)*. Zapis (na)* oznacza, że wyrażenie w nawiasach może się powtarzać dowolną liczbę razy lub 0 razy . Wyobrazić sobie można co się stanie po wpisaniu tego wyrażenia w polu wyszukiwania edytora tekstu. Spowoduje ono wyszukanie następujących słów: ba, bana, banana, bananananananana (i innych podobnych). Po przyswojeniu powyższych informacji, użytkownik nie powinien mieć kłopotu z zapisaniem wzorca nazwy pliku dla powłoki test??.res jako wyrażenia regularnego. Będzie ono mieć postać test..\.res. Ponieważ kropka w wyrażeniu regularnym oznacza dowolny znak, aby znaleźć kropkę w tekście należy zapisać ją jako \.Jest to tak zwana sekwencja specjalna. Innymi słowy wyrażenie regularne \. pasuje do kropki w tekście, zaś sama kropka pasuje do dowolnego znaku. W edytorze wyrażeń regularnych, powtarzające się wyrażenia regularne są tworzone za pomocą narzędzia powtarzania. Zamiana wszystkich znaków <literal>&</literal> na <literal>&amp;</literal> w dokumencie formatu HTML. W składni HTML znak specjalny & musi być zapisany jako &amp; - jest to podobne wymaganie jak w sekwencjach specjalnych w wyrażeniach regularnych. Wyobraźmy sobie, iż użytkownik stworzył dokument HTML w zwykłym edytorze (np. XEmacs lub Kate), zapominając o tej zasadzie. Jak by się poczuł gdyby się okazało iż musi zamienić każde wystąpienie & na &amp;? Można tego dokonać w prosty sposób za pomocą zwykłego mechanizmu wyszukiwania i zastępowania tekstu. Jednak ma on pewne wady. Wyobraźmy sobie, że użytkownik czasami pisał kod HTML zgodnie z zasadami, a czasami nie. Bezwarunkowe zastąpienie tekstów spowodowałoby iż napis &amp; zostałby zastąpiony napisem &amp;amp;. Właściwym postępowaniem jest zamienianie napisu & ale tylko wtedy gdy nie następuje po nim napis: amp;. Można tego dokonać z wykorzystaniem mechanizmu pozytywnych odnośników w przód w wyrażeniach regularnych . Wyrażenie regularne pasujace do znaku &, ale tylko takiego po którym nie występuje napis amp; wygląda następująco: &(?!amp;). Oczywiście jest to bardziej zrozumiałe w graficznym zapisie edytora wyrażeń, gdzie wystarczy skorzystać narzędzia odnośników do przodu. Korzystanie z edytora wyrażeń regularnych W tym rozdziale opisane zostaną podstawowe zasady działania programu. Zawartość ekranu Najważniejszą częścią okna edytora jest obszar, w którym użytkownik rysuje swoje wyrażenie regularne. Obszar ten to duża pusta część okna zaznaczona szarym kolorem. Ponad obszarem edycyjnym widoczne są dwa paski narzędzi, pierwszy zawierający operacje edycyjne - stanowiące coś w rodzaju narzędzi rysownika w programie graficznym. Drugi pasek narzędzi zawiera przyciski Co to jest? oraz przyciski cofania i ponawiania. Poniżej obszaru edycyjnego widoczne jest budowane wyrażenie regularne w tradycyjnej składni znakowej. Jest ono na bieżąco aktualizowane podczas edycji wyrażenia w edytorze graficznym. Można zmieniać wyrażenie regularne w składni znakowej, edytor graficzny na bieżąco przedstawi dokonane tam zmiany. Ostatnią częścią jest widoczne po lewej stronie obszaru edycyjnego pole listy, zawierające zdefiniowane wyrażenia regularne. Służą one dwóm celom: (1) Przy wczytaniu wyrażenia do edytora wyświetlane jest ono w ładniejszy lub bardziej czytelny sposób, poprzez zamianę najczęściej występujących wyrażeń regularnych ich opisowymi odpowiednikami. W widocznym powyżej zrzucie ekranu, widać jak zapisane znakowo wyrażenie ".*" zostało zamienione na prostokąt z napisem "anything" (cokolwiek). (2) Przy tworzeniu własnego wyrażenia regularnego, można skorzystać z listy predefiniowanych elementów budulcowych. Więcej na temat tworzenia i zapisywania własnych wyrażeń regularnych na tej liście znajduje się w części: wyrażenia regularne użytkownika. Narzędzia edycyjne Niniejszy rozdział zakłada iż czytelnik zaznajomił się z tekstem czym są wyrażenia regularne lub posiada już wiedzę na ten temat. Wszystkie narzędzia umieszczone są na pasku znajdującym się nad obszarem roboczym. Poniżej zostały opisane poszczególne narzędzia. Narzędzie zaznaczania Narzędzie zaznaczania zachowuje się podobnie jak w dowolnym innych programie graficznym i służy zaznaczaniu elementów dla operacji kopiuj-wklej oraz przenieś i upuść. Narzędzie tekstu Za pomocą tego narzędzia wprowadza się do wyrażenia poszukiwany fragment tekstu. Jest poszukiwany dosłownie ten fragment, użytkownik nie musi się martwić o zapisywanie znaków w postaci sekwencji specjalnych. W omawianym wcześniej przykładzie, utworzone zostanie następujące wyrażenie regularne: abc\*\\\) Narzędzie znaków Za pomocą tego narzędzia wprowadza się do wyrażenia regularnego polecenia wyszukiwania zakresów znaków alfabetycznych. Przykładowe wyrażenia to: [0-9], [^a-zA-Z,_]. Użycie tego narzędzia spowoduje wyświetlenia okna dialogowego, w którym można określić poszukiwane zakresy znaków. Więcej na ten temat w części dotyczącej powtórzeń w wyrażeniach regularnych. Narzędzie dowolnego znaku Jest to "kropka" (.) w wyrażeniu regularnym. Pasuje do dowolnego pojedynczego znaku. Narzędzie powtórzeń Określa powtarzające się elementy wyrażenia regularnego. W składni znakowej są do tego używane znaki gwiazdki (*), plusa (+), pytajnika (?) oraz zakresu ({3,5}). Po umieszczeniu w obszarze edycyjnym elementu za pomocą tego narzędzia pojawi się okno dialogowe, w którym wprowadza się informacje o wymaganej ilości powtórzeń. Użytkownik wprowadza treść, która ma się powtarzać, w polu znajdującym się wewnątrz prostokąta wstawionego za pomocą narzędzia powtórzeń. Elementy powtarzające się mogą być tworzone od zewnątrz lub od wewnątrz. To znaczy iż można najpierw narysować elementy, które należy powtarzać, wybrać je i użyć narzędzia powtórzeń. Można także najpierw wprowadzić element powtórzenia i narysować wewnątrz niego wyrażenia, które mają być powtarzane. Więcej na ten temat w części dotyczącej powtórzeń w wyrażeniach regularnych. Narzędzie alternatywy Jest to wyrażenie regularne definiujące alternatywę (|). Wprowadzanie alternatywnych wyrażeń polega na wprowadzaniu jedno nad drugim każdego z nich w prostokącie utworzonym przez to narzędzie. Więcej na ten temat w sekcji wyrażenia alternatywne. Narzędzie złożonych wyrażeń regularnych Narzędzie to nie stanowi samo w sobie wyrażenia regularnego. Jest wykorzystywane do grupowania części wyrażenia w prostokącie, który w prosty sposób może być zwinięty (wyświetlany będzie jedynie tytuł). Widoczne jest to w prawej części zrzutu ekranu znajdującego się powyżej. Narzędzia: początek i koniec wiersza Narzędzia początku i końca wiersza dopasowują odpowiednio początek i koniec wiersza w przeszukiwanym tekście. Wyrażenie regularne na przedstawionym powyżej ekranie dopasowuje jedynie spacje. Więcej na ten temat w wyrażenia regularne określające pozycję. Narzędzia dopasowujące granicę wyrazu (lub jej brak) Narzędzia te pasują do granicy wyrazu lub granicy nie-wyrazu. Wyrażenie przedstawione na ekranie dopasuje więc wszystkie wyrazy zaczynające się od the. Jednak sam wyraz the nie zostanie dopasowany. Więcej na ten temat w wyrażenia regularne określające granice tekstu. Narzędzia pozytywnego/negatywnego odnośnika w przód Narzędzia odnośników w przód określają pozytywne lub negatywne wyrażenie regularne. Dopasowane wyrażenie częściowe (zdefiniowane w odnośniku) nie stanie się jednak częścią dopasowania całego wyrażenia. Uwaga: Odnośniki w przód można umieszczać tylko na końcu wyrażenia regularnego. Edytor wyrażeń nie posiada mechanizmu wymuszającego takie zachowanie. Więcej na ten temat odnośniki w przód w wyrażeniach regularnych. Wyrażenia regularne użytkownika Po lewej stronie obszaru edycji widoczne jest pole listy zawierające zdefiniowane przez użytkownika wyrażenia regularne. Część z nich jest dostarczana wraz z instalacją środowiska KDE, pozostałe są dodawane samodzielnie. Ta lista wyrażeń służy dwóm celom (opisanym tutaj): pierwszy to dostarczenie elementów budulcowych dla tworzonych wyrażeń, drugi to ładniejsze i bardziej czytelne ich wyświetlanie. Można zapisywać stworzone wyrażenia regularne, naciskając prawym przyciskiem myszki w obszarze edycyjnym i wybierając z menu Zapisz wyrażenie regularne. Jeżeli zapisywane wyrażenie zostało zgrupowane za pomocą narzędzia złożonych wyrażeń regularnych to spowoduje że budowane z niego inne wyrażenia będą wyświetlane w sposób bardziej czytelny. Użytkownik może zmieniać nazwę lub usuwać zdefiniowane wyrażenia regularne naciskając prawym przyciskiem na odpowiedniej pozycji wyświetlonej na liście zapisanych wyrażeń. Zgłaszanie błędów i propozycji nowych funkcji programu Zgłaszanie błędów i propozycji ulepszeń powinno się odbywać za pomocą Systemu śledzenia błędów KDE. Zanim użytkownik zgłosi błąd lub propozycję usprawnienia, powinien sprawdzić czy wcześniej ktoś już czegoś podobnego nie zgłosił. Najczęściej zadawane pytania Czy edytor wyrażeń regularnych obsługuje mechanizm odwołań wstecznych? W chwili obecnej program nie obsługuje tego mechanizmu. Jego obsługa planowana jest w kolejnej wersji programu. Czy edytor wyrażeń regularnych ma funkcję pokazywania dopasowanych fragmentów? Nie, ale możliwe iż ta funkcja pojawi się w kolejnej wersji. Tworzę programy dla środowiska KDE, czy mogę używać komponentu wyrażeń regularnych w swoich programach? Zobacz dokumentację interfejsu klasy KRegExpEditorInterface. Dlaczego nie widać przycisku <emphasis>Edytuj wyrażenie regularne</emphasis> w Konquerorze lub innych programach środowiska KDE? Komponent wyrażeń regularnych jest częścią pakiedu KDE-utils. Jeżeli ten pakiet nie został zainstalowany w systemie to przycisk edytora wyrażeń regularnych nie będzie widoczny w innych programach. Zasługi i licencje Prawa autorskie do dokumentacji (c) 2001, Jesper K. Pedersen blackie@kde.org &underGPL; &underFDL;