Переклад не закінчено. Будь ласка, допоможіть перекласти цю статтю з англійської.
Регулярні вирази – шаблони, що використовуються для пошуку комбінацій символів в рядках. В JavaScript регулярні символи також є обʼєктами. Ці шаблони використовуються з методами exec
та test
обʼєктів RegExp
, та з методами match
, replace
, search
, та split
обʼєктів String
. В цьому розділі описуються регулярні вирази в JavaScript.
Створення регулярних виразів
Ви можете створювати регулярні вирази двома способами:
Використовуючи літерал регулярного виразу, який складається з шаблону між символами слешів:
var re = /ab+c/;
Літерал регулярного виразу призводить до компіляції регулярного виразу під час завантаження скрипту. У випадках, коли регулярний вираз буде залишатись постійним, використовуйте його для покращення продуктивності.
Або викликаючи функцію конструктора обʼєкта RegExp
object:
var re = new RegExp("ab+c");
Використання функції конструктора призводить до компіляції регулярного виразу під час виконання. Використовуйте функцію конструктора у випадках, коли вам відомо, що шаблон регулярного виразу буде змінюватись, або він вам невідомий та ви отримуєте його з іншого джерела, наприклад з вводу користувача.
Створення шаблону регулярного виразу
Шаблон регулярного виразу складається зі звичайних символів, наприклад /abc/
, або комбінації звичайних та спеціальних символів – /ab*c/
або /Chapter (\d+)\.\d*/
. Останій приклад містить дужки, які використовуються як запамʼятовуючий пристрiй. Збіг з цією частиною шаблону запамʼятовується для подальшого використання, більш докладно про це в розділі Використання збігів підрядків у дужках.
Використання простих шаблонів
Прості шаблони складаються з символів, для яких потрібно знайти безпосередній збіг. Наприклад, шаблон /abc/
збігається з комбінацією символів в рядку тільки у випадку, коли символи 'abc' опиняються поруч саме в такому порядку. Збіг буде вдали в рядках "Hi, do you know your abc's?" та "The latest airplane designs evolved from slabcraft." В обох випадках шаблон збігається з підрядком 'abc'. В рядку 'Grab crab' збігу не буде, так як він містить підрядок 'ab c', що не збігається точно з підрядком 'abc'.
Використання спеціальних символів
Коли пошук збігу вимагає чогось більшого ніж безпосередній збіг, наприклад пошук одного чи більше символу 'b', або пошуку пробілів, шаблон включає спеціальні символи. Так, шаблон /ab*c/
збігається з будь-якою символьною комбінацією, де за символом 'a' йде нуль чи більше символів 'b' (*
значить 0 чи більше випадків появи попереднього елемента) за яким відразу йде символ 'c'. В рядку "cbbabbbbcdebc," шаблон збігається з підрядком 'abbbbc'.
Наступна таблиця містить повний перелік та опис спеціальних символів, які використовуються в регулярних виразах.
Символ | Значення |
---|---|
\ |
Відповідає одному з наступних правил: |
^ |
Збігається з початком вводу. Якщо флаг багаторядковості має значення true, також означає збіг безпеосередньо після символу переносу рядка. Наприклад, /^A/ не має збігу з 'A' в "an A", але має збіг в рядку "An E".Символ ' ^ ' має відміне значення, коли він зʼявляється на початку шаблону набору символів. Ознайомтесь з розділом доповнений набір символів для отримання деталей та прикладів. |
$ |
Збігається з кінцем вводу. Якщо флаг багаторядковості має значення true, також означає збіг безпеосередньо перед символом переносу рядка. Наприклад, |
* |
Відповідає попередньому символу, що повторюється 0 чи більше разів. Еквівалент Наприклад, |
+ |
Відповідає попередньому символу, що повторюється 1 чи більше разів. Еквівалент Наприклад, |
? |
Відповідає попередньому символу, що повторюється 1 чи більше разів. Еквівалент {0,1} .Наприклад, /e?le?/ відповідає 'el' в "angel" та 'le' в "angle", а також 'l' в "oslo".У разі використання відразу після квантифікаторів *, +, ?, або {}, робить їх ледачими або нежадібними (збіг з найменш можливою кількістю символів), на відміну від типової поведінки, що є жадібною (збіг з максимально можливою кількістю символів). Наприклад, застосування /\d+/ до "123abc" знайде "123". Але застосування /\d+?/ до тогож самого рядка знайде лише "1".Також використовується у випереджуючих твердженнях, як про це йдеться у в описах x(?=y) та x(?!y) в цій таблиці. |
. |
(Десяткова точка) відповідає будь-якому одиничному символу, крім символу переносу рядка. Наприклад, |
(x) |
Відповідає 'x' та запамʼятовує збіг, як показується у прикладі далі. Дужки також називають захоплюючими дужками. |
(?:x) |
Відповідає 'x', але не запамʼятовує збіг. Такий випадок називається незахоплючими дужками, і дозволяє вам визначати під-вирази для роботи з операторами ругулярних виразів. Розглянемо приклад /(?:foo){1,2}/ . Якщо б шаблон був /foo{1,2}/ , символи {1,2} застосовувались би тільки до останього символу 'o' в 'foo'. В незахоплюючих дужках {1,2} застосовується до всього слова 'foo'. |
x(?=y) |
Відповідає 'x' тільки якщо за 'x' йде 'y'. Це називається випередження. Наприклад, |
x(?!y) |
Відповідає 'x' тільки якщо за 'x' не йде 'y'. Це називається відʼємним випередженням. Наприклад, |
x|y |
Відповідає 'x' або 'y'. Наприклад, |
{n} |
Відповідає точній кількості n повторень попереднього виразу. N повино бути додатним цілим числом. Наприклад, /a{2}/ не матиме збігів для 'a' в "candy," але збігатиметься з усіма a в "caandy," та двом першим a в "caaandy." |
{n,m} |
Де Наприклад, |
[xyz] |
Набір символів. Відповідає збігу з будь-яким із символів шаблону, включаючи керуючі послідовності. Спеціальні символи такі як точка (. ) та зірочка (* ) не є спецсимволами в середині набору символів та не потребують екранування. Ви можете задавати послідовності використовуючи дефіс, як в наступному прикладі.Шаблон [a-d] , що представляє теж саме що й [abcd] , збігається з 'b' в "brisket" та з 'c' в "city". Шаблони /[a-z.]+/ та /[\w.]+/ збігаються зі всім рядком "test.i.ng". |
[^xyz] |
Відʼємний або компліментарний набір змін. Цей вираз відповідає збігу з будь-чим що не міститься в квадратних дужках. Ви можете зазначити діапазон використовуючи дефіс. Все що працює зі звичайним набором символів спрацює і в цьому випадку. Наприклад, |
[\b] |
Відповідає символу backspace (U+0008). Потрібно використовувати квадратні дужки, якщо ви бажаєете отримати збіг з літералом backspace. (Не треба плутати з \b .) |
\b |
Відповідає межі слова. Межа слова відповідає позиції де ліетрному символу не передує або слідує за ним інший літерний символ. Зауважте, що межа слова не включається до збігу. Іншими словами його довжина дорівнює нулю. (Не треба плутати з Приклади: Примітка: Рушій регулярних виразів JavaScript визначає особливий набір символів що є літерними символами. Будь-який символ не з цього переліка вважається розділовим знаком - межею слова. Цей набір символів є доволі обмеженим: він складається тільки з символів латинської абетки в верхньому та нижньому регістрах, цифр та символу підкресленя. Акцентовані літери, такі як "é" або "ü", несподівано, вважаються розділовими знаками. |
\B |
Відповідає межі не-слова. Цей літерал відповідає позиції де попередній та наступний символи є символами одного типу: Тож обидва символи повині бути літерними, або не-літерними символами. Початок та кінець рядка вважаються не-літерними символами. Наприклад, |
\cX |
Де X є символом в діапазоні від A до Z. Відповідає керуючим символам в рядку. Наприклад, |
\d |
Відповідає цифровому символу. Еквівалент Наприклад, |
\D |
Відповідає не-цифровому символу. Еквівалент Наприклад, |
\f |
Відповідає символу прогону сторінки (U+000C). |
\n |
Відповідає символу переводу рядка (U+000A). |
\r |
Відповідає символу повернення каретки (U+000D). |
\s |
Відповідає одиничному пробільному символу, включаючи пробіл, табуляцію, прогін сторінки, перевод рядка. Еквівалент Наприклад, |
\S |
Відповідає одиничному непробільному символу. Еквівалент Наприклад, |
\t |
Відповідає табуляції (U+0009). |
\v |
Відповідає вертикальній табуляції (U+000B). |
\w |
Відповідає будь-якому літерно-цифровому символу включаючи символ підкреслювання. Еквівалент Наприклад, |
\W |
Відповідає будь-якому не-літерному символу. Еквівалент Наприклад, |
\n |
Де n є додатним цілим числом, зворотнє посилання на останій збіг підрядка з n-х відповідних круглих дужок шаблона регулярного виразу (рахуючи від лівої дужки). Наприклад, |
\0 |
Відповідає символу NULL (U+0000). Не використовуйте цей символ разом з іншими цифрами, тому що \0<digits> є вісімковою керуючою послідовністю. |
\xhh |
Відповідає символу з кодом hh (два шістнадцяткові знаки) |
\uhhhh |
Відповідає символу з кодом hhhh (чотири шістнадцяткові знаки). |
\u{hhhh} |
(тільки разом з прапором u) Відповідає символу Юнікод з коом hhhh (шістнадцяткові знаки). |
Екранований ввід користувача буде вважатись літерною послідовністю після застосування регулярного виразу для простої заміни:
function escapeRegExp(string){ return string.replace(/[.*+?^${}()|[\]\\]/g, "\\$&"); // $& - підстановка результату }
Використання дужок
Дужки навколо будь-якої частини регулярного виразу означають, що ця частина порівнюванного рядка буде збережена. Після цього, ця частина рядка може бути вкликана для повторного використання, більш докладно у Використання збігів підрядків у дужках.
Наприклад, шаблон /Chapter (\d+)\.\d*/
показує додатково екрановані та спеціальні символи частини шаблону, яку потрібно запамʼятати. Він відповідає точному збігу слова 'Chapter ' за яким йде один чи більше цифрових символів (\d
означає будь-який цифровий символ, а +
означає 1 чи більше разів), за якими йде десяткова точка (яка сама по собі є спеціальним символом; додавання слеша \ перед точкою дозволяє зробити її звичайним символом '.'), за якою йде будь-яке число, що повторюється від 0 та більше разів (\d
означає числовий символ, *
означає 0 та більше разів). На додачу, дужки використовуються для того, щоб запамʼятати першу послідовність числових символів.
Цей шаблон в рядку "Open Chapter 4.3, paragraph 6" знайде числовий символ '4' та запамʼятає його. Шаблон не знайде збігів в "Chapter 3 and 4", тому що рядок не містить точку після '3'.
Для пошуку відповідності підрядка в дужках без його запамʼятовування. додавайте на початку шаблона в дужках комбінацію ?:
. Наприклад, (?:\d+)
відповідає одному чи білше числовому символу але без їх запамʼятовування.
Робота з регулярними виразами
Regular expressions are used with the RegExp
methods test
and exec
and with the String
methods match
, replace
, search
, and split
. These methods are explained in detail in the JavaScript reference.
Method | Description |
---|---|
exec |
A RegExp method that executes a search for a match in a string. It returns an array of information. |
test |
A RegExp method that tests for a match in a string. It returns true or false. |
match |
A String method that executes a search for a match in a string. It returns an array of information or null on a mismatch. |
search |
A String method that tests for a match in a string. It returns the index of the match, or -1 if the search fails. |
replace |
A String method that executes a search for a match in a string, and replaces the matched substring with a replacement substring. |
split |
A String method that uses a regular expression or a fixed string to break a string into an array of substrings. |
When you want to know whether a pattern is found in a string, use the test
or search
method; for more information (but slower execution) use the exec
or match
methods. If you use exec
or match
and if the match succeeds, these methods return an array and update properties of the associated regular expression object and also of the predefined regular expression object, RegExp
. If the match fails, the exec
method returns null
(which coerces to false
).
In the following example, the script uses the exec
method to find a match in a string.
var myRe = /d(b+)d/g; var myArray = myRe.exec("cdbbdbsbz");
If you do not need to access the properties of the regular expression, an alternative way of creating myArray
is with this script:
var myArray = /d(b+)d/g.exec("cdbbdbsbz");
If you want to construct the regular expression from a string, yet another alternative is this script:
var myRe = new RegExp("d(b+)d", "g"); var myArray = myRe.exec("cdbbdbsbz");
With these scripts, the match succeeds and returns the array and updates the properties shown in the following table.
Object | Property or index | Description | In this example |
---|---|---|---|
myArray |
The matched string and all remembered substrings. | ["dbbd", "bb"] |
|
index |
The 0-based index of the match in the input string. | 1 |
|
input |
The original string. | "cdbbdbsbz" |
|
[0] |
The last matched characters. | "dbbd" |
|
myRe |
lastIndex |
The index at which to start the next match. (This property is set only if the regular expression uses the g option, described in Advanced Searching With Flags.) | 5 |
source |
The text of the pattern. Updated at the time that the regular expression is created, not executed. | "d(b+)d" |
As shown in the second form of this example, you can use a regular expression created with an object initializer without assigning it to a variable. If you do, however, every occurrence is a new regular expression. For this reason, if you use this form without assigning it to a variable, you cannot subsequently access the properties of that regular expression. For example, assume you have this script:
var myRe = /d(b+)d/g; var myArray = myRe.exec("cdbbdbsbz"); console.log("The value of lastIndex is " + myRe.lastIndex); // "The value of lastIndex is 5"
However, if you have this script:
var myArray = /d(b+)d/g.exec("cdbbdbsbz"); console.log("The value of lastIndex is " + /d(b+)d/g.lastIndex); // "The value of lastIndex is 0"
The occurrences of /d(b+)d/g
in the two statements are different regular expression objects and hence have different values for their lastIndex
property. If you need to access the properties of a regular expression created with an object initializer, you should first assign it to a variable.
Використання збігів підрядків у дужках
Including parentheses in a regular expression pattern causes the corresponding submatch to be remembered. For example, /a(b)c/
matches the characters 'abc' and remembers 'b'. To recall these parenthesized substring matches, use the Array
elements [1]
, ..., [n]
.
The number of possible parenthesized substrings is unlimited. The returned array holds all that were found. The following examples illustrate how to use parenthesized substring matches.
The following script uses the replace()
method to switch the words in the string. For the replacement text, the script uses the $1
and $2
in the replacement to denote the first and second parenthesized substring matches.
var re = /(\w+)\s(\w+)/; var str = "John Smith"; var newstr = str.replace(re, "$2, $1"); console.log(newstr);
This prints "Smith, John".
Advanced searching with flags
Regular expressions have four optional flags that allow for global and case insensitive searching. These flags can be used separately or together in any order, and are included as part of the regular expression.
Flag | Description |
---|---|
g |
Global search. |
i | Case-insensitive search. |
m | Multi-line search. |
y | Perform a "sticky" search that matches starting at the current position in the target string. See sticky |
To include a flag with the regular expression, use this syntax:
var re = /pattern/flags;
or
var re = new RegExp("pattern", "flags");
Note that the flags are an integral part of a regular expression. They cannot be added or removed later.
For example, re = /\w+\s/g
creates a regular expression that looks for one or more characters followed by a space, and it looks for this combination throughout the string.
var re = /\w+\s/g; var str = "fee fi fo fum"; var myArray = str.match(re); console.log(myArray);
This displays ["fee ", "fi ", "fo "]. In this example, you could replace the line:
var re = /\w+\s/g;
with:
var re = new RegExp("\\w+\\s", "g");
and get the same result.
The m
flag is used to specify that a multiline input string should be treated as multiple lines. If the m
flag is used, ^
and $
match at the start or end of any line within the input string instead of the start or end of the entire string.
Examples
The following examples show some uses of regular expressions.
Changing the order in an input string
The following example illustrates the formation of regular expressions and the use of string.split()
and string.replace()
. It cleans a roughly formatted input string containing names (first name first) separated by blanks, tabs and exactly one semicolon. Finally, it reverses the name order (last name first) and sorts the list.
// The name string contains multiple spaces and tabs, // and may have multiple spaces between first and last names. var names = "Harry Trump ;Fred Barney; Helen Rigby ; Bill Abel ; Chris Hand "; var output = ["---------- Original String\n", names + "\n"]; // Prepare two regular expression patterns and array storage. // Split the string into array elements. // pattern: possible white space then semicolon then possible white space var pattern = /\s*;\s*/; // Break the string into pieces separated by the pattern above and // store the pieces in an array called nameList var nameList = names.split(pattern); // new pattern: one or more characters then spaces then characters. // Use parentheses to "memorize" portions of the pattern. // The memorized portions are referred to later. pattern = /(\w+)\s+(\w+)/; // New array for holding names being processed. var bySurnameList = []; // Display the name array and populate the new array // with comma-separated names, last first. // // The replace method removes anything matching the pattern // and replaces it with the memorized string—second memorized portion // followed by comma space followed by first memorized portion. // // The variables $1 and $2 refer to the portions // memorized while matching the pattern. output.push("---------- After Split by Regular Expression"); var i, len; for (i = 0, len = nameList.length; i < len; i++){ output.push(nameList[i]); bySurnameList[i] = nameList[i].replace(pattern, "$2, $1"); } // Display the new array. output.push("---------- Names Reversed"); for (i = 0, len = bySurnameList.length; i < len; i++){ output.push(bySurnameList[i]); } // Sort by last name, then display the sorted array. bySurnameList.sort(); output.push("---------- Sorted"); for (i = 0, len = bySurnameList.length; i < len; i++){ output.push(bySurnameList[i]); } output.push("---------- End"); console.log(output.join("\n"));
Using special characters to verify input
In the following example, the user is expected to enter a phone number. When the user presses the "Check" button, the script checks the validity of the number. If the number is valid (matches the character sequence specified by the regular expression), the script shows a message thanking the user and confirming the number. If the number is invalid, the script informs the user that the phone number is not valid.
Within non-capturing parentheses (?:
, the regular expression looks for three numeric characters \d{3}
OR |
a left parenthesis \(
followed by three digits \d{3}
, followed by a close parenthesis \)
, (end non-capturing parenthesis )
), followed by one dash, forward slash, or decimal point and when found, remember the character ([-\/\.])
, followed by three digits \d{3}
, followed by the remembered match of a dash, forward slash, or decimal point \1
, followed by four digits \d{4}
.
The Change
event activated when the user presses Enter sets the value of RegExp.input
.
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> <meta http-equiv="Content-Script-Type" content="text/javascript"> <script type="text/javascript"> var re = /(?:\d{3}|\(\d{3}\))([-\/\.])\d{3}\1\d{4}/; function testInfo(phoneInput){ var OK = re.exec(phoneInput.value); if (!OK) window.alert(phoneInput.value + " isn't a phone number with area code!"); else window.alert("Thanks, your phone number is " + OK[0]); } </script> </head> <body> <p>Enter your phone number (with area code) and then click "Check". <br>The expected format is like ###-###-####.</p> <form action="#"> <input id="phone"><button onclick="testInfo(document.getElementById('phone'));">Check</button> </form> </body> </html>