当前位置 博文首页 > Shell正则表达式学习笔记

    Shell正则表达式学习笔记

    作者:风格时光 时间:2021-07-09 18:31

    正规表示法(或称为常规表示法)是透过一些特殊字符的排列,用以搜寻/取代/删除一列或多列文字字符串, 简单的说,正规表示法就是用在字符串的处理上面的一项『表示式』。正规表示法并不是一个工具程序, 而是一个字符串处理的标准依据,如果您想要以正规表示法的方式处理字符串,就得要使用支持正规表示法的工具程序才行, 这类的工具程序很多,例如 vi, sed, awk 等等。

    一、正则表达式是什么?

    正则表达式是用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式分割、匹配、查找及替换操作。

    二、正则表达式与通配符

    1. 正则表达式

    用来在文件中匹配符合条件的字符串,正则表达式是“包含匹配”。grep、awk、sed等命令可以支持正则表达式。

    2. 正则表达式元字符

    正则表达式是通过元字符来进行字符串匹配的,具体请参考:http://www.cnblogs.com/refine1017/p/5011522.html

    3. 通配符

    用来匹配符合条件的文件名,通配符是“完全匹配”。ls、find、cp这些命令不支持正则表达式,所以只能使用shell自己的通配符来进行匹配了。

    4. 通配符包括

    * 匹配任意字符

    ? 匹配任意一个字符

     [] 匹配中括号中的任意一个字符

    三、cut命令

    cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。

    1. 常用参数

    -b :以字节为单位进行分割。这些字节位置将忽略多字节字符边界,除非也指定了 -n 标志。
    -c :以字符为单位进行分割。
    -d :自定义分隔符,默认为制表符。
    -f :与-d一起使用,指定显示哪个区域。
    -n :取消分割多字节字符。仅和 -b 标志一起使用。

    2. 示例1:打印出用制表符分割的文件的某一行

    [root@localhost shell]# cat student.txt 
    ID   Name  Gender Mark
    1    ming  F    85
    2    zhang  F    70
    3    wang  M    75
    4    li   M    90
    [root@localhost shell]# cut -f 4 student.txt 
    Mark
    85
    70
    75
    90 

    3. 示例2:打印csv文件的某一行

    [root@localhost shell]# cat student.csv 
    ID,Name,Gender,Mark
    1,ming,F,85
    2,zhang,F,70
    3,wang,M,75
    4,li,M,90
    [root@localhost shell]# cut -d "," -f 4 student.csv 
    Mark
    85
    70
    75
    90 

    4. 示例3:打印一个字符串的第几个字符

    [root@localhost shell]# echo "abcdef" | cut -c 3
    c 

    5. 示例4:截取中文字符的某一个文字

    [root@localhost shell]# echo "Shell编程" | cut -nb 1
    S
    [root@localhost shell]# echo "Shell编程" | cut -nb 2
    h
    [root@localhost shell]# echo "Shell编程" | cut -nb 3
    e
    [root@localhost shell]# echo "Shell编程" | cut -nb 4
    l
    [root@localhost shell]# echo "Shell编程" | cut -nb 5
    l
    [root@localhost shell]# echo "Shell编程" | cut -nb 8
    编
    [root@localhost shell]# echo "Shell编程" | cut -nb 11
    程 

    四、printf命令

    1. 命令格式

    printf   '输出类型输出格式'   输出内容

    2. 输出类型

    %ns:输出字符串。n代表输出几个字符,n省略则代表全部字符

    %ni:输出整数。n是指输出几个数字,n省略代表所有数字

    %m.nf:输出浮点数。m和n是数字,指代输出的整数位数和小数位数。如%8.2f则代表共输出8位数,其中2位是小树,6位是整数。

    3. 输出格式

    \a:输出警告声音

    \b:输出退格键(Backspace)

    \f:清除屏幕

    \n:换行

    \r:回车(Enter)

    \t:水平输出退格键

    \v:垂直输出退格键 

    4. 示例

    [root@localhost ~]# printf '%i %s %i %s %i\n' 1 "+" 2 "=" 3
    1 + 2 = 3
    [root@localhost ~]# printf '%i-%i-%i %i:%i:%i\n' 2015 12 3 21 56 30
    2015-12-3 21:56:30 

    五、awk命令

    1. 命令格式

    awk '条件1{动作1}条件2{动作2}...' 文件名

    条件:一般使用关系表达式作为条件,如x > 10

    动作:格式化输出、流程控制语句

    2. 示例1:提取制表符分割的文件的某一行

    [root@localhost shell]# cat student.txt 
    ID   Name  Gender Mark
    1    ming  F    85
    2    zhang  F    70
    3    wang  M    75
    4    li   M    90
    [root@localhost shell]# awk '{print $1 "\t" $4}' student.txt 
    ID   Mark
    1    85
    2    70
    3    75
    4    90 

    3. 示例2:获取磁盘利用率

    [root@localhost shell]# df -h
    Filesystem      Size Used Avail Use% Mounted on
    /dev/sda2       18G 2.4G  14G 15% /
    /dev/sda1       289M  16M 258M  6% /boot
    tmpfs         411M   0 411M  0% /dev/shm
    [root@localhost shell]# df -h | grep "sda1" | awk '{print $5}'
    6% 

    六、sed命令

    sed是一种几乎包括在所有UNIX平台(包括Linux)的轻量级流编辑器。sed主要是用来将数据进行选取、替换、删除、新增的命令。

    1. 命令格式

    sed [选项] '[动作]' 文件名

    2. 选项

    -n:一般sed命令会把所有数据都输出到屏幕,如果加入此选择,则只会把经过sed命令处理的行输出到屏幕。

    -e:允许对输入数据应用多条sed命令编辑。

    -i:用sed的修改结果直接修改读取数据的文件,而不是由屏幕输出。

    3. 动作

    a:追加,在当前行后添加一行或多行

    c:行替换,用c后面的字符串替换原数据行

    i:插入,在当前行前插入一行或多行。

    d:删除,删除指定的行

    p:打印,输出指定的行

    s:字符串替换,用一个字符串替换另一个字符串。格式为“行范围/s/旧字符串/新字符串/g”(和vim中的替换格式类似)

    4. 示例

    [root@localhost shell]# cat student.txt 
    ID   Name  Gender Mark
    1    ming  F    85
    2    zhang  F    70
    3    wang  M    75
    4    li   M    90#测试-n参数
    [root@localhost shell]# sed -n '2p' student.txt 
    1    ming  F    85#测试单行删除
    [root@localhost shell]# sed '2d' student.txt 
    ID   Name  Gender Mark
    2    zhang  F    70
    3    wang  M    75
    4    li   M    90#测试多行删除
    [root@localhost shell]# sed '2,4d' student.txt 
    ID   Name  Gender Mark
    4    li   M    90#测试追加
    [root@localhost shell]# sed '2a test append' student.txt
    ID   Name  Gender Mark
    1    ming  F    85
    test append
    2    zhang  F    70
    3    wang  M    75
    4    li   M    90#测试插入
    [root@localhost shell]# sed '2i test insert' student.txt
    ID   Name  Gender Mark
    test insert
    1    ming  F    85
    2    zhang  F    70
    3    wang  M    75
    4    li   M    90#测试行替换
    [root@localhost shell]# sed '2c test replace' student.txt
    ID   Name  Gender Mark
    test replace
    2    zhang  F    70
    3    wang  M    75
    4    li   M    90#测试内容替换
    [root@localhost shell]# sed '2s/ming/replace/g' student.txt
    ID   Name  Gender Mark
    1    replace F    85
    2    zhang  F    70
    3    wang  M    75
    4    li   M    90

    下面看看简单的正则表达式的匹配范例,通过这些范例,相信可以比较熟练的掌握基本的正则表达式的使用:

    HelloWorld   匹配任意一行任何位置上的10个字母:HelloWorld
    ^HelloWorld  匹配出现在行首的10个字母:HelloWorld
    HelloWorld$  匹配出现在行尾的10个字母:HelloWorld
    ^HelloWorld$  匹配只包括这10个字母:HelloWorld的一行
    [Hh]elloWorld  匹配HelloWorld或者helloworld
    Hello.World   匹配含有Hello这5个字母,再加上任何一个字符,再加上world
    Hello*World  匹配含有Hello这5个字母,再加上任意个字母,再加上world

    在上面的例子中利用“.”或者“*”,可以匹配0个或者多个字符,但是如果要匹配的字符是一个范围,这时候就要用到“{}”,因为shell中的 "{"和"}"有特殊含义,所以需要使用转移字符“\”,例如:
    [kouyang@kouyang  kouyang] #  grep -n 'o\{2\}'  hello.txt
    在hello.txt文件中找出出现两个连续的"o"的那一行

    [kouyang@kouyang kouyang]# grep  -n 'go\{2, 5\}g' hello.txt
    在hello.txt文件中找到go后面出现2~5个"o"后面再紧接着一个"g"的单词的那一行

    jsjbwy