Linux运维学习历程-第十天-文件查找工具

概述:本篇主要讲解locate命令和find命令,来帮助我们在linux中完成文件查找,方便我们快速定位文件。

为彭州等地区用户提供了全套网页设计制作服务,及彭州网站建设行业解决方案。主营业务为网站设计、做网站、彭州网站设计,以传统方式定制建设网站,并提供域名空间备案等一条龙服务,秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求,就会得到认可,从而选择与我们长期合作。这样,我们也可以走得更远!

一、文件查找

   即在文件系统上查找符合条件的文件,常用工具有locate和find

 1、locate命令

   locate命令其实是find -name的另一种写法,但是要比后者快得多,原因在于它不搜索具体目录,而是搜索查询系统上预建的文件索引数据库/var/lib/locatedb或者/var/lib/mlocate/mlocate.db,这个数据库中含有本地所有文件信息。

   注意:Linux系统自动创建这个数据库,并且每天系统较为空闲时自动进行(周期性任务)更新一次,所以使用locate命令查不到最新变动过的文件。为了避免这种情况,可以在使用locate之前,先使用管理员手动更新数据库(updatedb手动更新数据库。同时由于更新构建索引数据库过程需要遍历整个根文件系统中的文件,极消耗资源,所以更新此数据库最好在系统空闲时。

locate工作特点:

    依赖于事先构建的索引/var/lib/mlocate/mlocate.db

    查找速度快(直接搜索数据库)

    模糊查找(非精确匹配,含有关键字即符合条件)

    非实时查找(索引数据库的构建是非实时的,因此locate也不能实时查找)

    搜索的是文件的全路径,不仅仅是文件名(以文件的绝对路径为搜索内容,同时即使使用-b选项也只是基名位置含有关键字即可)

    可能只搜索用户具备读取和执行权限的目录(用户没有对目录读与执行权限就可能无法获取该目录下的文件列表信息,因而影响查找结果)

   locate [选项]... 模式...

     常用选项:

       -A,--all           显示与所有模式都匹配的条目而不是要求只有一个匹配    

      -b, --basename        匹配唯一的路径名称的基本文件名

      -c, --count          只显示找到条目的数量

      -d, --database DBPATH   用DBPATH 替代默认的数据库(/var/lib/mlocate/mlocate.db)

       -i, --ignore-case        匹配模式时忽略大小写区别     

       -r, --regexp REGEXP      搜索基本正则表达式 REGEXP 来代替模式

          --regex            模式是扩展正则表达式

     拓展选项:(了解)     

       -e, --existing        只显示当前存在的文件条目

      -L, --follow         当文件存在时跟随蔓延的符号链接 (默认)

      -l, --limit, -n LIMIT    限制为 LIMIT项目的输出 (或 计数) 

      -m, --mmap            忽略向后兼容性

      -P, --nofollow, -H       当检查文件时不跟随蔓延的符号链接

      -0, --null            输出时以 NUL 分隔项目

      -S, --statistics        不搜索项目,显示有关每个已用数据库的统计信息

      -q, --quiet           不报告关于读取数据库的错误消息    

      -s, --stdio           忽略向后兼容性

      -w, --wholename         匹配完整路径名 (默认)

 

示例:

 匹配唯一的路径名称的基本文件名(含有关键字即可)

[root@localhost ~]# locate -b passwd
/etc/passwd
/etc/passwd-
/etc/pam.d/passwd
/etc/security/opasswd
...

只显示找到条目的数量

[root@localhost ~]# locate -c passwd
148

使用正则表达式

[root@localhost ~]#   locate -r \.repo$
/etc/bash_completion.d/createrepo
/etc/bash_completion.d/mergerepo
/etc/bash_completion.d/modifyrepo
/etc/yum.repos.d/CentOS-Base.repo

2、find命令

  find命令用来在指定目录下查找文件。任何位于参数之前的字符串都将被视为欲查找的目录名。如果使用该命令时,不设置任何参数,则find命令将在当前目录下查找子目录与文件。并且将查找到的子目录和文件全部进行显示。

find工作特点:

     通过遍历指定路径下文件系统层级结构完成文件查找(默认为当前目录下查找包括子目录内的所有文件);

    查找速度略慢(遍历查找);

    精确查找(搜索文件名与查找条件匹配);

    实时查找(现用现找);

    可能只搜索用户具备读取和执行权限的目录(用户没有对目录读与执行权限就可能无法获取该目录下的文件列表信息,因而影响查找结果);

  

 标准语法:find [-H] [-L] [-P] [-D debugopts] [-Olevel] [path...] [expression]        

 简化语法:find [OPTION] [查找路径] [查找条件表达式] [处理动作]

    查找路径:指定具体目标路径;默认为当前目录

    查找条件:指定的查找标准,可以文件名、大小、类型、权限等标准进行;默认为找出指定路径下的所有文件

    处理动作:对符合条件的文件做操作,例如-ls 详细显示 -delete删除等,默认输出至标准输出屏幕;

     匹配测试:结果通常布尔型

     根据文件名与inode查找:支持glob风格的通配符:*,?,[],[^]

              -name "pattern"

              -iname "pattern" :不区分字母大小写            

              -inum n 按inode号查找

              -samefile name 相同inode号的文件

              -links n 链接数为n的文件

              -regex pattern:基于正则表达式查找文件,匹配的是整个路径,而非文件名;

     根据文件从属关系(属主、属组)查找:

             -user USERNAME:查找属主为指定用户(UID)的所有文件

             -group GRPNAME: 查找属组为指定组(GID)的所有文件

             

             -uid UserID:查找属主为指定的UID号的所有文件

             -gid GroupID:查找属组为指定的GID号的所有文件

             

             -nouser:查找没有属主的文件

             -nogroup:查找没有属组的文件

     根据文件的类型查找:

           -type TYPE:

               f: 普通文件

               d: 目录文件

               l: 符号链接文件

               s:套接字文件

               b: 块设备文件

               c: 字符设备文件

               p: 管道文件

                       

      组合条件:

          与: -a,默认组合逻辑

          或: -o

          非: -not, !

    德·摩根定律:在命题逻辑中存在着下面这些关系:

       (非 P) 或 (非 Q) = 非(P 且 Q)

       (非 P) 且 (非 Q) = 非(P 或 Q)

    示例:

        !A -a !B = !(A -o B)

Linux运维学习历程-第十天-文件查找工具

         !A -o !B = !(A -a B)

 Linux运维学习历程-第十天-文件查找工具

      根据文件大小来查找:

    -size [+|-]#UNIT

        常用单位: k, M, G

    #UNIT: (#-1, #]

        如: 10k 表示(9k,10k]

    -#UNIT: [0,#-1]

        如: -10k 表示[0,9k]

    +#UNIT: (#,∞)

        如: +10k 表示(10k,∞)

 

     根据时间戳查找:

    以“天”为单位;

      -atime [+|-]#,

        #: [#,#+1)

        +#: [#+1,∞]

        -#: [0,#)

      -mtime

      -ctime

    以“分钟”为单位:

      -amin

      -mmin

      -cmin

    

     根据权限查找:

       -perm [/|-]MODE

        MODE: 精确权限匹配

        /MODE:任何一类用户(u,g,o)对象的权限中任意一位(r,w,x)匹配即可;

                9位权限之间存在“或”关系; 

               +MODE形式  从centos7开始淘汰

        -MODE:每一类用户(u,g,o)的权限中的每一位(r,w,x)都必须同时拥有指定权限;

                9位权限之间存在“与”关系;

        0 表示不关注

           eg:/002   -002    而且两者效果一样

举例:

    find -perm 755 会匹配权限模式恰好是755的文件

    只要当任意人有写权限时, find -perm +222就会匹配

    只有当每个人都有写权限时, find -perm -222才会匹配

    只有当其它人( other)有写权限时, find -perm -002才会匹配

处理动作    

    -print:默认的处理动作,显示至屏幕;

    -ls:类似于对查找到的文件执行“ ls -l”命令

    -delete:删除查找到的文件;

    -fls file:查找到的所有文件的长格式信息保存至指定文件中

    -ok COMMAND {} \; 对查找到的每个文件执行由COMMAND指定的命令;(固定格式)

    对于每个文件执行命令之前,都会交互式要求用户确认

eg:

[root@localhost ~]# find /etc -nouser -nogroup -ls
  6594    0 -rwxr-xrwx   1 1006     1006            0 8月 20 15:13 /etc/rc.d/init.d/test
[root@localhost ~]# find /etc -nouser -nogroup -ok chown root:root {} \;
< chown ... /etc/rc.d/init.d/test > ? y

    -exec COMMAND {} \; 对查找到的每个文件执行由COMMAND指定的命令(固定格式)

eg:

[root@localhost init.d]# find ./ -perm -656
./test
[root@localhost init.d]# find ./ -perm -656 -exec mv {} {}.danger \;
[root@localhost init.d]# ll
总用量 92
-rw-r--r--. 1 root root 13948 9月  16 2015 functions
-rwxr-xr-x. 1 root root  2989 9月  16 2015 netconsole
-rwxr-xr-x. 1 root root  6630 9月  16 2015 network
-rw-r--r--. 1 root root  1160 11月 20 2015 README
-rwxr-xrwx. 1 root root     0 8月  20 15:13 test.danger
-rwxr-xr-x. 1 root root 44264 7月  25 22:00 vmware-tools
-rwxr-xr-x. 1 root root 15721 7月  25 22:00 vmware-tools-thinprint

{}: 用于引用查找到的文件名称自身

    find传递查找到的文件至后面指定的命令时,查找到所有符合

    条件的文件一次性传递给后面的命令

    有些命令不能接受过多参数,此时命令执行可能会失败,下面方式可规避此问题

    find | xargs COMMAND

意为:find 命令查找结果以管道 | 传给后接的 xargs命令 再接接受find标准输出的命令

xargs:建立和执行来自标准输入的命令行

xargs命令是给其他命令传递参数的一个过滤器,也是组合多个命令的一个工具。它擅长将标准输入数据转换成命令行参数,xargs能够处理管道或者stdin并将其转换成特定命令的命令参数。xargs也可以将单行或多行文本输入转换为其他格式,例如多行变单行,单行变多行。xargs的默认命令是echo,空格是默认定界符。这意味着通过管道传递给xargs的输入将会包含换行和空白,不过通过xargs的处理,换行和空白将被空格取代。xargs是构建单行命令的重要组件之一。

    主要参数

        -i 用 {} 代替 传递的数据

        -I string 用string来代替传递的数据-n[数字] 设置每次传递几行数据

        -n 选项限制单个命令行的参数个数

        -t 显示执行详情

        -p 交互模式

        -P n 允许的最大线程数量为n

        -s[大小] 设置传递参数的最大字节数(小于131072字节)

        -x 大于 -s 设置的最大长度结束 xargs命令执行

    

xargs命令用法 

xargs用作替换工具,读取输入数据重新格式化后输出。 

定义一个测试文件,内有多行文本数据: 

cat test.txt 
a b c d e f g 
h i j k l m n 
o p q 
r s t 
u v w x y z

多行输入单行输出: 

cat test.txt | xargs 
a b c d e f g h i j k l m n o p q r s t u v w x y z

-n选项多行输出: 

cat test.txt | xargs -n3 
a b c 
d e f 
g h i 
j k l 
m n o 
p q r 
s t u 
v w x 
y z

-d选项可以自定义一个定界符: 

echo "nameXnameXnameXname" | xargs -dX

name name name name 

结合-n选项使用: 

echo "nameXnameXnameXname" | xargs -dX -n2

name name 

name name 

读取stdin,将格式化后的参数传递给命令 

假设一个命令为 sk.sh 和一个保存参数的文件arg.txt: 

#!/bin/bash 
#sk.sh命令内容,打印出所有参数。 
echo $* 
arg.txt文件内容: 
cat arg.txt 
aaa 
bbb 
ccc

xargs的一个选项-I,使用-I指定一个替换字符串{},这个字符串在xargs扩展时会被替换掉,当-I与xargs结合使用,每一个参数命令都会被执行一次: 

cat arg.txt | xargs -I {} ./sk.sh -p {} -l 
-p aaa -l 
-p bbb -l 
-p ccc -l

复制所有图片文件到 /data/p_w_picpaths 目录下: 

ls *.jpg | xargs -n1 -I cp {} /data/p_w_picpaths

xargs结合find使用 

用rm 删除太多的文件时候,可能得到一个错误信息:/bin/rm Argument list too long. 用xargs去避免这个问题: 

find . -type f -name "*.log" -print0 | xargs -0 rm -f

xargs -0将\0作为定界符。 

统计一个源代码目录中所有php文件的行数: 

find . -type f -name "*.php" -print0 | xargs -0 wc -l

查找所有的jpg 文件,并且压缩它们: 

find . -type f -name "*.jpg" -print | xargs tar -czvf p_w_picpaths.tar.gz xargs

其他应用 假如你有一个文件包含了很多你希望下载的URL,你能够使用xargs下载所有链接: 

cat url-list.txt | xargs wget -c

子Shell(Subshells) 运行一个shell脚本时会启动另一个命令解释器.,就好像你的命令是在命令行提示下被解释的一样,类似于批处理文件里的一系列命令。每个shell脚本有效地运行在父shell(parent shell)的一个子进程里。这个父shell是指在一个控制终端或在一个xterm窗口中给你命令指示符的进程。 

cmd1 | ( cmd2; cmd3; cmd4 ) | cmd5 

如果cmd2 是cd /,那么就会改变子Shell的工作目录,这种改变只是局限于子shell内部,cmd5则完全不知道工作目录发生的变化。

子shell是嵌在圆括号()内部的命令序列,子Shell内部定义的变量为局部变量。 子shell可用于为一组命令设定临时的环境变量: 

COMMAND1 

COMMAND2 

COMMAND3 

   IFS=: 

   PATH=/bin 

   unset TERMINFO 

   set -C 

   shift 5 

   COMMAND4 

   COMMAND5 

   exit 3      # 只是从子shell退出。 

)

# 父shell不受影响,变量值没有更改。 

COMMAND6 

COMMAND7

练习示例:

精确查找对应文件名文件

[root@localhost ~]# find /etc -name "passwd"
/etc/passwd
/etc/pam.d/passwd

根据文件或者正则表达式进行匹配 

列出当前目录及子目录下所有文件和文件夹 

find .

在/home目录下查找以.txt结尾的文件名

find /home -name "*.txt"

同上,但忽略大小写 

find /home -iname "*.txt"

当前目录及子目录下查找所有以.txt和.pdf结尾的文件

find . \( -name "*.txt" -o -name "*.pdf" \) 或 find . -name "*.txt" -o -name "*.pdf"

匹配文件路径或者文件 

find /usr/ -path "*local*"

基于正则表达式匹配文件路径 

find . -regex ".*\(\.txt\|\.pdf\)$"

同上,但忽略大小写 

find . -iregex ".*\(\.txt\|\.pdf\)$"

否定参数 找出/home下不是以.txt结尾的文件 

find /home ! -name "*.txt"

根据文件类型进行搜索 

find . -type 类型参数 

    类型参数列表: 

    f 普通文件 

    l 符号连接 

    d 目录 

    c 字符设备 

    b 块设备 

    s 套接字 

    p FIFO 

基于目录深度搜索 向下最大深度限制为3 

find . -maxdepth 3 -type f

搜索出深度距离当前目录至少2个子目录的所有文件

find . -mindepth 2 -type f

根据文件时间戳进行搜索 

find . -type f 时间戳 

UNIX/Linux文件系统每个文件都有三种时间戳: 

    访问时间(-atime/天,-amin/分钟):用户最近一次访问时间。 

    修改时间(-mtime/天,-mmin/分钟):文件最后一次修改时间。 

    变化时间(-ctime/天,-cmin/分钟):文件数据元(例如权限等)最后一次修改时间。 

搜索最近七天内被访问过的所有文件 

find . -type f -atime -7

搜索恰好在七天前被访问过的所有文件 

find . -type f -atime 7

搜索超过七天内被访问过的所有文件 

find . -type f -atime +7

搜索访问时间超过10分钟的所有文件 

find . -type f -amin +10

找出比file.log修改时间更长的所有文件 

find . -type f -newer file.log

根据文件大小进行匹配 

find . -type f -size 文件大小单元 

文件大小单元: 

    b —— 块(512字节) 

    c —— 字节 

    w —— 字(2字节) 

    k —— 千字节 

    M —— 兆字节 

    G —— 吉字节 

搜索大于10KB的文件 

find . -type f -size +10k

搜索小于10KB的文件 

find . -type f -size -10k

搜索等于10KB的文件 

find . -type f -size 10k

删除匹配文件 

删除当前目录下所有.txt文件 

find . -type f -name "*.txt" -delete

根据文件权限/所有权进行匹配 当前目录下搜索出权限为777的文件 

find . -type f -perm 777

找出当前目录下权限不是644的php文件 

find . -type f -name "*.php" ! -perm 644

找出当前目录用户tom拥有的所有文件 

find . -type f -user tom

找出当前目录用户组sunk拥有的所有文件 

find . -type f -group sunk

借助-exec选项与其他命令结合使用 找出当前目录下所有root的文件,并把所有权更改为用户tom 

find .-type f -user root -exec chown tom {} \;

上例中,{} 用于与-exec选项结合使用来匹配所有文件,然后会被替换为相应的文件名。 

找出自己家目录下所有的.txt文件并删除 

find $HOME/. -name "*.txt" -ok rm {} \;

上例中,-ok和-exec行为一样,不过它会给出提示,是否执行相应的操作。 

查找当前目录下所有.txt文件并把他们拼接起来写入到all.txt文件中 

find . -type f -name "*.txt" -exec cat {} \;> all.txt

将30天前的.log文件移动到old目录中 

find . -type f -mtime +30 -name "*.log" -exec cp {} old \;

找出当前目录下所有.txt文件并以“File:文件名”的形式打印出来 

find . -type f -name "*.txt" -exec printf "File: %s\n" {} \;

因为单行命令中-exec参数中无法使用多个命令,以下方法可以实现在-exec之后接受多条命令 -exec ./text.sh {} \; 搜索但跳出指定的目录 查找当前目录或者子目录下所有.txt文件,但是跳过子目录sk 

find . -path "./sk" -prune -o -name "*.txt" -print

find其他技巧收集 

要列出所有长度为零的文件 

find . -empty

二、作业练习:

1、查找/var目录下属主为root,且属组为mail的所有文件

[root@localhost ~]# find /var -user root -group mail
/var/spool/mail
/var/spool/mail/root

2、查找/var目录下不属于root、lp、gdm的所有文件

find /var  -not \( -user root -o -user lp -o -user gdm \)

3、查找/var目录下最近一周内其内容修改过,同时属主不为root,也不是postfix的文件

find /var -mtime -7 -not \( -user root -a -user postfi \)

4、查找当前系统上没有属主或属组,且最近一个周内曾被访问过的文件

find / -atime -7 -not \( -nouser  -a -nogroup  \)

5、查找/etc目录下大于1M且类型为普通文件的所有文件

find /etc \( -size +1M -type f \) -ls

6、查找/etc目录下所有用户都没有写权限的文件

find /etc -not -perm /222 -ls

7、查找/etc目录下至少有一类用户没有执行权限的文件

find /etc -not -perm -111 -ls

8、查找/etc/init.d目录下,所有用户都有执行权限,且其它用户有写权限的文件

find /etc/init.d/ -perm -111 -perm /002 -ls

9、查找/tmp目录下属主为非root的所有文件;

[root@localhost ~]# find /tmp ! -user root
[root@localhost ~]# find /tmp -not -user root

10、查找/tmp目录下文件名中不包含fstab字符串的文件;

[root@localhost ~]# find /tmp ! -iname "*fstab*"
[root@localhost ~]# find /tmp -not -iname "*fstab*"

11、查找/tmp目录下属主为非root,而且文件名中不包含fstab字符串的文件;

find /tmp ! -user root ! -iname "*fstab*"
find /tmp ! -user root -a ! -iname "*fstab*"
find /tmp -not -user root -a -not -iname "*fstab*"
find /tmp ! \( -user root -o -not -iname \) "*fstab*"
find /tmp -not \( -user root -o -not -iname \) "*fstab*"

本文标题:Linux运维学习历程-第十天-文件查找工具
文章来源:http://myzitong.com/article/pcicpe.html