linux命令守护,linux 进程守护

在Linux部署进程守护脚本遇到的坑

昨天在Linux做个进程守护脚本时发生了几个小问题，实属不该。先总结如下，在以后的实践中一个避免这样的问题。同时针对cron，再次深入学习实践。

让客户满意是我们工作的目标，不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户，将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴，公司提供的服务项目有：域名注册、网络空间、营销软件、网站建设、江苏网站维护、网站推广。

1、换行符问题

脚本与运行报错“：badinterpreter:Nosuchfileordirectory”。

脚本在windows下编辑，有几条命令是直接复制过来使用的，虽然vs code可以在右下角选择行尾序列，但是在实际运行时还是提示无法识别/r，每一行都多了个^M 。

\r\n： Dos和Windows采用回车+换行（CR+LF）表示下一行，即^M$

\n：而UNIX/Linux采用换行符（LF）表示下一行

\r：苹果机(MAC OS系统)则采用回车符（CR）表示下一行

2、= 赋值问题

笔者在使用if条件表达式时，知道条件要放在方括号之间，并且要有空格。误以为变量赋值=也要空格，运行时发现变量无法识=识别，后来才知道变量赋值=不能有空格。

3、cron定时任务的环境变量问题

用户的crontab定时任务不会使用默认的变量，需要写全路径，包括crontab调用的脚本里面。而系统cron定时任务是由定义环境变量的。MAILTO是表示例行性命令发生错误时，会将错误讯息邮件传给root，服务器中关闭postfix，导致邮件发送不成功，全部小文件堆积在/var/spool/postfix/maildrop/里面。

4、cron中执行的程序有输出内容，输出内容会以邮件形式发给cron的用户，而sendmail没有启动所以就产生了/var/spool/mail目录下的那些文件，日积月累可能撑破磁盘。在cron中命令后面加上 /dev/null 21 来不输出。

5、crontab中的指令需要root，配置/etc/sudoers文件来保证sudo可用，其实可用使用系统任务计划，指定root来执行即可。

最后，笔者专注于使用cron，现在在以前的文章（树莓派上测试）- Linux crontab定时任务详细分解的基础上，在腾讯云服务器centos上补充以下cron的知识。

用户计划任务：

1、crond时cron的守护进程，crond是由多个配置文件和系统范围内的文件控制的，每个用户对应一个配置文件。crond守护进程是cronie软件的一部分。用户的配置文件在/var/spool/cron/username。

2、crontab命令

crontab -e 编辑当前用户的定时计划

crontab -l 列出当前用户的定时计划

crontab -r 删除当前用户的所有定时计划

crontab filename 删除当前用户的所有定时计划，并从filename中读取作业，如果未指定任何文件，则使用stdin 。

3、格式，另外*/x表示间隔x个周期。用户计划任务没有user-name字段！

*/7 9-16 * jul 5 command表示7月的每周五的上午9到下午5点间，每七分钟执行一次。

系统计划任务：

1、系统cron不是由crontab来执行的，而是在一组配置文件中定义的，配置文件多了一个字段-用户字段，指定作业在那个用户下运行。

2、系统计划任务储存在/etc/crontab、 /etc/cron.d/* 以及/etc/cron.* ，/etc/crontab的语法规则参照上面的图。 /etc/cron.d/时软件产生的一些更新任务，一般不在里面做操作。

3、预定义作业，cron.daily、cron.hourly、cron.monthly、cron.weekly下面储存的是可执行脚本。

/etc/cron.hourly/*脚本是使用runparts命令从/etc/cron.d/0hourly中定义的，表示每小时的第一分钟将 /etc/cron.hourly/下面的脚本全部执行。

/etc/cron.daily、 /etc/cron.monthly、 /etc/cron.weekly也是使用runparts命令，但是是从/etc/anacrontab中执行的。

4、/etc/anacrontab语法规则

START_HOURS_RANGE=3-22，表示Anacron jobs will start between 3am and 10pm.

RANDOM_DELAY=45，The RANDOM_DELAY variable denotes the maximum number of minutes that will be added to the delay in minutes variable which is specified for each job.

上图中，对于 /etc/cron.daily，那么delay 会是 5 minutes + RANDOM_DELAY 。

接下来就是4个重要的参数：

period in days ，delay in minutes ，job-identifier， command

The period in days variable表示执行周期，每多少天运行一次该作业。

delay in minutes：上面提到的执行的延时，启动作业前，crond等待的时间。

job-identifier：标识作业的唯一名称，用做日志记录。是/var/spool/anacron中文件的名称，检查该作业是否已运行，/etc/anacrontab启动作业时，会更新此文件的时间戳，检查作业上次运行的时间。anacron 会分析现在的时间与时间记录文件所记载的上次执行 anacron 的时间，将两者进行比较，如果两个时间的差值超过 anacron 的指定时间差值（一般是 1 天、7 天和一个月），就说明有定时任务没有执行，这时 anacron 会介入并执行这个漏掉的定时任务，从而保证在关机时没有执行的定时任务不会被漏掉。这也是为什么/etc/cron.{daily，weekly，monthly} 目录中的定时任务只会被 anacron 调用，而 /etc/cron.hourly/被cron调用。

command：执行命令可以是普通命令或者脚本。

5、cron的访问控制

/etc/cron.allow、 /etc/cron.deny ，以决定哪些用户可以使用调度服务。

如果只有cron.deny文件，而cron.allow文件不存在，则除了黑名单之外的所有用户都可以使用；

如果只有cron.allow文件存在，而cron.deny文件不存在时，则只有白名单用户才可以使用,，包括root。

如果两个文件都存在，则忽略cron.allow文件。

如果两个文件都不存在，每个用户都可以访问。

Linux守护进程详解

在Linux服务器实际应用中，经常会有需要长时间执行的任务。这类任务若在前台运行，用户无法进行其他操作或者断开与服务器的连接，否则任务将被中止。此时适合使用守护进程。为了使用守护进程，需要了解Linux前台、后台、守护进程的概念与使用，本文将对此进行讲解。

可以看出，”后台任务”与”前台任务”的重要区别：是否继承标准输入。所以，执行后台任务的同时，用户还可以输入其他命令。

为了理解守护任务为何在结束session时也不退出，需要先了解Linux下退出session时发生的操作。

Session退出时，linux系统设计如下：

前台任务会随着session的退出而退出是因为它收到了 SIGHUP信号。

后台任务是否会受到SIGNUP信号，取决于shell的 huponexit 参数。可以通过 $ shopt | grep huponexit 查看该参数的值。大多数Linux系统，这个参数默认关闭（off）。因此，session退出的时候，不会把SIGHUP信号发给”后台任务”，即此时的后台任务是守护进程，但这显然不够安全。并不保险，因为有的系统的 huponexit 参数可能是打开的（on）状态。

更保险的方法是使用 disown命令。它可以将指定任务从”后台任务”列表（jobs命令的返回结果）之中移除。一个”后台任务”只要不在这个列表之中，session 就肯定不会向它发出SIGHUP信号。

执行上面的命令以后， server.js 进程就被移出了”后台任务”列表。你可以执行 jobs 命令验证，输出结果里面，不会有这个进程。

但是，这样还存在问题。因为 ”后台任务”的标准 I/O 继承自当前 session， disown 命令并没有改变这一点。一旦”后台任务”读写标准 I/O，就会发现它已经不存在了，所以就报错终止执行。为了解决这个问题，需要对”后台任务”的标准 I/O 进行重定向。

这样基本上就没有问题了。

注：

/dev/null 文件的作用

这是一个无底洞，任何东西都可以定向到这里，但是却无法打开。

所以一般很大的stdou和stderr当你不关心的时候可以利用stdout和stderr定向到这里

nohup命令对server.js进程做了三件事。

阻止SIGHUP信号发到这个进程。

关闭标准输入。该进程不再能够接收任何输入，即使运行在前台。

重定向标准输出和标准错误到文件nohup.out。

也就是说，nohup命令实际上将子进程与它所在的 session 分离了。注意，nohup命令不会自动把进程变为”后台任务”，所以必须加上符号

守护进程创建方法：

方法一：

方法二：

方法三：

fg、bg、jobs、、nohup、ctrl+z、ctrl+c 命令

一、

加在一个命令的最后，可以把这个命令放到后台执行，如：

二、ctrl + z

可以将一个正在前台执行的命令放到后台，并且处于暂停状态。

CTRL+Z 和 CTRL+C的对比

CTRL+Z 和 CTRL+C 都是中断命令,但是他们的作用却不一样.

CTRL+C 是强制中断程序的执行，而 CTRL+Z 的是将任务中断,但是此任务并没有结束,仍然在进程中，只是维持挂起的状态，用户可以使用 fg/bg 操作继续前台或后台的任务。

三、jobs

查看当前有多少在后台运行的进程

jobs -l选项可显示所有任务的PID，jobs的状态可以是running, stopped, Terminated。但是如果任务被终止了（kill），shell 从当前的shell环境已知的列表中删除任务的进程标识。

四、fg

将后台中的命令调至前台继续运行。如果后台中有多个命令，可以用 fg %jobnumber （jobnumber是命令编号，不是进程号）将选中的命令调出。

五、bg

将一个在后台暂停的命令，变成在后台继续执行。

如果后台中有多个命令，可以用 bg %jobnumber 将选中的命令调出。

六、kill

方法1：通过jobs命令查看job号（假设为num），然后执行

方法2：通过ps命令查看job的进程号（PID，假设为pid），然后执行

前台进程的终止：Ctrl+c

七、nohup

如果想让程序即使在关闭当前的终端后也始终在后台执行（之前的做不到），需要使用nohup命令。

nohup命令可以在你退出帐户/关闭终端之后继续运行相应的进程。

关闭终端后，在另一个终端jobs已经无法看到后台跑的程序了，此时利用ps（进程查看命令）查看进程。

linux系统如何给java启动程序命令,写上守护脚本保证杀死后,能拉起来？

建议使用supervisor，非常好用的守护工具，写脚本不借助工具的话需要结合crontab，定期去ps -ef|grep 你的程序，做个判断，如果不在了就执行你的启动命令，supervisor之前我们使用的比较多，可以守护多个java程序，开源免费。

Linux下怎么查看某个守护进程或者所有的守护进程？

查看守候进程的命令可以使用ps完成。

进程一般分为交互进程、批处理进程和守护进程（daemons）三类。值得一提的是守护进程总是活跃的，一般在后台运行，守护进程一般由系统在开机时通过脚本自动激活启动或由超级管理用户root来启动。比如在Fedora或Redhat中，我们可以定义httpd服务器的启动脚本的运行级别，此文件位于/etc/init.d目录下，文件名是httpd，/etc/init.d/httpd 就是httpd服务器的守护程序，当把它的运行级别设置为3和5时，当系统启动时，它会跟着启动。

[root@localhost ~]# chkconfig --level 35 httpd on

由于守护进程是一直运行着的，所以它所处的状态是等待请求处理任务。例如通常大网站的Apache服务器都在运行，等待着用户来访问，也就是等待着任务处理。

Linux服务器在启动时需要启动很多系统服务，它们向本地和网络用户提供了Linux的系统功能接口，直接面向应用程序和用户。提供这些服务的程序是由运行在后台的守护进程来执行的。守护进程是生存期长的一种进程。它们独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。它们常常在系统引导装入时启动，在系统关闭时终止。Linux系统有很多守护进程，大多数服务器都是用守护进程实现的。同时，守护进程完成许多系统任务，比如，作业规划进程crond、打印进程lqd等。有些书籍和资料也把守护进程称为"服务"。选择运行哪些守护进程，要根据具体需求决定。查看系统可以提供的守护进程对应的服务，打开一个终端以root权限运行ntsysv命令。

Linux系统中的守护进程讲解

守护进程daemon，是生存期较长的一种进程。它们常常在系统自举时启动，仅在系统关闭时才终止。因为它们没有控制终端，所以说它们是在后台运行的。UNIX系统有很多守护进程，它们执行日常事务活动。

1、系统自举

自举（bootstrapping）一词来自于人都是靠自身的自举机构站立起来的这一思想。计算机必须具备自举能力将自己所有的元件激活，以便能完成加载操作系统这一目的，然后再由操作系统承担起那些单靠自举代码无法完成的更复杂的任务。

自举只有两个功能：加电自检和磁盘引导。

加电自检：当我们按下计算机电源开关时，头几秒钟机器似乎什么反应也没有，其实，这时的计算机正在进行加电自检，以断定它的所有元件都在正确地工作。如果某个元件有故障，显示器上就会出现报警提示信息（如果显示器也不能正常工作，则以一串嘟嘟声来报警）。由于大多数计算机工作非常可靠，加电自检报警非常罕见。

磁盘引导：查找装有操作系统的磁盘驱动器。从磁盘加载操作系统的原因有二，一是操作系统升级简单容易，二是使用户拥有选择操作系统的自由。

当加电自检和磁盘引导完成时，自举操作就启动一个读写操作系统文件和将它们复制到随机存储器中的过程，此时的机器才是真正意义上的计算机。计算机的启动可以有冷启动和热启动两种方式，它们之间的差别是热启动不进行机器的自检（机器本身配置的检查与测试），当计算机在使用过程中由于某些原因造成死机时，可以对计算机进行热启动处理。

2、守护进程的概念

通过ps axj命令可以查看到守护进程：

参数a表示不仅列当前用户的进程，也列出所有其他用户的进程，参数x表示不仅列有控制终端的进程，也列出所有无控制终端的进程，参数j表示列出与作业控制相关的信息。

代码如下:PPID PID PGID SID TTY TPGID STAT UID TIME COMMAND 0 1 1 1 ? -1 Ss 0 0:01 /sbin/init 0 2 0 0 ? -1 S 0 0:00 [kthreadd] 2 3 0 0 ? -1 S 0 0:00 [migration/0] 2 4 0 0 ? -1 S 0 0:00 [ksoftirqd/0]... 1 2373 2373 2373 ? -1 Ss 0 0:00 /sbin/udevd --daemon... 1 4680 4680 4680 ? -1 Ss 0 0:00 /usr/sbin/acpid -c /etc... 1 4808 4808 4808 ? -1 Ss 102 0:00 /sbin/syslogd -u syslog...

凡是TPGID一栏写着-1的都是没有控制终端的进程，也就是守护进程。在COMMAND一列用[]括起来的名字表示内核线程，这些线程在内核里创建，没有用户空间代码，因此没有程序文件名和命令行，通常采用以k开头的名字，表示Kernel。init进程我们已经很熟悉了，udevd负责维护/dev目录下的设备文件，acpid负责电源管理，syslogd负责维护/var/log下的日志文件，可以看出，守护进程通常采用以d结尾的`名字，表示Daemon。创建守护进程最关键的一步是调用setsid函数创建一个新的Session，并成为Session Leader。例子： C/C++ Code复制内容到剪贴板 void daemonize(void) { pid_t pid; printf("into deamonizen"); if (pid=fork() 0) { perror("fork"); exit(1); } else if (pid !=0) { exit(0); } setsid(); if (chdir("/") 0) { perror("chdir"); exit(1); } close(0); open("/dev/null", O_RDWR); dup2(0, 1); dup2(0, 2); printf("out deamonizen"); }

3、编写守护进程在编写守护进程程序时，需遵循一些基本规则：

（1）首先要做的是调用umask将文件模式创建屏蔽字设置为0。

（2）调用fork，然后使父进程退出。

（3）调用setsid以创建一个新会话。

（5）关闭不再需要的文件描述符。

（6）某些守护进程打开/dev/null使其具有文件描述符0、1和2，任何一个试图读标准输入、写标准输出或标准出错的库例程都不会产生任何效果。与守护进程有关的一个问题是如何处理出错消息，需要有一个集中的守护进程出错记录设施，这就是syslogd进程。

4、守护进程惯例为了正常运作，某些守护进程实现为单实例的，有就是在任一时刻只运行该守护进程的一个副本。文件锁和记录锁机制是一种方法的基础，该方法用来保证一个守护进程只有一个副本在运行。

在UNIX系统中，守护进程遵循下列公共惯例：

（1）若守护进程使用锁文件，那么该文件通常存放在/var/run目录中。锁文件的名字通常是name.pid，name是该守护进程或服务的名字。

（2）若守护进程支持配置选项，那么配置文件通常存放在/etc目录中。配置文件的名字通常是name.conf。

（3）守护进程可用命令行启动，但通常它们是由系统初始化脚本启动的。

（4）若一守护进程有一配置文件，那么当该守护进程启动时，它读该文件，但在此之后一般就不会再查看它。