BO's profile回到杭州PhotosBlogLists Tools Help
    May, 2008

    sscanf() - 从一个字符串中读进与指定格式相符的数据.

    sscanf() - 从一个字符串中读进与指定格式相符的数据.

    函数原型:

    Int sscanf( string str, string fmt, mixed var1, mixed var2 ... );

    int scanf( const char *format [,argument]... );

    说明:

    sscanf与scanf类似,都是用于输入的,只是后者以屏幕(stdin)为输入源,前者以固定字符串为输入源。
    其中的format可以是一个或多个 {%[*] [width] [{h | l | I64 | L}]type | ' ' | '\t' | '\n' | 非%符号}

    注:

    1、 * 亦可用于格式中, (即 %*d 和 %*s) 加了星号 (*) 表示跳过此数据不读入. (也就是不把此数据读入参数中)

    2、{a|b|c}表示a,b,c中选一,[d],表示可以有d也可以没有d。

    3、width表示读取宽度。

    4、{h | l | I64 | L}:参数的size,通常h表示单字节size,I表示2字节 size,L表示4字节size(double例外),l64表示8字节size。
    5、type :这就很多了,就是%s,%d之类。

    6、特别的:%*[width] [{h | l | I64 | L}]type 表示满足该条件的被过滤掉,不会向目标参数中写入值

    支持集合操作:

    %[a-z] 表示匹配a到z中任意字符,贪婪性(尽可能多的匹配)

    %[aB'] 匹配a、B、'中一员,贪婪性

    %[^a] 匹配非a的任意字符,贪婪性

    例子:

    1. 常见用法。

        char buf[512] = {0};

    sscanf("123456 ", "%s", buf);

    printf("%s\n", buf);

    结果为:123456

    2. 取指定长度的字符串。如在下例中,取最大长度为4字节的字符串。

    sscanf("123456 ", "%4s", buf);

    printf("%s\n", buf);

    结果为:1234

    3. 取到指定字符为止的字符串。如在下例中,取遇到空格为止字符串。

    sscanf("123456 abcdedf", "%[^ ]", buf);

    printf("%s\n", buf);

    结果为:123456

    4.  取仅包含指定字符集的字符串。如在下例中,取仅包含1到9和小写字母的字符串。

    sscanf("123456abcdedfBCDEF", "%[1-9a-z]", buf);

    printf("%s\n", buf);

    结果为:123456abcdedf

    5.  取到指定字符集为止的字符串。如在下例中,取遇到大写字母为止的字符串。

    sscanf("123456abcdedfBCDEF", "%[^A-Z]", buf);

    printf("%s\n", buf);

    结果为:123456abcdedf

    6、给定一个字符串iios/12DDWDFF@122,获取 / 和 @ 之间的字符串,先将 "iios/"过滤掉,再将非'@'的一串内容送到buf中

    sscanf("iios/12DDWDFF@122", "%*[^/]/%[^@]", buf);

    printf("%s\n", buf);

    结果为:12DDWDFF

    7、给定一个字符串““hello, world”,仅保留world。(注意:“,”之后有一空格)

    sscanf(“hello, world”, "%*s%s", buf);

    printf("%s\n", buf);

    结果为:world

    %*s表示第一个匹配到的%s被过滤掉,即hello被过滤了

    如果没有空格则结果为NULL。

    May, 2008

    exec函数族

    exec函数族

    也许有不少读者从本系列文章一推出就开始读,一直到这里还有一个很大的疑惑:既然所有新进程都是由fork产生的,而且由fork产生的子进程和父进程几乎完全一样,那岂不是意味着系统中所有的进程都应该一模一样了吗?而且,就我们的常识来说,当我们执行一个程序的时候,新产生的进程的内容应就是程序的内容才对。是我们理解错了吗?显然不是,要解决这些疑惑,就必须提到我们下面要介绍的exec系统调用。

    1.10.1 简介

    说是exec系统调用,实际上在Linux中,并不存在一个exec()的函数形式,exec指的是一组函数,一共有6个,分别是:

    #include <unistd.h>
    int execl(const char *path, const char *arg, ...);
    int execlp(const char *file, const char *arg, ...);
    int execle(const char *path, const char *arg, ..., char *const envp[]);
    int execv(const char *path, char *const argv[]);
    int execvp(const char *file, char *const argv[]);
    int execve(const char *path, char *const argv[], char *const envp[]);
    

    其中只有execve是真正意义上的系统调用,其它都是在此基础上经过包装的库函数。

    exec函数族的作用是根据指定的文件名找到可执行文件,并用它来取代调用进程的内容,换句话说,就是在调用进程内部执行一个可执行文件。这里的可执行文件既可以是二进制文件,也可以是任何Linux下可执行的脚本文件。

    与一般情况不同,exec函数族的函数执行成功后不会返回,因为调用进程的实体,包括代码段,数据段和堆栈等都已经被新的内容取代,只留下进程ID 等一些表面上的信息仍保持原样,颇有些神似"三十六计"中的"金蝉脱壳"。看上去还是旧的躯壳,却已经注入了新的灵魂。只有调用失败了,它们才会返回一个 -1,从原程序的调用点接着往下执行。

    现在我们应该明白了,Linux下是如何执行新程序的,每当有进程认为自己不能为系统和拥护做出任何贡献了,他就可以发挥最后一点余热,调用任何一个exec,让自己以新的面貌重生;或者,更普遍的情况是,如果一个进程想执行另一个程序,它就可以fork出一个新进程,然后调用任何一个exec,这样看起来就好像通过执行应用程序而产生了一个新进程一样。

    事实上第二种情况被应用得如此普遍,以至于Linux专门为其作了优化,我们已经知道,fork会将调用进程的所有内容原封不动的拷贝到新产生的子进程中去,这些拷贝的动作很消耗时间,而如果fork完之后我们马上就调用exec,这些辛辛苦苦拷贝来的东西又会被立刻抹掉,这看起来非常不划算,于是人们设计了一种"写时拷贝(copy-on-write)"技术,使得fork结束后并不立刻复制父进程的内容,而是到了真正实用的时候才复制,这样如果下一条语句是exec,它就不会白白作无用功了,也就提高了效率。

    1.10.2 稍稍深入

    上面6条函数看起来似乎很复杂,但实际上无论是作用还是用法都非常相似,只有很微小的差别。在学习它们之前,先来了解一下我们习以为常的main函数。

    下面这个main函数的形式可能有些出乎我们的意料:

    int main(int argc, char *argv[], char *envp[])
    

    它可能与绝大多数教科书上描述的都不一样,但实际上,这才是main函数真正完整的形式。

    参数argc指出了运行该程序时命令行参数的个数,数组argv存放了所有的命令行参数,数组envp存放了所有的环境变量。环境变量指的是一组值,从用户登录后就一直存在,很多应用程序需要依靠它来确定系统的一些细节,我们最常见的环境变量是PATH,它指出了应到哪里去搜索应用程序,如 /bin;HOME也是比较常见的环境变量,它指出了我们在系统中的个人目录。环境变量一般以字符串"XXX=xxx"的形式存在,XXX表示变量名, xxx表示变量的值。

    值得一提的是,argv数组和envp数组存放的都是指向字符串的指针,这两个数组都以一个NULL元素表示数组的结尾。

    我们可以通过以下这个程序来观看传到argc、argv和envp里的都是什么东西:

    /* main.c */
    int main(int argc, char *argv[], char *envp[])
    {
     printf("\n### ARGC ###\n%d\n", argc);
     printf("\n### ARGV ###\n");
     while(*argv)
      printf("%s\n", *(argv++));
     printf("\n### ENVP ###\n");
     while(*envp)
      printf("%s\n", *(envp++));
     return 0;
    }
    

    编译它:

    $ cc main.c -o main
    

    运行时,我们故意加几个没有任何作用的命令行参数:

    $ ./main -xx 000
    ### ARGC ###
    3
    ### ARGV ###
    ./main
    -xx
    000
    ### ENVP ###
    PWD=/home/lei
    REMOTEHOST=dt.laser.com
    HOSTNAME=localhost.localdomain
    QTDIR=/usr/lib/qt-2.3.1
    LESSOPEN=|/usr/bin/lesspipe.sh %s
    KDEDIR=/usr
    USER=lei
    LS_COLORS=
    MACHTYPE=i386-redhat-linux-gnu
    MAIL=/var/spool/mail/lei
    INPUTRC=/etc/inputrc
    LANG=en_US
    LOGNAME=lei
    SHLVL=1
    SHELL=/bin/bash
    HOSTTYPE=i386
    OSTYPE=linux-gnu
    HISTSIZE=1000
    TERM=ansi
    HOME=/home/lei
    PATH=/usr/local/bin:/bin:/usr/bin:/usr/X11R6/bin:/home/lei/bin
    _=./main
    

    我们看到,程序将"./main"作为第1个命令行参数,所以我们一共有3个命令行参数。这可能与大家平时习惯的说法有些不同,小心不要搞错了。

    现在回过头来看一下exec函数族,先把注意力集中在execve上:

    int execve(const char *path, char *const argv[], char *const envp[]);
    

    对比一下main函数的完整形式,看出问题了吗?是的,这两个函数里的argv和envp是完全一一对应的关系。execve第1个参数path是被执行应用程序的完整路径,第2个参数argv就是传给被执行应用程序的命令行参数,第3个参数envp是传给被执行应用程序的环境变量。

    留心看一下这6个函数还可以发现,前3个函数都是以execl开头的,后3个都是以execv开头的,它们的区别在于,execv开头的函数是以 "char *argv[]"这样的形式传递命令行参数,而execl开头的函数采用了我们更容易习惯的方式,把参数一个一个列出来,然后以一个NULL表示结束。这里的NULL的作用和argv数组里的NULL作用是一样的。

    在全部6个函数中,只有execle和execve使用了char *envp[]传递环境变量,其它的4个函数都没有这个参数,这并不意味着它们不传递环境变量,这4个函数将把默认的环境变量不做任何修改地传给被执行的应用程序。而execle和execve会用指定的环境变量去替代默认的那些。

    还有2个以p结尾的函数execlp和execvp,咋看起来,它们和execl与execv的差别很小,事实也确是如此,除execlp和 execvp之外的4个函数都要求,它们的第1个参数path必须是一个完整的路径,如"/bin/ls";而execlp和execvp的第1个参数 file可以简单到仅仅是一个文件名,如"ls",这两个函数可以自动到环境变量PATH制定的目录里去寻找。

    1.10.3 实战

    知识介绍得差不多了,接下来我们看看实际的应用:

    /* exec.c */
    #include <unistd.h>
    main()
    {
     char *envp[]={"PATH=/tmp",
       "USER=lei",
       "STATUS=testing",
       NULL};
     char *argv_execv[]={"echo", "excuted by execv", NULL};
     char *argv_execvp[]={"echo", "executed by execvp", NULL};
     char *argv_execve[]={"env", NULL};
     if(fork()==0)
      if(execl("/bin/echo", "echo", "executed by execl", NULL)<0)
       perror("Err on execl");
     if(fork()==0)
      if(execlp("echo", "echo", "executed by execlp", NULL)<0)
       perror("Err on execlp");
     if(fork()==0)
      if(execle("/usr/bin/env", "env", NULL, envp)<0)
       perror("Err on execle");
     if(fork()==0)
      if(execv("/bin/echo", argv_execv)<0)
       perror("Err on execv");
     if(fork()==0)
      if(execvp("echo", argv_execvp)<0)
       perror("Err on execvp");
     if(fork()==0)
      if(execve("/usr/bin/env", argv_execve, envp)<0)
       perror("Err on execve");
    }
    

    程序里调用了2个Linux常用的系统命令,echo和env。echo会把后面跟的命令行参数原封不动的打印出来,env用来列出所有环境变量。

    由于各个子进程执行的顺序无法控制,所以有可能出现一个比较混乱的输出--各子进程打印的结果交杂在一起,而不是严格按照程序中列出的次序。

    编译并运行:

    $ cc exec.c -o exec
    $ ./exec
    executed by execl
    PATH=/tmp
    USER=lei
    STATUS=testing
    executed by execlp
    excuted by execv
    executed by execvp
    PATH=/tmp
    USER=lei
    STATUS=testing
    

    果然不出所料,execle输出的结果跑到了execlp前面。

    大家在平时的编程中,如果用到了exec函数族,一定记得要加错误判断语句。因为与其他系统调用比起来,exec很容易受伤,被执行文件的位置,权限等很多因素都能导致该调用的失败。最常见的错误是:

    1. 找不到文件或路径,此时errno被设置为ENOENT;
    2. 数组argv和envp忘记用NULL结束,此时errno被设置为EFAULT;
    3. 没有对要执行文件的运行权限,此时errno被设置为EACCES。
    May, 2008

    Socket 编程时候遇到的Broken pipe问题

       昨天有个程序除了问题,调试的时候发现是在SOCKET通信的时候对方关闭连接的情况下出现broken pipe错误。在网上搜索了一番,别人解释原因是向已经关闭连接的SOCKET管道写入数据造成的,但是我的程序只是在对方关闭的时候继续RECV,难道 RECV也会向管道写入数据,这个问题以后再研究吧。

        知道了问题就好办了。UNIX的系统是采用信号机制向进程通知这种系统错误的,13 SIGPIPE 的默认操作是Exit,所以在程序里面写一个自己的信号处理函数,不让进程退出就OK。不过值得注意的是在截获一次信号以后,系统会把信号处理又恢复到默认状态,所以需要再次设置。另外,对于多线程,我是在主线程里面做的信号处理,其他线程没有做,但是我理解信号是发给进程的,所以应该只要有一个线程处理了信号就可以。

    源码:

    void InitSignal(void);
    void handle_signal(int s) ;

    /*初始化时及每次处理完时调用*/
    void InitSignal(void)
    {
    signal(SIGPIPE,handle_signal);
    }
    /*信号处理函数*/
    void handle_signal(int s)
    {
    InitSignal();
    }

    May, 2008

    把可执行程序做成一个服务 service

     

        在linux系统启动的时候,我们可以看到很多服务性程序一个接一个的被启动(就是那些后面有一个兰色[OK]的行),这些在后台运行的程序为我们使用计算机起了很重要的作用,以这种方式运行的程序有以下特点:
    开机启动,关机停止(废话!关机了还运行啊???)
    后台运行
    通过service 命令控制或查看对应的程序的运行状态

        恩,不错,那怎么把我们自己编制的程序做成这样的一个服务呢?

        废话少说,主要分以下3步:

        1、把可执行程序放到一个linux系统可以找到的地方。
    在linux命令提示符下输入 env ,回车后可看到环境变量,里面有一项PATH的,对,这项里所指定的目录都是系统可找到的地方,把我们的可执行程序放入其中的一个目录下即可,我们一般放在/usr/sbin/目录下(放什么有放什么的地方,最好不要乱放)。

        2、在目录 /etc/init.d/ 下,新建一个以服务名为文件名的文件。
      如果我们打开目录 /etc/init.d/,看到的文件其实都是服务程序文件,每个文件的内容都大同小异,我们会看到,这里的文件在文件结构上几乎是一样的。几乎每个文件都有 start、stop、restart和status这样的标志,对,我们新建的这个文件也具有相同的结构,只是在这些标志内部把相应的可执行程序换成我们自己的可执行程序即可,知道怎么做了吗?那就是:复制——修改——保存。

        3、在目录 /etc/rc3.d/ 下,新建一个指向在第2步中建立的服务文件的符号连接文件。
    打开目录 /etc/rc3.d/ ,我们将看到这里都是符号连接文件(linux系统中的符号连接相当于windows中的快捷方式)。采用以下命令格式:
    ln -sf 目标文件名 连接文件名
        连接文件名益采用“SXX目标文件名”的格式,其中XX一般是一个从1到100的整数,它表示启动优先级,数字越大,优先级越低,比如:服务A的运行要依赖服务B,那A的XX数字就应该大于B的。后跟“目标文件名”是为了一目了然,一看就知道是哪个文件的符号连接。
        目录 /etc/rc3.d/ 是系统启动时自动搜索的目录,该目录下的符号连接文件的目标文件,都将被运行,这就是在这个目录建立符号连接的原因——为了开机就运行。

        好了,完成以上3个步骤,你就把自己的一个可执行程序做成系统的一个服务了,它具有我们一开始说的几个特定。我们可以用service命令控制这个程序了:
    启动:service hdz_service start
    停止:service hdz_service stop
    重启:service hdz_service restart
        上面的 hdz_service 为服务名,也就是在第2步中建立的文件名。

        不过,好象感觉比较麻烦,能否把这几个步骤自动化一下?这样在一台新机子上部署就方便了,也更象回事 -_^!办法当然有了,还记得我们那个记录代码文件之间依赖关系的makefile文件吗?呵呵,我们在这里要用到它了。
        在makefile文件中添加一个标志,并在该标志下添加和下面类似的代码:

    install:
    cp ./hdz_pro /usr/sbin/
    cp ./hdz_service /etc/init.d/
    cd /etc/init.d/
    chmod +x hdz_service
    cd /etc/rc3.d/
    ln -sf ../init.d/hdz_service ./S99hdz_service

        在标志install下的没一句话,前面一定要留空白,这不仅是有利于阅读,更是一个要求,makefile文件要求每一句可执行语句前都要有空白(空格或tab)。
        上面代码中的 hdz_pro 和 hdz_service 分别是可执行文件名和服务名,这两个名称换成你自己的就行了,操作时用以下命令:
    make install
        运行完就一切OK了,简单吧?

        大家在看我写的东东时,时不时会碰到“hdz”这样的东西,这是我名字的缩写,说明这正是要替换的。

    May, 2008

    read write

    int my_write(int fd,void *buffer,int length)
    {
    int bytes_left;
    int written_bytes;
    char *ptr;
    ptr=buffer;
    bytes_left=length;
    while(bytes_left>0)
    {
            /* 开始写*/
            written_bytes=write(fd,ptr,bytes_left);
            if(written_bytes<=0) /* 出错了*/
            {       
                    if(errno==EINTR) /* 中断错误 我们继续写*/
                            written_bytes=0;
                    else             /* 其他错误 没有办法,只好撤退了*/
                            return(-1);
            }
            bytes_left-=written_bytes;
            ptr+=written_bytes;     /* 从剩下的地方继续写  */
    }
    return(0);
    }

    int my_read(int fd,void *buffer,int length)
    {
    int bytes_left;
    int bytes_read;
    char *ptr;
    bytes_left=length;
    while(bytes_left>0)
    {
       bytes_read=read(fd,ptr,bytes_read);
       if(bytes_read<0)
       {
         if(errno==EINTR)
            bytes_read=0;
         else
            return(-1);
       }
       else if(bytes_read==0)
           break;
        bytes_left-=bytes_read;
        ptr+=bytes_read;
    }
    return(length-bytes_left);
    }