sscanf函数讲解

2019-11-14 10:55:10

字体：大中小

来源：转载

供稿：网友

#include<stdio.h>

定义函数 int sscanf (const char *str,const char * format,........);

sscanf()会将参数str的字符串根据参数format字符串来转换并格式化数据。格式转换形式请参考scanf()。转换后的结果存于对应的参数内。

scanf以及sscanf实际上是支持部分正则表达式的，sscanf提供的这个扩展功能其实并不能真正称为正则表达式，因为他的书写还是离不开%，而且也很局限。sscanf的这个扩展功能支持[]表示支付范围，{}表示重复次数，^表示取非，*表示跳过。

说明：　　sscanf与scanf类似，都是用于输入的，只是后者以屏幕(stdin)为输入源，前者以固定字符串为输入源。　　其中的format可以是一个或多个 {%[*] [width] [{h | l | I64 | L}]type | ' ' | '/t' | '/n' | 非%符号}　　注：　　1、 * 亦可用于格式中, (即 %*d 和 %*s) 加了星号 (*) 表示跳过此数据不读入. (也就是不把此数据读入参数中)　　2、{a|b|c}表示a,b,c中选一，[d],表示可以有d也可以没有d。　　3、width表示读取宽度。　　4、{h | l | I64 | L}:参数的size,通常h表示单字节size，I表示2字节 size,L表示4字节size(double例外),l64表示8字节size。　　5、type :这就很多了，就是%s,%d之类。　　6、特别的：%*[width] [{h | l | I64 | L}]type 表示满足该条件的被过滤掉，不会向目标参数中写入值　　支持集合操作：　　%[a-z] 表示匹配a到z中任意字符，贪婪性(尽可能多的匹配)　　%[aB'] 匹配a、B、'中一员，贪婪性　　%[^a] 匹配非a的任意字符，贪婪性举例：char url[] = "dv://192.168.1.253:65001/1/1"sscanf(url,"%[^://]%*c%*c%*c%[^:]%*c%d%*c%d%*c%d",PRotocol,ip,port,chn,type);
解释一下
先取得一个最长的字符串，但不包括字串://，于是protocol="dv/0";
然后跳过三个字符（%*c），其实就是跳过://
接着取一个字符串不包括字符串:，于是ip=192.168.1.253，这里简化处理了，IP就当个字符串来弄，而且不做检查
然后跳过冒号取端口到port，再跳过/取通道号到chn，再跳过/取码流类型到type。
      是不是觉得还不过瘾？我也觉得，接着举例。
sscanf("Phil/nChang","%[^/n]%*c%s",first_name,last_name);
解释：跳过一个换行符，取first_name和last_name
实验1：
sscanf( "123456" , "%s" , str) ; ---------str的值为 "123456/0!!!"
这个实验很简单，把源字符串"123456"拷贝到str的前6个字符，并且把str的第7个字符设为null字符，也就是/0
实验2：
sscanf( "123456" , "%3s" , str) ; ---------str的值为 "123/0!!!!!!"
看到没有，正则表达式的百分号后面多了一个3，这告诉sscanf只拷贝3个字符给str，然后把第4个字符设为null字符。
实验3：
sscanf( "aaaAAA" , "%[a-z]" , str) ; ---------str的值为 "aaa/0!!!!!!"
从这个实验开始我们会使用正则表达式，括号里面的a-z就是一个正则表达式，它可以表示从a到z的任意字符，
在 继续讨论之前，我们先来看看百分号表示什么意思，%表示选择 ，%后面的是条件，比如实验1的"%s"，s是一个条件，表示任意字符，"%s"的意思是：只 要输入的东西是一个字符，就把它拷贝给str。实验2的"%3s"又多了一个条件：只拷贝3个字符。实验3的“%[a-z]”的条件稍微严格一些，输入的 东西不但是字符，还得是一个小写字母的字符，所以实验3只拷贝了小写字母"aaa"给str，别忘了加上null字符。
实验4：
sscanf( "AAAaaaBBB" , "%[^a-z]" , str) ; ---------str的值为 "AAA/0!!!!!!"
对 于所有字符，只要不是小写字母，都满足"^a-z"正则表达式，符号^表示逻辑非。前3个字符都不是小写字符，所以将其拷贝给str，但最后3个字符也不 是小写字母，为什么不拷贝给str呢？这是因为当碰到不满足条件的字符后，sscanf就会停止执行，不再扫描之后的字符。
实验5：
sscanf( "AAAaaaBBB" , "%[A-Z]%[a-z]" , str) ; ---------段错误
这 个实验的本意是：先把大写字母拷贝给str，然后把小写字母拷贝给str，但很不幸，程序运行的时候会发生段错误，因为当sscanf扫描到字符a时，违 反了条件"%[A-Z]"，sscanf就停止执行，不再扫描之后的字符，所以第二个条件也就没有任何意义，这个实验说明：不能使用%号两次或两次以上
实验6：
sscanf( "AAAaaaBBB" , "%*[A-Z]%[a-z]" , str) ; ---------str的值为 "aaa/0!!!!!!"
这 个实验出现了一个新的符号：%*，与%相反，%*表示过滤 满足条件的字符，在这个实验中，%*[A-Z]过滤了所有大写字母，然后再使用%[a-z]把之 后的小写字母拷贝给str。如果只有%*，没有%的话，sscanf不会拷贝任何字符到str，这时sscanf的作用仅仅是过滤字符串。
实验7：
sscanf( "AAAaaaBBB" , "%[a-z]" , str) ; ---------str的值为 "!!!!!!!!!!"
做完前面几个实验后，我们都知道sscanf拷贝完成后，还会在str的后面加上一个null字符，但如果没有一个字符满足条件，sscanf不会在str的后面加null字符，str的值依然是10个惊叹号。这个实验也说明了，如果不使用%*过滤掉前面不需要的字符，你永远别想取得中间的字符。 
实验8：
sscanf( "AAAaaaBC=" , "%*[A-Z]%*[a-z]%[^a-z=]" , str) ; ---------str的值为 "BC/0!!!!!!!"
这是一个综合实验，但这个实验的目的不是帮我们复习前面所学的知识，而是展示两个值得注意的地方：
注意1：%只能使用一次，但%*可以使用多次，比如在这个实验里面，先用%*[A-Z]过滤大写字母，然后用%*[a-z]过滤小写字母。
注意2：^后面可以带多个条件，且这些条件都受^的作用，比如^a-z=表示^a-z且^=(既不是小写字母，也不是等于号)。
实验9：
int k;
sscanf( "AAA123BBB456" , "%*[^0-9]%i" , &k) ; ---------k的值为123
首先，%*[^0-9]过滤前面非数字的字符，然后用%i把数字字符转换成int型的整数，拷贝到变量k，注意参数必须使用k的地址。
例子： 　　1. 常见用法。 　　char buf[512] = ; 　　sscanf("123456 ", "%s", buf); 　　printf("%s/n", buf); 　　结果为：123456 　　2. 取指定长度的字符串。如在下例中，取最大长度为4字节的字符串。 　　sscanf("123456 ", "%4s", buf); 　　printf("%s/n", buf); 　　结果为：1234 　　3. 取到指定字符为止的字符串。如在下例中，取遇到空格为止字符串。 　　sscanf("123456 abcdedf", "%[^ ]", buf); 　　printf("%s/n", buf); 　　结果为：123456 　　4. 取仅包含指定字符集的字符串。如在下例中，取仅包含1到9和小写字母的字符串。 　　sscanf("123456abcdedfBCDEF", "%[1-9a-z]", buf); 　　printf("%s/n", buf); 　　结果为：123456abcdedf 　　5. 取到指定字符集为止的字符串。如在下例中，取遇到大写字母为止的字符串。 　　sscanf("123456abcdedfBCDEF", "%[^A-Z]", buf); 　　printf("%s/n", buf); 　　结果为：123456abcdedf 　　6、给定一个字符串iios/12DDWDFF@122，获取 / 和 @ 之间的字符串，先将 "iios/"过滤掉，再将非'@'的一串内容送到buf中 　　sscanf("iios/12DDWDFF@122", "%*[^/]/%[^@]", buf); 　　printf("%s/n", buf); 　　结果为：12DDWDFF 　　7、给定一个字符串““hello, world”，仅保留world。（注意：“，”之后有一空格） 　　sscanf(“hello, world”, "%*s%s", buf); 　　printf("%s/n", buf); 　　结果为：world 　　%*s表示第一个匹配到的%s被过滤掉，即hello被过滤了 　　如果没有空格则结果为NULL。 　　sscanf的功能很类似于正则表达式, 但却没有正则表达式强大,所以如果对于比较复杂的字符串处理,建议使用正则表达式. 　　//------------------------------------------------------- 　　sscanf,表示从字符串中格式化输入 　　上面表示从str中，输入数字给x，就是32700 　　久以前，我以为c没有自己的split string函数，后来我发现了sscanf；一直以来，我以为sscanf只能以空格来界定字符串，现在我发现我错了。 　　sscanf是一个运行时函数，原形很简单： 　　int sscanf( 　　const char *buffer, 　　const char *format [, 　　argument ] ... 　　); 　　它强大的功能体现在对format的支持上。 　　我以前用它来分隔类似这样的字符串2006:03:18: 　　int a, b, c; 　　sscanf("2006:03:18", "%d:%d:%d", a, b, c); 　　以及2006:03:18 - 2006:04:18: 　　char sztime1[16] = "", sztime2[16] = ""; 　　sscanf("2006:03:18 - 2006:04:18", "%s - %s", sztime1, sztime2); 　　但是后来，我需要处理2006:03:18-2006:04:18 　　仅仅是取消了‘-’两边的空格，却打破了%s对字符串的界定。 　　我需要重新设计一个函数来处理这样的情况？这并不复杂，但是，为了使所有的代码都有统一的风格，我需要改动很多地方，把已有的sscanf替换成我自己的分割函数。我以为我肯定需要这样做，并伴随着对sscanf的强烈不满而入睡；一觉醒来，发现其实不必。 　　format-type中有%[]这样的type field。如果读取的字符串，不是以空格来分隔的话，就可以使用%[]。 　　%[]类似于一个正则表达式。[a-z]表示读取a-z的所有字符，[^a-z]表示读取除a-z以外的所有字符。 　　所以那个问题也就迎刃而解了: 　　sscanf("2006:03:18 - 2006:04:18", "%[0-9,:] - %[0-9,:]", sztime1, sztime2);