自信、冷静、专注。—— TM 熊的自我勉励

850a56e94ba9a5be5989e24bb7f14c56.gif

1. 前言

熊二从去年开始,因项目需求接触到xml报文的处理,也是我第一次学习用C/C++的方式处理基于DOM模型的xml报文。因为本人比较懒hhh,所以第一反应就是去看看网上有没有什么大家都在用的比较好的xml处理开源库,站在前辈的肩膀上才能看的更远嘛。

2. 我找到了哪些库

库名称实现语言源码地址基于模型
Tinyxml2C++https://github.com/leethomason/tinyxml2DOM
libxml2Chttp://xmlsoft.org/sources/win32/libxml2-2.7.8.win32.zipDOM
CMarkupC++http://www.firstobject.com/Markup115.zipDOM
Mini-XMLChttp://www.msweet.org/files/project3/mxml-2.9.tar.gzDOM/SAX
Expat-XMLChttps://github.com/libexpat/libexpat/SAX
XercesC++/Java/Perlhttp://xerces.apache.org/mirrors.cgiDOM/SAX
  • SAX(Simple API for XML)是基于事件的,其基本工作流程是分析XML文档,当发现了一个新的元素时,产生一个对应事件,并调用相应的用户处理函数。这种方式占用内存少,速度快,但用户程序相应地会比较复杂。
  • DOM(Document Object Model)是在分析时,一次性地将整个XML文档进行分析,并在内存中形成对应的树结构,同时,向用户提供一系列的接口来访问和编辑该树结构。这种方式占用内存大,速度往往慢于SAX,但可以给用户提供一个面向对象的访问接口,对用户更为友好。

最后我选择了tinyxml2这个库作为项目使用,但关于这个库,网上的资料看了很多总觉得不算太理想。于是我尝试仅从使用者地角度去看看这个库有没有可能再封装一次,使其处理xml报文变得更简单?

3. 我用到了tinyxml库的哪些功能

  • 3.1. 根据 DOM模型,XML 文档中的每个成分都是一个节点。整个文档是一个文档节点,每一个xml元素是一个元素节点,而包含在xml元素中的文本是一个文本节点,每一个xml属性是一个属性节点,总之,基于DOM模型,xml文档皆为节点。tinyxml2正好利用了这一特性,以节点的概念来设计处理函数。
  • 3.2.  xml报文的处理在广义上来说,无非“增”、“删”、“改”、“查”四部分,我在处理xml报文时,用的最多的就是“增”、“查”,即协议交互中报文的组装和解析。通过将近半年的使用体验,不得不说,真的很感谢tinyxml2的作者Lee Thomason先生,能创作出这个好用的库并开源。接下来我会展示tinyxml组装和解析的步骤,并尝试优化我觉得不合理的地方。

4. xml报文的组装

比如我们要组装这样一段xml报文

<?xml version="1.0" encoding="UTF-8"?>
"south-bear">
0.0.0.0
8888
bear-2

这是用tinyxml2的基本接口组装报文的方法

XMLDocument xmlDoc;
XMLNode* parent = NULL;
XMLElement *child[16] = { NULL };

parent->InsertEndChild( xmlDoc.NewDeclaration("xml version=\"1.0\" encoding=\"UTF-8\""));
child[1]=xmlDoc.NewElement("param"); //创建一个名为param的节点
child[1]->SetAttribute("name","south-bear"); //设置该节点属性
parent->InsertEndChild(child[1]); //将该节点加入到parent节点下

child[2]=xmlDoc.NewElement("ipAddress"); //创建一个名为ipAddress的节点
child[2]->SetText("0.0.0.0"); //设置该节点内容
child[1]->InsertEndChild(child[2]); //将该节点加入到param节点下

child[2]=xmlDoc.NewElement("portNo"); //创建一个名为portNo的节点
child[2]->SetText(8888); //设置该节点内容
child[1]->InsertEndChild(child[2]); //将该节点加入到param节点下

child[2]=xmlDoc.NewElement("channel"); //创建一个名为channel的节点
child[1]->InsertEndChild(child[2]); //将该节点加入到param节点下

child[3]=xmlDoc.NewElement("Name"); //创建一个名为Name的节点
child[3]->SetText("bear-2"); //设置该节点内容
child[2]->InsertEndChild(child[3]); //将该节点加入到channel节点下

怎么样?第一眼看上去是不是有点懵?感觉很不好记?如果是就对了,我当时第一反应也是这样。tinyxml2库在插入元素节点时都会用到NewElementInsertEndChild等接口,但是每插入一个节点后,想在该节点下插入下一级节点就很容易将节点搞混淆,就是说,你在使用tinyxml2库这个接口时,必须将每一个插入的节点记下,否者可能导致组装的xml报文就是混乱的,另外从篇幅上来看重复的代码还是占太多了。

于是我开始设想,有没有这样一种库,我只需要传入每一级节点的相关参数,就能自动组装xml报文,下面是我设想的组装xml的代码。

XMLDocument xmlDoc;
XMLNode* parent = NULL;
XMLElement *child[16] = { NULL };

child[1]=xmlAddNode(xmlDoc, parent, "param");//创建一个名为param的节点,将该节点加入到parent节点下
xmlSetNodeAttr(child[1], "name", "south-bear");//设置该节点属性

xmlAddNode(xmlDoc,child[1], "ipAddress", "0.0.0.0");//在param节点下添加ipAddress节点
xmlAddNode(xmlDoc,child[1], "portNo", 8888);//在param节点下添加portNo节点

child[2]=xmlAddNode(xmlDoc, child[1], "channel");//在param节点下添加channel节点
xmlAddNode(xmlDoc, child[2], "Name", "bear-2");//在channel节点下添加Name节点

xmlAddNodexmlSetNodeAttr接口是我在tinyxml2库的基础上封装的库。

对于xmlAddNode接口,你需要传入

  • xml文档对象
  • 想要创建的节点的父节点
  • 节点名称
  • 该节点的文本内容(可选)

对于xmlSetNodeAttr接口,你需要传入

  • 需要设置属性的节点
  • 属性名称
  • 属性内容 是不是容易理解多了,而且光看child数组元素的下标就能知道当前处在哪一级。操作起来也更方便

5. xml报文的解析

这是用tinyxml2的基本接口解析上述报文的方法

XMLDocument xmlDoc;
XMLElement *pXmlRoot = NULL;
XMLElement *pXmlTra = NULL;
char name[32] = {0};
char ipAddress[32] = {0};
int port = 0;

if(0 == xmlDoc.Parse((const char *)xmlBuf))
{
pXmlRoot = xmlDoc.RootElement();
pXmlTra = pXmlRoot->FirstChildElement("ipAddress");
if (pXmlTra != NULL)
{
strncpy(ipAddress, (pXmlTra->GetText()), (sizeof(ipAddress)-1));
}

pXmlTra = pXmlRoot->FirstChildElement("portNo");
if (pXmlTra != NULL)
{
sscanf(pXmlTra->GetText(), "%d", &port);
}

pXmlTra = pXmlRoot->FirstChildElement("channel");
pXmlTra = pXmlTra->FirstChildElement("Name");
if (pXmlTra != NULL)
{
strncpy(name, (pXmlTra->GetText()), (sizeof(name)-1));
}
}

emmmm....看上去还是很繁琐,能不能变得简洁点?下面是我设想的解析xml报文的代码,

XMLDocument xmlDoc;
XMLElement *pXmlRoot = NULL;
XMLElement *pXmlTra = NULL;
char name[32] = {0};
char ipAddress[32] = {0};
int port = 0;

if(0 == xmlDoc.Parse((const char *)xmlBuf))
{
pXmlRoot = xmlDoc.RootElement();

xmlGetNodeAttr(pXmlRoot, "name", name, sizeof(name));
xmlGetChildNode(pXmlRoot, "ipAddress", ipAddress, sizeof(ipAddress));
xmlGetChildNode(pXmlRoot, "portNo", &port);
xmlGetChildNode(pXmlRoot->FirstChildElement("channel"),"Name", channelName, sizeof(channelName));
}

xmlGetNodeAttrxmlGetChildNode接口是我在tinyxml2库的基础上封装的库。

对于xmlGetNodeAttr接口,你需要传入

  • 节点指针
  • 属性名称
  • 存放属性内容的缓冲区

对于xmlGetChildNode接口,你需要传入

  • 父节点
  • 想要获取的节点名称
  • 存放该节点内容的缓冲区

6.easyxml库

根据上面的设想,我基于tinyxml2库开发了easyxml库,这是源码目录树

├── demo
│   ├── create.cpp
│   ├── parser.cpp
│   └── test.xml
├── src
│   ├── easyxml.cpp
│   ├── easyxml.hpp
│   └── xml_cofig.h
└── third
├── tinyxml2.cpp
└── tinyxml2.h

目录树包含了依赖的tinyxml2源码和使用demo, 在src目录下的即为easyxml库的源码,easyxml库的接口有两个实现版本,用C++函数和宏来实现,两种版本各有优缺点,在使用中我们按照需求场景来选择。「C++函数接口」

  • 优点:利用c++函数的可重载性,解析各种类型的字段时,接口名称可以不变。
  • 缺点:因为是函数接口,存在实参转形参的过程。比如当获取字符串类型的字段时,为防止溢出,我们需要传入缓冲区的长度,这样一来函数的入参就要增加一个,观感上就会不整洁。

「宏接口」

  • 优点:因不存在存在实参转形参的过程,完美解决了C++函数接口的缺点,观感整洁。
  • 缺点:因宏不具备可重载性,所以解析各种类型的字段时,就要设计该种类型对应的宏接口

如上面目录所示,easyxml.hpp存放的是C++函数接口,xml_cofig.h存放的是宏接口 总结:如果是对于少量代码的工程,上面两种版本的选择没有太大的差别,但对于大量代码的工程,推荐选择宏接口。

「easyxml库的开源地址」https://github.com/southbear-club/easyxml

其中包含的接口当然不止上面示例代码中的这些库啦,当然一些更原子的操作还是要用tinyxnl2的基本接口的,不过easyxml库已经能帮你解决大部分的xml报文处理的需求了,这个库后续我会持续维护更新,以使得其能应用于更多的场景。欢迎star哟~

7. 关于tinyxml2

「传送门」如果在这之前,你还不太了解xml报文的基础知识,可以访问下面的链接恶补恶补。

https://www.runoob.com/dom/dom-intro.html

tinyxml2库的接口使用说明

http://leethomason.github.io/tinyxml2/annotated.html

「我遇到了哪些坑」

  • XMLDocument类中的Parse函数,可以选择传入"len"参数,即要解析的字节数。如果未指定,TinyXML-2将假定'xml'指向以NULL终止的字符串。
  • XMLPrinter类中的CStrSize()函数用以获取xml报文的总长度,但返回值长度包含终止符null,所以用CStrSize()函数获取xml的长度比实际值多1。
  • 如果你希望生成的xml报文是不带格式对齐的,那只需要在定义XMLPrinter类的对象时指定compact值为true即可,例如:

    XMLPrinter printer(0,true,0);

暂时就想到了这些坑,真是一把心酸泪,希望你们不要再去踩这些坑了。

8.唠唠叨叨

最近杭州突然变得好冷啊,大家记得添衣服别感冒呀,感冒了干啥都不开心。好啦,以上就是本期的全部内容,学习不是为了变得全知全能,而是为了不再害怕未知,我是熊二,我们下期再见。

推荐阅读:

从cmockery入门C语言单元测试

你的github开源项目还没做持续集成么?赶紧看看这个

还在为查内存泄漏问题痛苦不堪?试试这个神器

                                 1596355d0014ac271817ed0563d9841e.gif

                                    71334f7657a324c68aeda2c065b44e63.png

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐