您的位置：首页 > 网络软件 > 网页辅助 > XPath2Doc(网站数据采集工具) V1.0.0.0 官方版

XPath2Doc(网站数据采集工具) V1.0.0.0 官方版

版本

软件大小：14.66M
软件语言：简体中文
软件类型：国产软件
软件授权：免费软件
更新时间：2019-06-24
软件类别：网页辅助
应用平台：Win2003,WinXP,Vista,Win7,Win8

网友评分： 5分

软件非常好（50%）软件不好用（50%）

网友评论下载地址收藏该页

14.66M

相关软件

　　XPath2Doc 是一个半自动采集网页生成Word docx文件的工具，带企查查、天眼查采集配置，使用XPath2Doc需要自己在WebBrowser窗口里面手工登录，并找到需要的数据页面，然后点击程序按钮进行采集，所以是个半自动的网页数据填充Docx工具。

XPath2Doc

【工作原理】

　　网页的每个元素，都可以表示成为XPath语句，所以我们可以读取浏览器打开的网站页面源代码，通过XPath语句得到网页元素中的文本。

　　XPath语句的获取办法：

　　通常我们可以使用谷歌的Chrome浏览器打开网站页面，按F12调出开发者工具界面，在ELements选项卡下，随着鼠标的移动可以看到网页内容被阴影覆盖，点开三角符号，可以更进一步定位准确的位置，直到找到最终需要的数据位置。在找到的文本上点鼠标右键，在弹出的菜单中，选择Copy-Copy XPath，然后粘贴到记事本即可得到需要的XPath语句。

　　这里需要说明一点：如果拷贝出来的XPath语句中有/tbody会影响采集，程序内部对此问题进行了处理，但可能会在某些特殊情况下还是会影响数据采集，可以手工去掉。

【配置说明】

　　1、本程序工作需要三个配置文件：General.ini，自定义.ini，自定义模板.docx。后两个文件名自己定义。

　　General.ini文件中定义了INI文件和Docx模板文件的存放目录，可以不填，默认是程序所在目录。

　　自定义.ini、自定义模板.docx是软件使用者自己创建的网页采集XPath语句及最后生成文件所用的Docx模板，具体设置方法请看ini文件中的说明。注意，Docx模板文件中的“@<#0001#>@”之类的字符是在INI文件中定义的用于替换网页采集内容的标记字符串。ini文件中定义了替换关键字的前后缀和模板文件名。

　　2、使用本程序前，请先建立好你自己的INI配置文件和Docx模板文件。（具体可以参见附带的企查查、天眼查两个配置文件和起诉书模板）

　　需要说明的是，模板文件支持对文档的不同部分使用不同的网址进行采集，注意Url的设置。

XPath2Doc

【使用方法】

　　启动程序--选择模板--点击采集数据按钮旁边的黑色三角符号，点开下拉菜单，点击需要采集的部分。等候浏览器加载网页完毕，手工输入需要查询的内容，点击查询，找到数据的具体页面，然后点击采集数据按钮，观察右侧的列表中是不是已经得到需要的数据。继续点开下拉菜单，选择下一个需要采集的部分，如果网址发生了变化要等候浏览器加载完毕，找到需要的数据页面。点击采集数据按钮观察右侧列表中是不是得到了第二部分的数据。如此反复，直到数据全部采集完毕。

　　如果前后两部分的网址相同，在点击下一部分的下拉菜单之前，要先在浏览器中重新查询新的数据，等新数据页面出来之后在点击下拉菜单选择下一部分进行采集。（网址相同的情况下，点击下一部分会直接从网页取数据，如果浏览器没有换页面，数据就错了。）如果某个部分需要重新采集，请先点击下拉菜单中的该部分名称，然后点击采集按钮重复采集该部分（此时可以随意改变浏览器的数据页面，得到的就是不同公司数据）。

　　列表中采集得到的数据结果如果有偏差，可以单击自行修改。XPath语句如果有什么错误，也可以自己修改看测试结果（XPath语句在修改后会立即重新抓取浏览器的数据，所以浏览器最好是有效数据页面），在程序中修改的XPath语句，不会保存到INI文件中，请自行手工保存。

　　如果列表中数据无误，预览窗口中的Docx模板内容也正确，则可以点击创建文档按钮，填写要生成的文件名，本软件会使用抓取到的网页数据替换模板中的索引字符串，自动生成Docx文档。

　　需要说明的是，右下角的Docx预览窗口不能完整的支持Word文档，对不标准的文档可能会出现文本缺失或者错位现象。遇到这种情况，可以忽略，或者将模板文件改成规范的文本格式（单倍行距）。