水淼·万能文章采集器革新版 v6.29.0.0 - 采集列表页文章、关键词文章、今日头条、微信、最好用的采集软件采集程序采集工具

作者: 水淼 日期: 2024-01-02 19:16:03 人气: - 标签: 采集 文章 关键词 转译
水淼·万能文章采集器革新版
水淼·万能文章采集器革新版

软件下载

立即下载 老版本下载 运行不了软件时的修复工具包 下载革新版64位

本软件的转译伪原创功能已独立为全文翻译精灵,购买本软件可以免费获取该软件

软件教程

革新版视频教程(百度网盘)

精确标签教程 隐藏列表页抓包教程

POST方法 POST方法2 采集百度知道 采集百度贴吧用户名 采集视频地址 采集文章地址 采集文章+转译伪原创+关键词插入+生成单页 精确标签删除多余内容 txt格式自动排版 批量采集标题列表 采集微信公众号的正确姿势

软件介绍

水淼软件出品的一款万能文章采集软件,可以只需输入关键字就能采集各种网页和新闻,还可以采集指定列表页(栏目页)的文章。整体革新版,功能超级强大,全方面优化和增强,支持全球语言文章采集

两大采集功能:【关键词采集】和【列表页采集】,其中【列表页采集】有文章地址采集、单篇文章采集,批量文章采集 3 个子功能,按顺序进行操作就能采集成功。【列表页采集】也就是采集指定网站文章的功能非常简单,只需要稍微设置(不需要复杂的规则),就能批量采集目标网站的文章了。如需伪原创,请在软件盒子或到官网搜索《全文翻译精灵》,支持转译伪原创,也就是英译中,再中译英,就叫转译。还有《JSON解析助手增强版》,用于采集文章地址或提取正文。

功能特点:

1. 依托于水淼软件独家万能正文识别智能算法,可实现任何网页正文自动提取准确率95%以上。
2. 只需输入关键词,就能采集到微信文章、今日头条、一点资讯、百度新闻和网页、搜狗新闻和网页、360新闻和网页、谷歌新闻和网页、必应新闻和网页、雅虎新闻和网页;可批量关键词全自动采集。
3. 可定向采集指定网站栏目列表下的所有文章(如百度经验、百度贴吧),智能化匹配,无需编写复杂规则。
4. 文章转译功能,可对采集好的文章,将其翻译到英文再翻译回中文,实现翻译伪原创,支持谷歌和有道翻译。
5. 史上最简单智能文章采集器,更多特点一试就知!

正文提取功能:

正文提取:基于水淼自主研发的正文识别智能算法,能在互联网纷繁复杂的网页中尽可能准确地提取出正文内容。
大多数网站的文章正文可以自动识别,如果识别不了,则:
可以使用精确标签(精确的网页标签头)提取正文,如 <div class="text">
还可以使用头尾标记来提取正文,即给出正文开始内容和结束内容
还可以使用JSON路径取值的方式提取正文,现代网站很多都采用JSON数据返回正文。
以上多种正文提取手段,足以应对几乎所有网站的正文提取。

【精确标签】(精确的网页标签头)特别说明::

请使用win10自带的Edge浏览器或谷歌浏览器,鼠标右键单击正文的开始位置弹出菜单,单击审查元素(或检查)菜单项,然后定位正文的代码段,将该代码段的标签头复制。

如代码段:<div class="text">正文部分</div>,则复制<div class="text">

如代码段:<div class="text test2 test3" data="123">正文部分</div>,也可以省略为<div class="text">,或<div data="123">

多个标签可以使用“|”隔开,如 <div id="content">|<div class="text">|<p class="sm">

其它提示:

1、本软件是重构全新版本,与之前软件类似,操作差不多,但整体功能革新,采集数量更多,性能更优,支持搜索时间,代理,多线程,多国语言。

2、关键词采集可以附带搜索引擎参数,就跟网页里输入关键词搜索一样,如指定网站则输入"关键词 site:baijia.baidu.com",网址必须包含bbs则输入“关键词 inurl:bbs.”,

3、验证前清空Cookies:如果验证不正常,可以选中本选项尝试,会在打开浏览器前自动删除旧的Cookies文件;如果还不行,可以再鼠标右击(不是左击)【开始采集】按钮进行无Cookies采集尝试。

4、如果验证频繁,可能ip已被锁定,需酌情设置间隔秒、设置线程数为1个或更换IP,实在不行只能等第二天再试。

关于验证:

1、搜狗系:目前搜狗网页、搜狗新闻、搜狗移动、微信,均支持自动验证。需要去验证平台注册自动验证账号填入软件,充值10元可以验证1000次。其它搜索引擎只能手动验证。

2、360系:360移动只要设置间隔3秒以上,就基本不会有验证,出现验证的话完成即可继续;360网页至少要设置5秒间隔,否则很容易出现验证,有时候验证很变态,验证了又验证,无法继续采集。这时候就只能使用代理来尝试了。

3、必应系:暂时没发现验证,必应国际版会在第一页时弹出验证窗口,那是为了获得Cookies,不是真的验证,软件会自动关闭的,可以不用理会。

4、谷歌系:没采集几页就会发生验证,而且谷歌似乎能识别到软件内置浏览器,验证通不过。必须使用代理。

总而言之,目前最好用的就是百度网页和搜狗网页,百度移动和搜狗移动似乎也不错。

升级记录(2024年1月2日):

5.0.0.0:2021年12月19日发布整体革新版本,版本号虽然是5.0,那是为了区分老版本,本质上就是1.0。革新版功能超级强大。
5.1.0.0:【列表页采集.地址】功能栏,增加抓包工具和连续捕获工具,可以方便快捷的找到隐藏的列表页地址;修复360采集部分网页崩溃问题;修正快资讯个别页面识别不准确问题;【文章查看】功能栏,增加如果要跳转的目录没有存在目录树中,将自动重建目录树刷新,并增加目录树右键菜单操作项,并增加操作提示;【计划任务】功能栏更新;其它多项更新。
5.2.0.0:修复关键词采集包含:等符号时没有转换导致保存失败问题;增加关键词采集异常退出后下次开始采集恢复进度;其它图标更新。
5.3.0.0:修复【列表页采集.地址.生成】在生成列表页时少了最后一页的问题;优化采集篇数的跳出逻辑
5.5.0.0:百家号采集时增加验证自动弹出;标题识别和正文识别的JSON路径取值增加先行解码功能
5.6.0.0:优化列表页采集地址的*代表任意字符的内部逻辑,以及对网址相关转义符号进行预处理,还有增加对地址中的地址进行提取和解码的功能,具体看帮助按钮;其它更新
5.7.0.0:优化列表框显示效率;改进抓包和连续捕获工具,尤其是POST抓包的改进;补上百度知道验证自动检测弹出;增加右上角2个工具链接;网页代码查看增加[User-Agent]、[Content-Type]、[Referer]的设置;文章查看调宽左边区域;其它界面调整;其它多项更新
5.8.0.0:对文章标题增加CR转义符解码;修复搜狐文章页面自动识别失败问题(因为该页面的head标签不符合规范所致);修复采集分页时多线程崩溃问题;改进对网页编码的UTF-8识别能力;其它更新
5.9.0.0:改进正文识别能力(版权相关信息与正文区分识别的精度提高);改进浏览器加载方式,解决个别网站异常算法导致的崩溃问题;改进采集分页识别;标题为空时自动取随机一句;对标题的网页空白转义符进行转换并删除首尾空;【列表页采集.单篇】增加源代码选项并去除原先单击排版设置切换源代码的方式;出现验证时鸣叫一声(假验证不鸣叫,自动关闭);百度mbd域名免Class标签过滤;增加关键词采集时百度网页获取到的验证Cookies共享给百家号和百度知道,并添加来路以可能避开验证,并增加了按下Ctrl键可以禁止自动弹出验证的问题,包括百家号、百度知道等的禁止弹出。因为有些情况下,百家号无法正常验证,一直重复弹出,导致其它不是百家号的网址采集受阻。因此本功能是为了禁止百家号的验证弹出(这样百家号就会采集失败),好让其它网址正常采集。
5.11.0.0:增加标题识别的随机一句;增加标题插入首行;其它
5.12.0.0:调整百家号应对策略,当不断弹出假验证又无法正常采集百家号时,可以关掉,重新打开软件,按住Ctrl键时开始采集再放开,就可以强制浏览器加载的方式访问百家号;还有调整了其它百度系的采集或Cookies策略;其它
5.13.0.0:改进正文识别能力;百家号强制浏览器加载;其它
5.15.0.0:进一步改进正文识别能力;文章查看跳转路径不存在时不弹信息框,而是状态条提示;列表页采集文章批量时递进命名标题改进多线程下的顺序问题;其它
5.16.0.0:文章识别的正文删除,将删除链接和删除标题的动作放在删除Class后面,解决某些链接有class而无法清除的问题;修复win7个别情况下浏览器加载失败的问题;修复oem版盒子注册文件识别不到的问题;百家号强制浏览器加载;其它
5.17.0.0:关键词采集,对关键词删除首尾空白字符以免保存失败,结束采集时显示剩余线程数改为剩余任务数比较准确,采集进度列表修改部分描述,关键词列表修改为自动换行;其它
5.18.0.0:修复文章识别-其它选项的设置内容隔壁乱窜的问题,调整其它选项设置界面配色,并调整输入框界面大小和图标等;其它
5.19.0.0:修改网页转义符的转换时机,并修复网页代码被转义为文本显示时自动识别不准确的问题;其它
5.21.0.0:进一步改进正文识别能力;其它
5.22.0.0:关键词采集增加网址黑名单和白名单设置;修复文本配置换行处理错误的问题;浏览器读代码功能取消外置程序,改为内置程序;其它
5.23.0.0:联众打码倒闭了,增加斐斐打码和超级鹰打码;其它
5.25.0.0:白名单更改为基于黑名单的例外名单;文章识别的访问参数的UA增加列表选择;修复个别内置识别的网站在保存时扩展名丢失的问题;其它
5.26.0.0:增加白名单功能
5.27.0.0:增加文章识别功能的去除最后段落选项;修复必应国内和国际版的采集;优化百度移动的验证弹出逻辑;改进验证时的自动关闭判断逻辑;去除自动关闭选项(鸡肋功能);其它5.28.0.0:修复知乎内容页内置识别的几点错误;增强支持今日头条问答和微头条的内容页内置识别,可以在批量界面粘贴今日头条的资讯、问答、微头条链接批量采集;关键词采集功能增加今日头条问答和微头条栏目;其它。
5.29.0.0:修改主界面导航栏图标;头条采集和谷歌验证强制使用外部谷歌浏览器操作(因此你需要先安装一个谷歌浏览器),以期解决无法采集或验证的问题;修复抓包和连续捕获工具遇到复杂网页崩溃的问题;其他
5.31.0.0:修复必应国际版链接解析问题;增加外部浏览器用来采集谷歌(已实测有效,需要你先安装一个谷歌浏览器或Edge浏览器,然后弹出外部浏览器验证时请完成验证,软件自动继续采集);其它
5.32.0.0:修复采集原始网页时,保存文件缺失扩展名的问题
5.33.0.0:修复正文最少字数有时不起作用的问题
5.35.0.0:调整关键词采集界面布局,现在开始采集按钮放在最上面,避免小屏笔记本看不到;修复连续抓包工具的一个小问题;外部浏览器加上断开重连;其它更新
5.36.0.0:继续调整部分图标和界面;修复64位抓包崩溃问题;连续捕获工具优化;内置浏览器微调;网页代码查看器增加Cookie设置;其它
5.37.0.0:尝试修复部分电脑使用外部浏览器异常的问题
5.39.0.0:尝试修复外部浏览器有的电脑无法调用的问题;增加谷歌和edge浏览器切换功能
5.51.0.0:列表页采集的代理IP增加隧道代理使用说明;外部浏览器的端口查询功能去掉报毒DLL(改为其它方式查询)
5.52.0.0:优化外部浏览器策略;其它更新
5.55.0.0:修复微头条采集内容重叠的问题;其它更新
5.56.0.0:修复百度有时候验证异常的问题;修复必应采集改动导致网址转换失败问题;修改界面字体为黑体,并且匹配dpi整体无损放大;同时缩放网页;修改微信采集策略(但目前受限严重);修改导航栏功能名称简约化;其它更新
5.57.0.0:再次修复百度采集验证异常问题(直接使用验证后代码进行解析);其它更新
5.58.0.0:接上个版本优化;继续优化外部浏览器策略;
5.59.0.0:修复必应国内和国际采集问题(支持内置浏览器和外部浏览器切换采集);优化搜狗验证逻辑(支持内外浏览器验证);其它更新;
6.0.0.0:全界面支持无损放大(文字、图标都可以无损放大),文字全部改为微软雅黑。无论你的显示屏有多大,都能高清显示;修复头条个别图片链接地址不正常的问题;组合框更换为独家新款外观(支持带图标列表更直观);各种界面调整;优化启动速度;目录树图标更换;改进机器码获取功能;首行插入标题选项增加空第二行选项
6.1.0.0:搜索词插入标题和正文功能,支持自定义搜索词格式(使用 搜索词 和 标题 自由组合);其它细微调整
6.2.0.0:360改为使用外部浏览器验证
6.3.0.0:首行标题后面空第二行功能改为自定义;搜索词插入功能内置更多格式
6.5.0.0:全新更换EDGE运行时,内置浏览器效率更好,浏览器加载和抓包功能性能更强大;界面高度调整符合14寸笔记本,关键词采集的识别设置支持隐藏和展开;将部分本来强制使用外部浏览器访问的引擎、网址改为使用内置的新edge浏览器,头条和微信也因为新浏览器采集多一些;其它
6.6.0.0:修复插入词遇到非法字符没有转换的问题;对打开路径失败进行检测提示;其它
6.8.0.0:浏览器相关问题修复
6.9.0.0:尝试修复极个别电脑验证窗口出现黑屏现象;文章查看页面修复切换文件夹时显示列表的一些问题;其它
6.11.0.0:修复因为使用新浏览器内核导致运行时间久了会崩溃的问题;修复极个别自称是GBK实际却是UTF-8的网站的解码问题;其它。
6.12.0.0:百度网页百度新闻改为浏览器读代码(可以减少避免验证);其它
6.13.0.0:正文插入关键词改为可以自定义的方式
6.15.0.0:修复了去除最后段落卡住的问题
6.16.0.0:连续捕获功能增加div链接点击
6.17.0.0:访问参数-浏览器加载功能设置的加载字串优先于内部对特定网址如百度知道的预设加载字串,就是如果你设定了浏览器加载,就用浏览器加载,否则用内部预设的百度知道加载字串;访问参数的其它设置也是如此。为什么会有预设加载字串?因为有些页面无法用后台GET得到数据,必须用浏览器加载,而用浏览器加载就必须预设加载字串,当加载字串出现时就立即返回数据而不是无谓等待直到达到超时时间才返回数据。
6.18.0.0:修复搜狗网页和360网页采集;计划任务增加分钟间隔循环设置;右上角调整;360资讯网站修复自动识别;其它。
6.19.0.0:修复搜狗系采集(但可能采集多了还是受限);因为原先使用浏览器访问时,浏览器不支持代理,新版本修正了使用代理时不使用浏览器而是使用后台访问,这样代理才有效果;输入代理界面给出了水淼测试过的隧道代理购买网站;优化了浏览器访问和验证的一些逻辑
6.21.0.0:取消访问网页产生的临时文件,因为在win11中可能会被错误定位到桌面显示(原本是软件目录下临时显示,采集完毕自动删除的。)
6.22.0.0:外部浏览器已不可用,故取消;界面个别组件配色调整;记忆历史标题优化哈希机制,相比之前版本减少10倍内存占用;其它
6.23.0.0:修复了微信等网站的图片src参数自动替换的功能;其它
6.25.0.0:修复百度移动采集问题
6.28.0.0:关键词采集增加仅保存网址功能;标题识别增加包含词和不含词功能;正文识别增加最多字数(原先已有最少字数)
6.29.0.0:地址采集-限定列表范围功能,修正每次会弹出信息框的问题;本次升级虽然没有改动其它功能,但是因为底层的排序算法有巨大改进,因此对同等大小的文章的内部处理速度也自然有巨大提升,当然一般情况下没有差别,只有数据量大的情况下才能看出差别。

Copyright © 2009-2023 水淼软件技术 Inc. 保留所有权利。粤ICP备16013086号 粤ICP备16013086号-1 转载侵权联系删除