水淼·万能文章采集器革新版 v6.3.0.0 - 采集列表页文章、关键词文章、微信、今日头条、最好用的采集软件采集程序采集工具

作者: 水淼 日期: 2022-09-25 13:01:21 人气: - 标签: 采集 文章 关键词 转译
水淼·万能文章采集器革新版
水淼·万能文章采集器革新版

软件下载

立即下载 老版本下载 运行不了软件时的修复工具包 下载革新版64位

本软件的转译伪原创功能已独立为全文翻译精灵,购买本软件可以免费获取该软件

软件教程

革新版视频教程(微云) 革新版视频教程(微云mp4可以在线观看) 革新版视频教程(百度网盘)

精确标签教程 隐藏列表页抓包教程

POST方法 POST方法2 采集百度知道 采集百度贴吧用户名 采集视频地址 采集文章地址 采集文章+转译伪原创+关键词插入+生成单页 精确标签删除多余内容 txt格式自动排版 批量采集标题列表 采集微信公众号的正确姿势

软件介绍

水淼软件出品的一款万能文章采集软件,可以只需输入关键字就能采集各种网页和新闻,还可以采集指定列表页(栏目页)的文章。整体革新版,功能超级强大,全方面优化和增强,支持全球语言文章采集

两大采集功能:【关键词采集】和【列表页采集】,其中【列表页采集】有文章地址采集、单篇文章采集,批量文章采集 3 个子功能,按顺序进行操作就能采集成功。【列表页采集】也就是采集指定网站文章的功能非常简单,只需要稍微设置(不需要复杂的规则),就能批量采集目标网站的文章了。如需伪原创,请在软件盒子或到官网搜索《全文翻译精灵》,支持转译伪原创,也就是英译中,再中译英,就叫转译。还有《JSON解析助手增强版》,用于采集文章地址或提取正文。

功能特点:

1. 依托于水淼软件独家万能正文识别智能算法,可实现任何网页正文自动提取准确率95%以上。
2. 只需输入关键词,就能采集到微信文章、今日头条、一点资讯、百度新闻和网页、搜狗新闻和网页、360新闻和网页、谷歌新闻和网页、必应新闻和网页、雅虎新闻和网页;可批量关键词全自动采集。
3. 可定向采集指定网站栏目列表下的所有文章(如百度经验、百度贴吧),智能化匹配,无需编写复杂规则。
4. 文章转译功能,可对采集好的文章,将其翻译到英文再翻译回中文,实现翻译伪原创,支持谷歌和有道翻译。
5. 史上最简单智能文章采集器,更多特点一试就知!

正文提取功能:

正文提取:基于水淼自主研发的正文识别智能算法,能在互联网纷繁复杂的网页中尽可能准确地提取出正文内容。
大多数网站的文章正文可以自动识别,如果识别不了,则:
可以使用精确标签(精确的网页标签头)提取正文,如 <div class="text">
还可以使用头尾标记来提取正文,即给出正文开始内容和结束内容
还可以使用JSON路径取值的方式提取正文,现代网站很多都采用JSON数据返回正文。
以上多种正文提取手段,足以应对几乎所有网站的正文提取。

【精确标签】(精确的网页标签头)特别说明::

请使用win10自带的Edge浏览器或谷歌浏览器,鼠标右键单击正文的开始位置弹出菜单,单击审查元素(或检查)菜单项,然后定位正文的代码段,将该代码段的标签头复制。

如代码段:<div class="text">正文部分</div>,则复制<div class="text">

如代码段:<div class="text test2 test3" data="123">正文部分</div>,也可以省略为<div class="text">,或<div data="123">

多个标签可以使用“|”隔开,如 <div id="content">|<div class="text">|<p class="sm">

其它提示:

1、本软件是重构全新版本,与之前软件类似,操作差不多,但整体功能革新,采集数量更多,性能更优,支持搜索时间,代理,多线程,多国语言。

2、关键词采集可以附带搜索引擎参数,就跟网页里输入关键词搜索一样,如指定网站则输入"关键词 site:baijia.baidu.com",网址必须包含bbs则输入“关键词 inurl:bbs.”,

3、验证前清空Cookies:如果验证不正常,可以选中本选项尝试,会在打开浏览器前自动删除旧的Cookies文件;如果还不行,可以再鼠标右击(不是左击)【开始采集】按钮进行无Cookies采集尝试。

4、如果验证频繁,可能ip已被锁定,需酌情设置间隔秒、设置线程数为1个或更换IP,实在不行只能等第二天再试。

关于验证:

1、搜狗系:目前搜狗网页、搜狗新闻、搜狗移动、微信,均支持自动验证。需要去验证平台注册自动验证账号填入软件,充值10元可以验证1000次。其它搜索引擎只能手动验证。

2、360系:360移动只要设置间隔3秒以上,就基本不会有验证,出现验证的话完成即可继续;360网页至少要设置5秒间隔,否则很容易出现验证,有时候验证很变态,验证了又验证,无法继续采集。这时候就只能使用代理来尝试了。

3、必应系:暂时没发现验证,必应国际版会在第一页时弹出验证窗口,那是为了获得Cookies,不是真的验证,软件会自动关闭的,可以不用理会。

4、谷歌系:没采集几页就会发生验证,而且谷歌似乎能识别到软件内置浏览器,验证通不过。必须使用代理。

总而言之,目前最好用的就是百度网页和搜狗网页,百度移动和搜狗移动似乎也不错。

升级记录(2022年9月25日):

5.0.0.0:2021年12月19日发布整体革新版本,版本号虽然是5.0,那是为了区分老版本,本质上就是1.0。革新版功能超级强大。
5.1.0.0:【列表页采集.地址】功能栏,增加抓包工具和连续捕获工具,可以方便快捷的找到隐藏的列表页地址;修复360采集部分网页崩溃问题;修正快资讯个别页面识别不准确问题;【文章查看】功能栏,增加如果要跳转的目录没有存在目录树中,将自动重建目录树刷新,并增加目录树右键菜单操作项,并增加操作提示;【计划任务】功能栏更新;其它多项更新。
5.2.0.0:修复关键词采集包含:等符号时没有转换导致保存失败问题;增加关键词采集异常退出后下次开始采集恢复进度;其它图标更新。
5.3.0.0:修复【列表页采集.地址.生成】在生成列表页时少了最后一页的问题;优化采集篇数的跳出逻辑
5.5.0.0:百家号采集时增加验证自动弹出;标题识别和正文识别的JSON路径取值增加先行解码功能
5.6.0.0:优化列表页采集地址的*代表任意字符的内部逻辑,以及对网址相关转义符号进行预处理,还有增加对地址中的地址进行提取和解码的功能,具体看帮助按钮;其它更新
5.7.0.0:优化列表框显示效率;改进抓包和连续捕获工具,尤其是POST抓包的改进;补上百度知道验证自动检测弹出;增加右上角2个工具链接;网页代码查看增加[User-Agent]、[Content-Type]、[Referer]的设置;文章查看调宽左边区域;其它界面调整;其它多项更新
5.8.0.0:对文章标题增加CR转义符解码;修复搜狐文章页面自动识别失败问题(因为该页面的head标签不符合规范所致);修复采集分页时多线程崩溃问题;改进对网页编码的UTF-8识别能力;其它更新
5.9.0.0:改进正文识别能力(版权相关信息与正文区分识别的精度提高);改进浏览器加载方式,解决个别网站异常算法导致的崩溃问题;改进采集分页识别;标题为空时自动取随机一句;对标题的网页空白转义符进行转换并删除首尾空;【列表页采集.单篇】增加源代码选项并去除原先单击排版设置切换源代码的方式;出现验证时鸣叫一声(假验证不鸣叫,自动关闭);百度mbd域名免Class标签过滤;增加关键词采集时百度网页获取到的验证Cookies共享给百家号和百度知道,并添加来路以可能避开验证,并增加了按下Ctrl键可以禁止自动弹出验证的问题,包括百家号、百度知道等的禁止弹出。因为有些情况下,百家号无法正常验证,一直重复弹出,导致其它不是百家号的网址采集受阻。因此本功能是为了禁止百家号的验证弹出(这样百家号就会采集失败),好让其它网址正常采集。
5.11.0.0:增加标题识别的随机一句;增加标题插入首行;其它
5.12.0.0:调整百家号应对策略,当不断弹出假验证又无法正常采集百家号时,可以关掉,重新打开软件,按住Ctrl键时开始采集再放开,就可以强制浏览器加载的方式访问百家号;还有调整了其它百度系的采集或Cookies策略;其它
5.13.0.0:改进正文识别能力;百家号强制浏览器加载;其它
5.15.0.0:进一步改进正文识别能力;文章查看跳转路径不存在时不弹信息框,而是状态条提示;列表页采集文章批量时递进命名标题改进多线程下的顺序问题;其它
5.16.0.0:文章识别的正文删除,将删除链接和删除标题的动作放在删除Class后面,解决某些链接有class而无法清除的问题;修复win7个别情况下浏览器加载失败的问题;修复oem版盒子注册文件识别不到的问题;百家号强制浏览器加载;其它
5.17.0.0:关键词采集,对关键词删除首尾空白字符以免保存失败,结束采集时显示剩余线程数改为剩余任务数比较准确,采集进度列表修改部分描述,关键词列表修改为自动换行;其它
5.18.0.0:修复文章识别-其它选项的设置内容隔壁乱窜的问题,调整其它选项设置界面配色,并调整输入框界面大小和图标等;其它
5.19.0.0:修改网页转义符的转换时机,并修复网页代码被转义为文本显示时自动识别不准确的问题;其它
5.21.0.0:进一步改进正文识别能力;其它
5.22.0.0:关键词采集增加网址黑名单和白名单设置;修复文本配置换行处理错误的问题;浏览器读代码功能取消外置程序,改为内置程序;其它
5.23.0.0:联众打码倒闭了,增加斐斐打码和超级鹰打码;其它
5.25.0.0:白名单更改为基于黑名单的例外名单;文章识别的访问参数的UA增加列表选择;修复个别内置识别的网站在保存时扩展名丢失的问题;其它
5.26.0.0:增加白名单功能
5.27.0.0:增加文章识别功能的去除最后段落选项;修复必应国内和国际版的采集;优化百度移动的验证弹出逻辑;改进验证时的自动关闭判断逻辑;去除自动关闭选项(鸡肋功能);其它5.28.0.0:修复知乎内容页内置识别的几点错误;增强支持今日头条问答和微头条的内容页内置识别,可以在批量界面粘贴今日头条的资讯、问答、微头条链接批量采集;关键词采集功能增加今日头条问答和微头条栏目;其它。
5.29.0.0:修改主界面导航栏图标;头条采集和谷歌验证强制使用外部谷歌浏览器操作(因此你需要先安装一个谷歌浏览器),以期解决无法采集或验证的问题;修复抓包和连续捕获工具遇到复杂网页崩溃的问题;其他
5.31.0.0:修复必应国际版链接解析问题;增加外部浏览器用来采集谷歌(已实测有效,需要你先安装一个谷歌浏览器或Edge浏览器,然后弹出外部浏览器验证时请完成验证,软件自动继续采集);其它
5.32.0.0:修复采集原始网页时,保存文件缺失扩展名的问题
5.33.0.0:修复正文最少字数有时不起作用的问题
5.35.0.0:调整关键词采集界面布局,现在开始采集按钮放在最上面,避免小屏笔记本看不到;修复连续抓包工具的一个小问题;外部浏览器加上断开重连;其它更新
5.36.0.0:继续调整部分图标和界面;修复64位抓包崩溃问题;连续捕获工具优化;内置浏览器微调;网页代码查看器增加Cookie设置;其它
5.37.0.0:尝试修复部分电脑使用外部浏览器异常的问题
5.39.0.0:尝试修复外部浏览器有的电脑无法调用的问题;增加谷歌和edge浏览器切换功能
5.51.0.0:列表页采集的代理IP增加隧道代理使用说明;外部浏览器的端口查询功能去掉报毒DLL(改为其它方式查询)
5.52.0.0:优化外部浏览器策略;其它更新
5.55.0.0:修复微头条采集内容重叠的问题;其它更新
5.56.0.0:修复百度有时候验证异常的问题;修复必应采集改动导致网址转换失败问题;修改界面字体为黑体,并且匹配dpi整体无损放大;同时缩放网页;修改微信采集策略(但目前受限严重);修改导航栏功能名称简约化;其它更新
5.57.0.0:再次修复百度采集验证异常问题(直接使用验证后代码进行解析);其它更新
5.58.0.0:接上个版本优化;继续优化外部浏览器策略;
5.59.0.0:修复必应国内和国际采集问题(支持内置浏览器和外部浏览器切换采集);优化搜狗验证逻辑(支持内外浏览器验证);其它更新;
6.0.0.0:全界面支持无损放大(文字、图标都可以无损放大),文字全部改为微软雅黑。无论你的显示屏有多大,都能高清显示;修复头条个别图片链接地址不正常的问题;组合框更换为独家新款外观(支持带图标列表更直观);各种界面调整;优化启动速度;目录树图标更换;改进机器码获取功能;首行插入标题选项增加空第二行选项
6.1.0.0:搜索词插入标题和正文功能,支持自定义搜索词格式(使用 搜索词 和 标题 自由组合);其它细微调整
6.2.0.0:360改为使用外部浏览器验证
6.3.0.0:首行标题后面空第二行功能改为自定义;搜索词插入功能内置更多格式

Copyright © 2009-2021 水淼软件技术 Inc. 保留所有权利。粤ICP备16013086号 粤ICP备16013086号-1 霏凡 转载侵权联系删除