第二个过滤器报告与过滤器 1 相同的信息。我将它们两个都添加起来以实现冗余;我们应该看到自定义过滤器 1 和 2 的完全相同的 如果您还想使用 页面列表。 第三个过滤器是检测结构化数据测试工具何时报告在页面上未找到作者。 第四个过滤器用于检测作者身份是否失效。(通常是因为链接有误,或者 Google+ 用户未在其个人资料的“贡献者”部分中承认域名)。
第五个过滤器包含结构化数据测试器的标准错误文本
如果我们看到这个,我们就知道我们应该重新抓取这些 URL。 以下是我们在结构化数据测试器上检测到的文本类型。两个箭头指向过滤器 3 和 4: 您的作者身份被破坏 第七步:让它撕裂 此时,我们已准备好开始抓取网址。出于对 Google 服务器的尊重,
您可以在 Screaming Frog 中调整此设置
方法是转到配置 > 速度,然后降低当前设置。 步骤 8:在“自定义”选项卡中导出结果 抓取完成后,转到“自定义”选项卡,选择您测试的每个过滤器,然后导出结果。 出口! 总结 这就是快速指南。导出每个 CSV 后,您需要根据设置的过滤器保存它们。
例如,我的过滤器
正在测试包含短语“页面不包含作者标记”的页面。因此,我知道在过滤器 3 下导出的所有内容都不会在结构化数据测试工具中返回作者结果。 扩展这一概念的四种方法: 1:使用合适的爬虫程序来抓取多个作者的数据 Screaming Frog 是一种简单的工具,可以进行本教程中描述的快速检查,但不幸的是它无法为我们处理真正的抓取任务。
(例如,针对特定页面验证了哪位作者)
我建议重新设计此概念,使其在Outwit Hub中工作。SEOGadget的John-Henry Scherck有一个关于如何使用 Outwit 执行基本抓取任务的精彩教程,如果您以前没有使用过该软件,您应该阅读该教程。