Table of contents
Open Table of contents
关于网站的自噬性内容
This article explains the concept of duplicate content and how it affects the visibility of webpages on search engine result pages (SERPs). It introduces canonicalization as a technique used to address these challenges and provides a comprehensive overview of the process involved. The article covers common causes of duplicate content, discusses the definition of canonicalization, explores how it benefits webmasters, and examines the factors that influence how Google determines the canonical version of a page. Furthermore, it offers practical suggestions on how to optimize preferred pages to align with Google’s preferences, and presents a checklist for conducting a canonical error audit. Finally, it concludes with a discussion on implementing canonicalization using either the HTML header or HTTP header, and lists common canonical errors to avoid.
- 重复内容是指通过多个 URL 访问相同或非常相似的内容。
- 重复内容的可能原因包括网站的备用版本、多个 URL 导向相同内容、UTM 参数、分页系列、国际页面和合作内容。
- 规范化是指向搜索引擎指示页面的哪个版本应该被索引并显示给用户的过程。
- 规范化有助于解决重复页面的问题,通过建立一个优选版本,搜索引擎应该优先考虑该版本。
- 谷歌根据诸如移动 vs 桌面、HTTPS vs HTTP、干净的 URL、语言以及整体页面信号等因素确定页面的规范版本。
- 技术因素如 HTTPS、干净的 URL 结构、内部链接、hreflang 注释、网站地图、外部链接和 301 重定向有助于加强规范信号。
- 对网站进行规范错误审计包括调查规范状态、检查数据、导出和调查页面、检查可爬性和可索引性,以及检查谷歌搜索控制台。
- 实现规范化可以使用 HTML 中的规范元素或 HTTP 标头中的规范链接。
- 要避免的常见规范错误包括规范链、将规范标签放在正文中以及对分页页面进行规范化。
https://www.womenintechseo.com/knowledge/dealing-with-duplicate-content-canonicalization-in-detail/
被索引的被屏蔽页面
Eoghan Henn from Rebelytics shares his experience in addressing the Indexed, though blocked by robots.txt issue for the e-commerce site zamnesia.com. He explains different URL types discovered during the process and how they were dealt with individually. Additionally, he highlights the limitations of blocking URLs via robots.txt and presents alternative solutions. The key learning outcomes include understanding the implications of blocking URLs via robots.txt, recognizing alternate ways to conserve crawl resources, and managing URL indexation effectively.
- 解决了 Zamnesia.com 出现 “已索引,但被 robots.txt 阻止” 的问题。
- 从最初的 6,500 个 URL 开始,最终解决了所有问题。
- 讨论了不同类型的 URL 以及它们的解决方法。
- 通过 robots.txt 阻止 URL 并不总是有效的。
- 提出了阻止 URL 通过 robots.txt 的替代方法。
- 在报告中达到零 “受影响页面” 并不一定是一项成就。
- Zamnesia 面临的 URL 类型包括加入购物车、加入愿望清单、分页审查页面、过滤的类别 URL 和内部搜索结果页面。
- 通过 robots.txt 阻止 URL 并不会阻止索引。
- 解决这个问题的重要性在于防止不想要的 URL 出现在搜索结果中。
- 通过替代方法确保 URL 被较少爬取并且不被索引的替代方法。
- 文章中提到了处理不同 URL 类型的细节。
- 优化搜索体验对用户至关重要。
- Google Search Console 报告中没有关于 “已索引,但被 robots.txt 阻止” 的关键问题。
- 为了解决不同类型的 URL 并将其从索引中删除,进行了各种更改。
- 内部搜索结果页面现在在 Google Search Console 中显示为 “未索引”。
https://www.rebelytics.com/fixing-indexed-though-blocked-by-robots-txt-case-study/