x-cmd pkg | trafilatura - 网络爬虫和搜索引擎优化工具

2024-01-03 17:33:39

简介

trafilatura 是一个用于从网页上提取文本的命令行工具和 python 包:

提供网络爬虫、下载、抓取以及提取主要文本、元数据和评论等功能
可帮助网站导航和从站点地图和提要中提取链接
无需数据库，输出即可转换为各种常用格式（txt,csv,json,xml,xmltei）
可用于搜索引擎优化

首次用户

使用 x env use trafilatura 即可自动下载并使用
- 在终端运行 eval "$(curl https://get.x-cmd.com)" 即可完成 x 命令安装, 详情参考 x-cmd 官网
x-cmd 提供1分钟教程，其中包含了 trafilatura 命令常用功能的 demo 示例，可以帮你快速上手 trafilatura 。

使用案例：

trafilatura-1min-cn

# 安装 trafilatura
x env use trafilatura

# 提取指定网页的主要内容
trafilatura -u "https://www.x-cmd.com/start"

# 使用站点地图抓取 x-cmd 关于 7za 的网站
trafilatura --sitemap "https://www.x-cmd.com" --list | grep 7za > list.txt

# 批量处理 URL 列表，并存储结果到目录中
trafilatura -i list.txt -o txtfiles

# 优化 bing 搜索结果
trafilatura --links --xml -u "https://www.bing.com/search?q=gitea"

技术特点

稳健高效的提取：
1. 除了可以提取主要文本之外，还可以提取元数据（标题、作者、日期、网站名称、类别和标签），结构化信息（段落、标题、列表、引号、代码、换行符、行内文本格式）
2. 从原始 HTML 转换为关键部分，去除由重复出现的元素（页眉和页脚、广告、链接/博客等）组成的噪音
支持 URL 管理（黑名单、过滤和重复数据删除）
支持可选附加组件：
1. 对提取内容进行语言检测
2. 图形用户界面 (GUI)
3. 速度优化
更加高效、准确。从官方给出的评估和替代方案的数据来看，该工具的性能明显优于其他开源解决方案。

竞品和相关作品

goose3：用 Java 编写的文章提取器。
readabilipy：Python 中的简单 HTML 内容提取器。
news-please：是一个开源、易于使用的新闻爬虫，可以从几乎所有新闻网站中提取结构化信息。

进一步阅读

trafilatura 源代码 - trafilatura 项目的源代码托管在 GitHub，你可以在这里找到最新版本的 trafilatura 和参与社区贡献。
trafilatura 官网 - 提供了非常丰富的使用案例和技术分析文档。
使用 Trafilatura 进行文本抓取 - 该文章介绍了如何使用 trafilatura 快速提取网页问题。

X-CMD 官网

x-cmd-pkg

x-cmd-1min

文章来源:https://blog.csdn.net/edwinjhlee/article/details/135365025
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！