最顶  

掌握 Twitter (X) 搜索:2024 年的顶级工具和实践

前者拥有超过 6.66 亿活跃用户 Twitter 或新品牌 XTwitter 是最流行的社交媒体平台之一,也是企业、研究人员和个人的重要信息来源。然而,在浩如烟海的 Twitter 数据中手动提取和筛选数据,既费时又费力。 

推特抓取器

Twitter 搜索包括使用软件或脚本从平台上收集数据。 通过分析这些数据,您可以深入了解流行话题和标签、对话、平台上发生的互动以及用户行为。

收集到的信息可以进行细致分析,用于情感分析、市场研究和社交媒体监测等各种目的。本文将深入探讨 刮削 使用现有方法获取 Twitter 数据(从脚本到无代码软件)、相关成本以及合法性和道德条款。

目录

可以从 Twitter 提取哪些类型的数据?

您可以提取不同类型的 Twitter 数据。以下是用于 Twitter 搜刮的三种主要数据类型:

  • 微博 您可以根据配置文件从过滤后的推文中捕获特定数据,如点赞、回复、转发和指定 URL。
  • 用户配置文件: 公开用户配置文件中的任何内容都可以收集,例如用户的简介、配置文件描述、推文数量、转发、关注者/追随者数量以及配置文件图像。
  • 关键词/标签: 您可以收集包含特定关键词、标签或其组合的推文。还可以通过点赞数或查找特定日期和时间来缩小搜索范围。

使用条款的合法性和道德性

在涉足数据挖掘领域时,必须了解其中涉及的法律和道德界限。

根据 推特条款和规定 (开发者协议和政策)的规定,未经明确许可的刮擦数据行为是 Twitter 政策所禁止的:"未经 Twitter 事先同意,明确禁止刮擦服务。

任何出于上述目的滥用 Twitter API 的行为都将受到执法处理,包括暂停和终止访问。

搜索 Twitter 的一般指南

在简要介绍了 Twitter 搜刮之后,是时候探索通过 Twitter 数据进行搜刮的过程了。因此,我们为您编制了一份简单而全面的 Twitter 搜索指南。请按照以下步骤操作:

  1. 首先,你需要有合适的刮削工具。有很多选择可供选择。因此,要确定哪种选择适合您的预算和喜好。
  2. 下载并在系统中安装刮擦工具。
  3. 确保设备有足够的存储空间,并有可靠的网络连接。
  4. 安装后,使用 Twitter 帐户的详细信息登录。
  5. 调整从 Twitter 搜刮数据的参数是一个重要步骤,可以根据关键字、标签、日期和时间、位置、URL 等提取数据。
  6. 执行刮板工具后,会留下大量数据。您可以将数据导出为不同的文件格式(xlsx、CSV、JSON 等)。
  7. 最后一步,您应该分析导出的数据,以便深入了解您感兴趣的主题。

Twitter 搜索工具和方法

我们查看了互联网上一些可用的刮擦工具,包括官方的 Twitter 搜刮器 的第三方服务甚至开源 Python 库,并将它们列出如下。

4.1.基于 API 的 Twitter 抓取工具

我们要了解的第一种方法是基于 API 的 Twitter scrapers,其中包括 Twitter API V2、Apify、Brightdata 和 Scrapingdog。

4.1.1. 推特应用程序接口 V2

Twitter API v2 是 Twitter API 的最新版本,它是官方提供的 API,也是开发人员构建社交互动应用程序或研究人员/个人出于特定目的收集数据时最常用的 API 之一。使用新的 API 可以毫不费力地监控和分析社交网络上的实时对话。

最近,Twitter 增加了一些新功能,如端点、推文帖子的有效载荷选项、对话标识符集和注释。这些变化令人印象深刻。然而,新的定价结构却让开发者和第三方应用程序深感忧虑。在新的定价结构下,服务访问量急剧下降,价格却大幅上涨。

Twitter/X API v2 定价计划分为三个级别:免费、基本和企业。

  • 在免费层中,开发者最多可以发布 每月 1500 条推文旨在仅用于写入和测试 Twitter API。
  • 基本级费用 每月 $100,允许开发人员每月发布多达 3,000 条推文 在用户层面和 50,000 条推文(阅读上限为 10,000 条) 在应用程序层面。
  • 企业版包含更多专为企业设计的高级功能。不过,企业计划将向开发人员/企业收取高昂的费用,即 每月近 42000$.

4.1.2. Apify

通过 Apify 的 Twitter Scraper,您可以从公开的 Twitter 数据中提取信息,如标签、主题、回复、图片等。Twitter 最近的变化对在该平台上查看和搜刮推文设置了新的限制,因为用户在每个配置文件中最多只能提取 100 条推文的公开信息。该搜刮工具不能搜刮最新的推文,但可以检索最受用户喜欢的推文。提取的数据可以 HTML、JSON、Excel 和 CSV 格式访问。

下图说明了 Apify 的每月服务费用。它还为年度计划提供 10% 折扣。更多信息,请访问 Apify 定价.

Apify
照片由 Apify 提供

4.1.3. Brightdata

Brightdata
图片来源:Brightdata

Bright Data 是一个数据收集平台,提供代理服务器、API 和无代码解决方案等网络刮擦工具。Bright Data 的 Web Scraper 使用户能够从公开 Twitter 资料中提取数据,包括图片、视频、推文、标签等。

价格从每月 500$ 开始,页面加载次数为 151000 次.Bright Data Twitter scraper 数据收集器兼容所有网络服务,并能以 Excel 格式输出数据。它还提供为期 7 天的试用版,您可以在支付 500 美元之前对平台进行测试。

4.1.4. Scrapingdog

Scrapingdog 是一个网络搜刮 API,可帮助你搜刮包括 Twitter 在内的任何网站。它允许你使用推文 ID 搜刮推文,或搜刮公共页面以提取关注者数量、关注者人数和网站链接等详细信息。

搜索 Twitter 每个页面的成本为 0.0009$ 在标准计划中,与其他顶级 Twitter 搜刮工具相比,它的性价比最高。他们还提供免费试用;你可以随时取消订阅并轻松退款。有关如何使用 Scrapingdog 搜刮数据的更多信息,请访问 Twitter Scraping API 文档.

ScrapingDog
图片来源:ScrapingDog

4.2.用于搜索 Twitter 的 Python 库和软件包

现在,您已经熟悉了 Twitter API 和 Apify 等应用程序,是时候看看用于 Twitter 搜索的 Python 库和软件包了。

4.2.1. Tweepy

Tweepy
照片制作:Tweepy

Tweepy 是一个开源 Python 软件包,允许开发人员流畅、透明地访问 Twitter 端点。不过,你应该知道,Twitter 已对发送到 X/Twitter API 的请求数量施加了限制。 每 15 分钟允许 900 次请求.在本节中,我们将介绍 Tweepy 的功能,并给出一个简单的示例。 

首先,在 Python IDE 上使用 "pip install Tweepy "命令安装 Tweepy 软件包,然后导入 Tweepy。下一步是向 Twitter 注册客户端应用程序。创建一个新的应用程序。完成后,您将收到一个不记名令牌。

接下来,您必须创建一个 "客户端 "实例,以传递从 Twitter API 获取的消费者承载令牌。

在查询变量中,我们指定了一个字段、一个提及和一个标签,如图所示。

要搜索过去七天的推文,可以使用 Tweepy 提供的 search_recent_tweets 功能。要指定所要查找的数据,您需要传递一个搜索查询。

如果您可以访问学术研究产品跟踪,则可以检索 7 天前的推文。从完整的公开推文档案中获取。

您可以使用以下代码导出结果。

Tweepy 中还有很多函数,能够在更复杂、更特殊的情况下执行各种任务。

4.2.2. Snscrape

另一种不依赖 API 从 Twitter 获取信息的方法是通过 Snscrape。它允许你检索用户资料、推文内容、来源等基本信息。与 Tweepy 不同的是,Snscrape 对可抓取的推文数量或日期没有限制,而且还可以提取 Twitter 的旧数据。由于 Snscrape 没有连接到 Twitter API,因此它的功能不如 Tweepy。查看我们的完整指南 Snscrape.

在本节中,我们还将回顾一个使用 Python 中的 Snscrape 从 Twitter 搜刮数据的基本示例。

首先,您应该安装 Snscrape。请注意,您必须安装 Python 3.8 或更高版本才能使用它。

下一步,安装以下库。

我们使用 "TwitterSearchScraper(query).get_items "函数发送查询(本例中为 "query"),然后从搜索中获取元素,就像从 Twitter 搜索栏中获取结果一样。

还有其他方法可用于从 Twitter 搜刮数据,例如TwitterSearchScraper、TwitterUserScraper、TwitterProfileScraper、TwitterHashtagScraper、TwitterTweetScraperMode、TwitterTweetScraper、TwitterListPostsScraper、TwitterTrendsScraper。

结论

Twitter 是全网社会学信息的重要来源。通过利用从 Twitter 搜刮到的信息,您可以量身定制计划,促进销售并改进营销策略。在本文中,我们深入概述了 Twitter 搜刮的不同方面和方法,以提取对企业或研究有价值的数据。

总之,鉴于 Twitter API v2 的新限制以及高昂的成本,选择最佳刮板将是一项挑战。你可以从 Twitter API 或直接连接到 Twitter API 的第三方应用程序和 Python 库(Tweepy)的更高级功能中获益。但是,您可以提出的请求数量受到严格限制。另一方面,如果您想抓取公开数据,而基本功能又能满足您的需求,那么 Snscrape Python 库等选项将是一个不错的选择。

免责声明: 免责声明:本材料仅供参考。它并不构成对任何活动(包括非法活动)、产品或服务的认可。在使用我们的服务或依赖此处的任何信息时,您全权负责遵守适用的法律,包括知识产权法。对于因以任何方式使用我们的服务或此处包含的信息而造成的损害,我们不承担任何责任,除非法律明确要求。

关于作者 Farhad Pashaei

Farhad Pashaei 的头像

十多年来,法哈德一直在撰写各种主题的操作指南,包括网络安全、计算机网络、操作系统等。作为一个技术发烧友,他还喜欢亲身体验各种电子设备,包括智能手机、笔记本电脑、配件、可穿戴设备、打印机等。当他不写作的时候,你可以打赌他一定在吞云吐雾地了解市场上的产品信息,这充分体现了他对技术的无限渴求。

加入 40K+ 新闻通讯订阅者行列

定期获取有关 Seedbox 使用案例、技术指南、代理服务器以及 隐私/安全提示。

把你的想法说出来

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注