返回所有脚本

按 URL 获取 GitHub 仓库信息

01KDETBJ20PADN8CKYRY1Q9477
由 CafeScraper 维护
免费试用
本工具可高效采集 GitHub 开源项目数据,涵盖核心基础信息(如 URL、ID、主要语言、仓库大小)及关键动态指标(如 Issues、PRs、Forks、Stars、更新动态)。该工具支持按 URL 进行采集,并导出结构化结果。

了解更多

该工具可爬取哪些具体数据?

本工具可全面爬取 GitHub 开源项目的公开可用数据,包括:

  • 项目基础信息(名称、链接、大小、开发语言)
  • 社区活跃度指标(星标数、复刻数、问题数、拉取请求数)
  • 代码仓库大小(代码行数)
  • 项目最新更新(最后更新时间、最新功能等)

使用该工具是否需要编程知识?

不需要。我们提供了友好的图形化界面,你仅需输入简单信息,即可一键完成数据爬取。

爬取数据是否会违反 GitHub 政策或导致账号被封禁?

本工具内置了智能请求管理机制,通过控制访问频率、模拟真实用户行为的方式友好地爬取公开数据,以降低 IP 被限制的风险。但用户仍需遵守 GitHub 的 robots.txt 协议与服务条款,避免进行过于频繁的暴力爬取。

爬取的数据支持导出为哪些格式?

工具支持导出为 CSV、JSON 两种格式,你可直接将其导入 Excel、数据库或数据分析工具中,进行进一步的处理与可视化分析。

工具能否爬取私有仓库的数据?

不能。本工具仅支持爬取 GitHub 上的公共仓库信息。访问私有仓库需要个人访问令牌与授权验证,这超出了本工具的设计范围。

工具一次可爬取多少个项目?是否支持批量操作?

支持。我们提供批量爬取功能,你可准备一个包含多个项目链接的列表,工具会自动进行任务排队并依次爬取,大幅提升数据采集效率。

使用过程中遇到问题,能否获得技术支持?

可以。我们提供完善的技术支持渠道,包括详细的用户文档、常见问题(FAQ)库与客服联系方式,确保你在使用过程中遇到的任何问题都能得到及时解答。

数据字典

列名 描述 数据类型
url 代码仓库网页地址 Url
id 代码仓库唯一标识符 Text
code_language 主要编程语言 Text
code 代码仓库源代码 Array
num_lines 代码总行数 Number
user_name 代码仓库所有者用户名 Text
user_url 所有者个人主页链接 Url
size 代码仓库大小 Text
size_unit 代码仓库大小单位 Text
size_num 代码仓库大小数值 Number
breadcrumbs 代码仓库导航路径 Array
num_issues 问题总数 Number
num_pull_requests 拉取请求总数 Number
num_projects 关联项目数量 Number
num_fork 复刻数量 Number
num_stared 星标数量 Number
last_feature 最新功能变更 Text
latest_update 最后更新日期 Date

输入参数

仓库链接 url 必填 文本
描述:该参数用于指定需要爬取的代码仓库链接。