Cy86 最近的时间轴更新
Cy86

Cy86

V2EX 第 316181 号会员,加入于 2018-05-14 04:55:35 +08:00
Python 爬虫并发极限是多少呢?
  •  1   
    Python  •  Cy86  •  2024 年 5 月 20 日  •  最后回复来自 Cy86
    35
    如何自学 Vue 呢
    Vue.js  •  Cy86  •  2020 年 2 月 26 日  •  最后回复来自 Hanggi
    70
    从 WSL1 换到 WSL2 ,整体速度上去了, 但没法通过公网链接
    Windows  •  Cy86  •  2020 年 2 月 20 日  •  最后回复来自 Cy86
    14
    光猫的 Lan 口和路由器的 Lan 口做级联,会增加带宽么
    分享创造  •  Cy86  •  2020 年 3 月 9 日  •  最后回复来自 Cy86
    10
    朋友公司买了网站 1W 元,请大家看看,提些意见
    程序员  •  Cy86  •  2020 年 3 月 9 日  •  最后回复来自 Cy86
    118
    用 阿里云和域名(已备案) 反向代理国外 vps 的网站 可以么
    Chamber  •  Cy86  •  2018 年 9 月 2 日  •  最后回复来自 ThirdFlame
    1
    如果在网页嵌入别人的网页然后刷流量可行么
    浏览器  •  Cy86  •  2018 年 8 月 27 日  •  最后回复来自 night98
    3
    Cy86 最近回复了
    2025 年 9 月 9 日
    回复了 SayHelloHi 创建的主题 生活 兄弟们 跪求 有用的灭蟑螂药~~
    别买假了, 我之前住的地方很多蟑螂, 蟑螂药他们都当零食吃
    2025 年 1 月 11 日
    回复了 iorilu 创建的主题 Python 最近想搞个爬虫爬点东西, 目前 Python 那个框架最好用呢
    @iorilu 那还是得上手干, 遇到问题处理完了之后再总结出一个通用方案, 爬虫最需要考虑的是反爬, 其他的都比较简单,没太多需要考虑的
    2025 年 1 月 10 日
    回复了 iorilu 创建的主题 Python 最近想搞个爬虫爬点东西, 目前 Python 那个框架最好用呢
    楼主不理我,我再捞一下, 目前我负责的爬虫抓取量每天在百万级, 月抓取量在亿级,主做舆情的
    推荐:
    百条用 requests 就行
    几十万条有时效性就 aiohttp
    同一个网站大量数据, scrapy 和 feapder 都可以
    上亿条自己开发爬虫框架
    你说的这几个问题: 访问限制, 需要登陆, 代理轮询, 执行 js, 错误重试
    访问限制, 需要登陆: 对于反爬都是针对目标单独定制的,市面上没有能包含所有反爬的的框架
    代理轮询最简单的就自己整个队列, 每次爬虫轮着取代理 ip, 对于账号绑定 IP 的,就单独开个服务针对要爬的渠道固定 IP
    执行 js 可以单独作为一个服务旁运行, 需要执行的 js 扔进去只关注返回结果就好

    感觉你可以说说你的整体目标是啥
    2025 年 1 月 6 日
    回复了 iorilu 创建的主题 Python 最近想搞个爬虫爬点东西, 目前 Python 那个框架最好用呢
    我觉得 requests 应该够了吧, 直接把接口抓出来比较简单,我最近也在鼓捣爬虫练手, 你这是要爬啥网站呢
    2024 年 12 月 16 日
    回复了 wty95 创建的主题 程序员 政府的中介超市写自动化脚本,会不会踩缝纫机?
    把这活儿外包出去, 嘴上说让他们手动点击(后端是爬虫), 速度别太快, 这样你就安全了
    2024 年 5 月 20 日
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @macaodoll #29 感谢建议, 目前只是突然想到了技术上的问题, 在纠结 Python 为啥并发上不去, 卡点在哪
    2024 年 5 月 20 日
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @shanyaoxingtong #31 后面接了 5 家的代理池, 每天的总请求 13 亿, qps 能达到 15K, 咱们先讨论技术再讨论代理
    2024 年 5 月 20 日
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @chengxiao #28 每错是舆情
    2024 年 5 月 14 日
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @chengxiao #26 日常监控 30 万个网站的更新, 每 5 分钟跑一次, 不需要账号和风控, 单站点请求一分钟一次都没有
    2024 年 5 月 14 日
    回复了 gezimonkey 创建的主题 信息安全 发现一个诈骗网站,有没有人替天行道一下?
    @fkdtz #42 哦哦, 我以为你用了啥放大原理, 用很小的流量大比如 1:100 打他, 我这是杀敌 1000, 自损 1000
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   932 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 22:53 · PVG 06:53 · LAX 14:53 · JFK 17:53
    ♥ Do have faith in what you're doing.