爬了知乎200万数据,图说程序员都喜欢去哪儿工作
因为最近和朋友吃饭,爬知大家都到了大三季,乎万都在纠结自己该以哪里作为自己职业发展的数据起点?也想看看自己的背景,能不能找到靠谱的图说师哥师姐帮忙,那么师哥师姐都在哪里发光发亮呢?程序
我当时也是午休的云服务器提供商时候想到,知乎有那么多结构化的员都好的数据,不如抓取之,喜欢拿来分析可以看看名校生们都在哪?去儿
我们行业的人都喜欢哪,哪里每年带走一堆人?工作
然后花半小时写了个多线程爬虫,源码下载爬下来几百万数据(其中每个学校的爬知大圆圈占比代表该校学生在调研总数中的占比)
这次抓取的数据量有将近200万,跑了一个下午,乎万然后我把没有公司或者教育学校的数据筛掉,就还剩25万了~
图说亿华云