第89章 这家伙是个宝藏!
,沈予慧就知道他这是要做长远打算了。

    於是她慢慢点头。

    「搞!多少钱都搞!」

    第二天,正式上课。

    昨晚他就接到了导员的通知,说系里决定以研代考,让他直接去实验室即可。

    於是第二天,余江悠哉地骑着自行车,早上九点半才晃悠悠地来到实验室。

    他可太懂工科实验室了。

    一晚上随便熬,上午能十点到那都算早的!

    不出他所料,只有闫师兄一人在场。

    「早。」

    闫师兄二十七八岁的模样,头发稀少,见到余江先打招呼。

    「师兄早。」

    余江坐到老爷机前,按下电源,风扇便疯狂转动。

    这十年老拖拉机的动静,他敢打赌,那块赛扬566都应该属於「升级」。

    「师兄啊————你们是用的什麽电脑呢?」

    「奔I1I800。」

    见余江一副生无可恋的表情,闫师兄呵呵笑道:「你来晚了一点,本来有多的,後面老板感觉集群太吃力,就把那台奔3的放机房去了。」

    「你们机房没用专门的伺服器啊?」

    「是啊,全用的台式做集群————所以你知道我们条件多艰苦了吧?」闫师兄摇了摇头:「去年有人毕业证都不要就直接跑路了,实在受不了这玩意。」

    余江:「————是够艰苦的。」

    这会电脑已经打开,余江迅速输入密码,打开arXiv。

    现在arXiv上占位性质的论文很多,但也能看到高质量、高数量且最新的论文。

    这边,闫宏飞见他快速地用滑鼠划拉着篇幅,几乎几分钟就把一篇全英文的论文看完,随後又打开另外一篇後,眼中惊讶顿升。

    他这是读论文,还是在看网文?

    怀着疑惑,闫宏飞起身,慢慢走到余江身後。

    只见余江正在阅读一篇关於玻尔兹曼机的论文。

    看得出来,余江看得很认真,但他翻页的速度依旧极快!

    甚至闫宏飞都只来得及看清楚一个公式,余江就又翻页了!

    闫宏飞只感觉头皮一阵发麻:「你看完了?」

    「嗯。」余江回头,见闫宏飞满脸惊恐,马上意识到对方可能被自己看论文的速度吓到了,连忙解释道:「就随便翻了一下。」

    闫宏飞却只是摇了摇头。

    他当然愿意相信余江只是随便翻了一下。

    但随便翻的状态,和认真的、快速看的状态,又怎会一样?

    他又联想到这家夥恐怖的分数————

    沉默了几秒,他又想到昨天喻林的话。

    「师弟,你对爬虫了解多少?」

    余江回头:「了解了一点点,怎麽?」

    「就是即便加了节点,并行抓取也是重复,而且很慢。」闫宏飞望着余江:「有思路没?」

    余江微微皱眉。

    这位师兄好像是博一————

    「嗯————师兄肯定去重没问题————」余江一边说着一边观察闫宏飞的表情,「要不我看看日志?」

    闫宏飞点头,随即打开日志。

    余江从旁边拉过凳子,迅速查看日志。

    爬虫这玩意谁没玩过啊—一他当初写的验i123连结网站的小工具,如果加一道分析,就可以算爬虫了。

    「师兄用的文件列表?」

    「也试过HashSet去重,但很快就爆内存。」

    「URL队列问题确实难搞。」余江点头,安静地思索了片刻。

    闫宏飞也耐心地等待,只是眼神略有闪烁。

    「HashSet在URL总量过高的时候确实会占用大量内存,文件列表吃I/0。

    "1

    闫宏飞就叹了口气,他的办法是平均负载,但终归治标不治本。

    余江转头望着闫宏飞。

    「要不试试全局去重?」

    闫宏飞一怔:「怎麽全局,什麽架构?」

    「引入一个轻量Master节点,专门维护一个全局Blooilter做去重。」

    「位数组大小按我们当前几千万网页规模留足余量,用几个独立哈希函数,误判率控制在千分之五以内就够用。Worker节点本地先快速过滤,新提取的URL再批量通过TCP发给Master确认。」

    「关键是per—hostbackqueues:Master按主机名hash分桶,每个主机维护一个FIFO队列和一个下次可抓时间————」

    「————Master本身用轻量内存结构,也没什麽瓶颈。」

    余江一边思索,一边慢慢地给出方案。

本章未完,请点击下一页继续阅读>>