【这不科学啊】 【码农救我】 关于网站信息..求解惑啊
整理时间:2013-06-20 21:23 来源:www.vimiy.com 作者:编辑 点击:次
【楼主】2013-06-20 13:15
» 关于网站信息..求解惑啊
LZ是搞建材信心报价网站的,目前平均每天上传2000条报价信息数据,一年除去双休和休假估计也就200天,这样下来一年也就20W条数据左右
可是某网站一年数据有700W条,且信息有效率80%以上,到底是怎么做到的...采集器应该做不到这么智能,后期还要EXCEL处理数据库的.
LZ已经陷入了深深的沉思...求高人指点解惑...
网友评论2013-06-20 13:21
考虑下php+mysql
excel越往后越难维护。你的问题点是什么,不太懂。
----sent from my Motorola Google Xphone,Android 4.3.3
网友评论2013-06-20 13:26
Reply to Reply Post by 正义使者黑毛君 (2013-06-20 13:21)
当然要用EXCEL啊,问题是就算是采集器下载的数据,也是.mdb,肯定不能直接上传的,而且采集器采集的数据会有一堆错行以及无用信息要EXCEL后期整理的,一年700W等于是一天3W5条有效数据,这玩意得多少人轮轴干才能做到?而且后台注册公司也是个问题啊,肯定不能说全自动的
网友评论2013-06-20 13:30
你们这个网站有多少人在做?
*20就是人家那个网站的规模,这个不难吧
我一个做个人网站的,能去比新浪?
网友评论2013-06-20 13:31
我只有一句话,任何有规则的可循的事情都能让程序来处理。
而,任何事情都有规则可循,只是难易程度不同。
网友评论2013-06-20 13:36
那个网站限制了cookie,采集器下来的数据很多无效信息
而且还有个问题是他们怎么会搞来这么多数据?查询源头一直无果
网友评论2013-06-20 13:38
有蜘蛛的话一年得几千万条数据吧。。。。
网友评论2013-06-20 13:42
Reply Post by 沫诺若 (2013-06-20 13:36):
那个网站限制了cookie,采集器下来的数据很多无效信息
而且还有个问题是他们怎么会搞来这么多数据?查询源头一直无果
社会工程学,去卧底可破
----sent from my Motorola Google Xphone,Android 4.3.3
网友评论2013-06-20 13:43
Reply to Reply Post by 最爱小雨天 (2013-06-20 13:38)
现在用的是火车采集。。
网友评论2013-06-20 14:03
没看懂LZ说的什么,你们的数据网站公布么?别人光加你们的数据不就有现成的20W条了么。
发表回复
LOL罗辑思维全国人大代表真三搞笑视频柳岩
Copyright © 2012年2月8日