首页 » 能够并行抓取数百个网站

能够并行抓取数百个网站

在构建搜索引擎爬虫方面,您是否开发了一些自定义的东西或者使用了像 Nutch 这样的技术? iMedix 是否维护所有这些反向关键词数据库,或者您是否使用第三方技术?并且,您的索引中大约有多少页?

我们的爬虫是内部开发的多线程、分布式计算技术,。我们的爬虫依靠高带宽网络,保持平均每小时50万页的抓取速度,且不会因使用单一数据库而对抓取网站的性能造成负担。

爬虫程序可以检测页面之间的相似性

从而避免“过度抓取”,还能检测网站内容变化的频率,以优化抓取调度,实现每次抓取会话的最大数据更新。

该索引器是内部开发的,依靠开源项目以空间向量模型 英国电话号码数据 表示文档。我们开发了一个基于分治算法的网格计算应用程序,该应用程序能够每秒将数百个文档索引到二进制文件中,这些文件可以立即进行搜索,同时索引工作在后台继续进行。

我们索引中的文档数量差异很大,因为我们不断增加抓取的网站数量,同时删除自动(由抓取工具或索引)和通过我们的工作人员手动处理标记为不相关的页面。在我们最近的版本中,我们使用了 1000 万到 2000 万个健康页面的索引,具体取决于上面描述的因素。

 

作为对排名算法的后续关注 – 这是你们内部做的事情吗?

 

您最后是否使用了类似 PageRank 的修改版本?信任等级?

我们的 IP 位于我们的排名算法中,该算法分析从用户收到的反馈以识别有用页面的模式。评级公式会根据用户反馈不断自动更新。学习机本身是建立在机器学习领域先进算法的组合之上的。排名算法专注于以高精度预测 如何建立忠实的电子邮件订阅者基础 某个页面 能够并行抓  与特定查询匹配的可能性。我们的专有技术也是在首席科学家 Yuval Shehar 教授的帮助下开发的,他是本•古里安大学医学信息学研究中心负责人,在健康信息检索和人工智能尖端技术方面拥有超过 15 年的经验。 Shahr 教授拥有博士学位。他拥有斯坦福大学医学信息科学博士学位,是一名注册医生。

iMedix 除了是一个搜索引擎之外

还利用用户来帮助建立社区 – 是什么让您选择了这条道路,您的用户如何反应?

我们决定选择这条道路,因为我们觉得人们希望获得权力,并能利用他们 阿拉伯语数据  的经验和知识做出很大贡献。如果我们开发出正确的工具,我们就可以组织和利用这一共同努力。虽然我们定期阅读  和所有其他主要研究公司的数据,但我们认为,倾听客户的意见是打造成功产品最重要的事情。我们的道路真实地反映了我们与客户之间的互动。我们很幸运,我们的客户喜欢使用 iMedix,并且互联网社区认为我们值得赢得 Crunchies 全球大赛 2007 年度最佳新创业公司奖。

iMedix 在第一年就取得了 能够并行抓  显著的成功

赢得了 Crunchies 最佳新创业公司奖 – 在产品推广方面,迄今为止您的策略是什么?您在哪些方面取得了最大的成功?

非常感谢您的善意言辞。我们感到非常幸运,在正确的时间出现在了正确的地点。对我们来说非常有效的策略之一是花时间学习和了解现有的产品并了解我们的受众。不要只是阅读报告,还要与博主、意见领袖和患者进行诚实、公开的讨论。我们与数百名这样的人取得了联系,并与他们一起以及在客户的帮助下了解到了我们成长所需的东西。我相信这些人很享受这个过程并决定与他们的朋友和读者分享。这对我们的知名度和流量产生了巨大的影响。

最后,在如此高的期望和创业环境中,我想事情可能会非常令人难以承受 – 您和 iMedix 团队的其他成员如何平衡工作和生活?您对初创企业有什么建议吗?下次您会改变什么或者做哪些不同的事情?

滚动至顶部