明星八卦
爬虫论坛(数据爬虫的是与非:技术中立但恶意爬取频发,侵权边界在哪?)

10月23日,长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会在上海举行。围绕爬虫技术对数字产业影响、爬取他人数据的法律边界及规制等话题,多位法律专家、司法工作者和企业代表展开了研讨。

“凶猛”的网络爬虫,增加网站运营负担

欧莱雅中国数字化负责人刘煜晨在研讨会上表示,大多数网站拒绝爬虫访问,既有商业利益考量,也出于自身网站运营安全考虑。爬虫自动持续且高频地访问,会导致网站服务器负载飙升,使得一些中小平台面临网站打不开、网页加载缓慢,甚至直接瘫痪的风险。因此,“网站经营者面对‘凶猛’的网络爬虫时往往苦不堪言。”

小红书法务负责人曾翔观察发现,恶意爬虫案例经常发生在内容平台和电商平台。在内容上更多被爬取视频、图片、文字、用户行为数据等,在电商领域更多被爬取商家信息和商品信息。

提及网络爬虫,Robots协议是绕不开的话题——它的全称是“网络爬虫排除标准”,网站通过Robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。

梳理相关判例,徐弘韬指出,Robots协议是互联网行业普遍遵循的规则,如果搜索引擎违反Robots协议抓取网站内容,可能会被认定为违背商业道德,构成不正当竞争。但Robots协议解决前置性问题,即抓取行为是否得当,而不解决抓取之后数据使用是否得当的问题。

值得一提的是,网络爬虫者对爬取行为进行抗辩时,经常将Robots协议限制爬取与数据流转联系起来。

判别爬虫行为正当性,需考虑多重因素

研讨会上,华东政法大学教授张勇对数据爬虫的危害行为进行了分类。

当数据成为一种生产要素,数据抓取技术应用场景日益广泛,随着而来的争议纠纷也不断增多。如何判别爬虫行为的正当性,从已有的判例中或能找到一些答案。

据南都记者了解,被告是一家提供用户无须登录、订阅即可搜索公众号文章、查看阅读数、点赞数等服务的新媒体公司。原告称,该公司突破微信公众平台的数据防护措施抓取数据,并进行商业化利用,妨碍平台正常运行,构成不正当竞争。

在本案中,法院还从“三元目标叠加”的角度分析了爬取行为是否具有正当性。

徐弘韬以此为例提到,对于非搜索引擎爬虫的正当性判别,主要看被告是否尊重被抓取网站预设的Robots协议、是否破坏被抓取网站的技术措施、是否足以保障用户数据的安全性,以及衡量创造性与公共利益。

采写:南都记者李玲


顶一下()     踩一下()

热门推荐

发表评论
0评