OpenAI的网页抓取GPTBot受到攻击

2023-08-10 16:02:32 来源：互联网

(资料图)

OpenAI也可能知道这会引起什么样的争议，因为它发布了GPTBot，但没有大张旗鼓，甚至没有正式宣布，尽管该机器人有一个支持页面，可以引导您了解许多细节。根据其分享的内容，该机器人似乎被设计为网络爬虫，抓取内容以了解有关该公司语言模型的更多信息。

那么有什么大不了的呢?为什么这么多人对此感到不安，为什么像TheVerge这样的网站会争先恐后地阻止机器人抓取他们的内容?嗯，这很大程度上取决于古老的同意变量。网站上共享的许多内容，尤其是博客和类似性质的内容，在某种程度上都是原创内容。

有人投入了时间和精力来编写或创建这些内容，对于许多人来说，机器人可以在没有任何同意的情况下过来抓取这些信息和知识并从中学习，这是一个巨大的问题。此外，人工智能还很年轻，倾向于粘贴它在网络上找到的信息，声称它是自己的，这就是抄袭，这种行为在没有人工智能参与的情况下已经在网络上猖獗。

另一个大问题是隐私。由于该机器人正在抓取互联网，因此它还会抓取用户名、电子邮件等信息以及可能在公共场所共享的其他信息。这意味着信息可能会无意中包含在不应该包含的地方，尤其是在支持ChatGPT的人工智能模型中当前存在复制/粘贴问题的情况下。我们已经看到一些针对ChatGPT的隐私调查出现。

幸运的是，OpenAI使网站能够非常轻松地阻止GPTBot，而且许多网站都已经这样做了。但其他机器人也会做类似的事情，并且没有简单的方法来阻止它们。封锁也没有考虑到每天盗取内容的数千个(可能是数百万个)聚合网站。因此，这只是加入了一场内容创作者和网站所有者正在进行的一场本来就不可能的战斗。

我们可能会看到与此相关的诉讼，特别是如果OpenAI继续开发GPTBot并更努力地将其作为该语言的学习工具。对人工智能的过多担忧也更加凸显了这些担忧，因为围绕人工智能系统的进步以及它们如何使用数据进行学习和进化的法律很少。

标签：

精选文章