Grass 创始人访谈:为什么你应该参与去中心化的 AI 数据供应?
撰文:AYLO
编译:深潮TechFlow
Grass是一个非常激动人心的项目,预计将在第一或第二季度上线主网。Grass已经拥有超过50万用户。当Grass网络上线时,仅就用户数量而言,它将成为市场上最大的加密协议之一,它正在为每个拥有互联网连接的人创造新的收入来源。
Grass结合了多个不同的看涨叙事:DePin+AI+ Solana。在这篇文章中,你将有机会听到Grass创始人0xdrej的分享,他透露了很多重要信息。这是一篇篇幅较长但非常值得阅读的文章,我们在这篇文章中将讨论Grass是什么,它如何工作,它为什么选择Solana等等。
是什么吸引您进入加密领域的?
是的,我猜我早期进入加密货币的时候错过了许多机会。我想对许多人来说都是如此。我第一次听说加密货币是在高中时,因为我的一个同学在他的笔记本电脑上挖比特币。自那以后我就再也没有听说过他,但我敢肯定他现在过得很好。而且我实际上在2014年参与了一个Doge水龙头的活动,当时Doge刚刚启动,但我失去了那个账户的访问权限。所以我想这是我早期与加密货币的两次重要经历,但直到几年前我开始接触DeFi,我才真正深入到研发工作中。
我在金融领域工作了一段时间,对传统金融行业的运作机制非常熟悉。看到一群普通人在区块链上重建整个基础设施是非常令人兴奋的。你知道,从传统金融到链上发生的任何事情都有很多相似之处,这很疯狂,主要是因为它是一个巨大的不可变账本。所以是的,几年前我开始参与一些DeFi协议。
Grass 的 elevator pitch是什么?您如何从高层次上解释它?
我们喜欢将其称为去中心化人工智能的数据提供层。这实际上意味着我们拥有一个由超过50万个网络扩展组成的网络,这些网络扩展正在爬取公共互联网,捕捉网站快照并将它们上传到数据库。
这里的想法是,因为我们可以并行处理和分发所有这些计算能力,以及互联网的这些住宅视图(这一点很重要,因为网站通常会向消费者展示他们想向公众展示的东西,而不是数据中心或传统产品),所以我们实际上可以创建数据集,而这些数据集在其他资源库中是不可能创建的。
于是就有了一些比较。其中之一就像是人工智能的去中心化预言机,而其他则是普通爬行的去中心化版本。但是,是的,归根结底,它是一个专注于公共网络数据的海量数据协议。
因此,通过允许任何人参与这个网络并集成区块链,您发现您可以与现有的解决方案进行竞争,对吗?
我们尝试了几种不同的商业模式。很明显,当你在构建这样一个协议时,你可以只向人们支付一点未使用带宽的费用。例如,你可以给他们每千兆字节固定的费率,然后使用这些带宽来抓取大型数据集,从中提取洞察,并将这些洞察变现。从抓取层到数据集层再到洞察层,你在每个步骤中都能捕捉到一点点利润。
通常,这是由不同的实体完成的,而提供带宽的用户(为所有这一切提供动力)只能看到每千兆字节那微小的固定费率,或者通常一点都看不到,因为他们安装了一个SDK在一个免费的应用上,它只是循环使用带宽。我们认为这不公平。
我们想到,好吧,我们要如何创建一个价值池机制来补偿整个垂直领域的用户?因此,如果有人用你的Grass节点爬取的数据来推断一个AI模型,你的Grass节点应该得到补偿,而不仅仅是原始数据。希望这有意义。这是我们想要在链上解决的重大问题之一。
另一个变得越来越突出的问题就是被污染数据集的问题。这是一个新出现的问题,但在电子商务领域存在了多年。
例如,如果你在抓取像eBay这样的电子商务网站,并且你想要每天抓取他们所有库存的价格,你需要每天抓取大约3000万个SKU。eBay 了解到,如果他们屏蔽您的 IP 地址,你会更换IP。所以,他们所做的是他们设置了价格陷阱。如果他们检测到你试图抓取他们并在定价上压低他们,他们就会给你假的价格。我们在早期使用Grass时就经历过这一点,并将其与使用数据中心进行比较。
这些电子商务策略已经慢慢渗透到广告技术中。自从HoloLens在过去一年半爆炸性增长以来,它实际上也流入了NLP(自然语言处理)数据集领域。
所以,如果你是一个政治家,而且你知道某个特定的数据集将被用来训练一个模型,您可能会联系管理该数据集的人,要求他们插入比如说一千个有利于某个特定候选人的句子。类似地,公司提供资金将虚假评论插入到已经从互联网上抓取的数据集中
现在,解决这个问题非常困难,对吧?因为,正如你可能知道的,LLM 训练数据集不仅仅是 GB 或 TB,而是 PB 数据,实际上是数百万 GB。
所以,期望任何人训练LLM去验证数据集是否真的来自所声称的网站是非常不现实的。例如,如果我声称我抓取了Medium的全部内容,那可能是大约5000万篇文章,但没有保证这些内容实际上就是那些Medium文章中的内容。
为了解决这个问题,zk-TLS(零知识传输层安全)提供了一个很好的解决方案。老实说,这只有在高吞吐量的区块链上才可能实现。
这个想法是,一旦我们去中心化,这些节点在抓取互联网时就会提交请求证明。他们提交请求证明,然后我们的排序器(目前是中心化的,但我们计划去中心化)将把一定数量的代币委托给智能合约。
这个合约在收到批准请求时就解锁了。现在,你实际上可以将那个请求证明与来自那次抓取工作的网络响应联系起来,然后直接与数据集联系起来。突然之间,你有了加密证明,显示这个数据集中的这些行实际上来自那些网站,并且是在特定日期和时间抓取的。
这很强大,因为这样的机制甚至在Web 2.0中都不存在,而且只有使用区块链才可能。
您能否谈谈什么是“数据战”以及 Grass 如何参与其中?
正如我之前所暗示的,最早开始封锁数据的行业实际上是电子商务,因为那些是当时最直接可变现的数据集。随着技术的发展,随着我们对语言数据的理解变得更加先进,这种类型的数据也变得极其宝贵。然而,直到现在,语言数据还没有提供像现在这样多的价值。所以,很多网站直到最近才真正找到了变现这些语言数据的方法。然后,他们开始意识到这些数据有多么强大,并开始封锁互联网。
例如,大约半年前,埃隆-马斯克(Elon Musk)开始对每个人的 Twitter 进行费率限制,因为它被抓取了。以前,Twitter并没有真正阻止网络抓取器,但埃隆·马斯克了解到了Twitter数据的价值,并希望用它来训练他自己的AI。这正是我们预测的,而且确实如此发展。
另一个例子是 Reddit,他们对自己的 API 施加了各种限制。你可能不知道,GPT 所训练的通用抓取库中有三分之二实际上是从 Reddit 抓取的。
Reddit并不真正了解他们的数据有多么宝贵。它特别宝贵,因为Reddit系统的运作方式:有人提出问题,人们回答,最好的答案被顶上去,而糟糕的答案被顶下去。Reddit有一群人在手动训练可以进入模型的数据。
我们预测目前正在展开一场数据战争,所有这些网站都试图封锁他们的数据。他们甚至为少数几家大型科技公司开后门,使AI对普通开源开发者不可及,这有点可怕,也带来了很多中心化的风险。
另一个很好的例子是Medium。几个月前,Medium的CEO写了一篇关于网络抓取器如何将Medium文章输入AI模型的博客文章。他谈到了如何污染这些数据集,阻止抓取器,并使其尽可能不可访问。这就是为什么不注册帐户就很难浏览 Medium 的原因。
这使得普通人无法使用互联网,因为公司试图隔离他们的数据。
Medium的CEO还提到他们允许谷歌访问他们的数据。普通人无法正确浏览他们的网站,但谷歌可以抓取它来免费训练他们的人工智能模型。他解释了原因:谷歌将在谷歌搜索中优先考虑Medium,以换取访问权。这表明拥有一个搜索引擎是多么有价值,您可以通过优先考虑 SEO 来支付语言数据费用。这是数据战的下一波大浪潮。
所有这些公司都在为数据而战,试图封锁数据,试图为人类历史上从未定价的东西获得合适的价格。普通人成为了附属品,这些数据只有少数机构才能获取,这是不公平的。
疯狂的是,现在有一些老牌企业通过在数百万人免费下载的应用程序中安装 SDK 来抓取 Reddit 等网站。假设您下载了 Roku TV 屏保或一些免费手机游戏。开发人员通过在其中放置 SDK 来获得报酬,该 SDK 允许这些大公司使用您的带宽从您的住宅 IP 地址中抓取网站,因为他们的 IP 地址已被屏蔽。讽刺的是我们总是同意这些条款和条件,他们的理由是:“嘿,你得到了一个无广告的产品体验。”他们声称这就是你得到补偿的方式。但我们非常清楚,广告的价值远远低于所使用的数据的价值。
我们对 Grass 的理念是,如果发生数据战,我们可能无法阻止它,但我们至少应该有机会参与。我们应该有选择权,要么在数据战争中出售武器,要么为互联网创造一个巨大的开放数据集,任何人都可以用它来训练他们自己的AI模型。
人们是否容易参与 Grass 并得到一些好处?
目前网络正在进行beta测试,非常简单。因为你所需要的硬件已经在你的设备上存在了。你所需要做的就是获得一个推荐码。然后你只需创建一个账户,或者Saga手机应用,你就可以开始了,上手过程非常流畅。
我们最近面临的一个问题是,用户数量的增长比我们预期的要快得多。因此,当我们扩展基础设施时,人们可能会面临一些小问题。
您认为这个市场的规模有多大?
我们目前实际上瞄准了两个垂直领域,或者是三个,每个垂直领域都有不同的市场规模。
第一个是替代数据产业,我相信这是一个 200 亿美元的市场。我所说的替代数据,主要是指对冲基金使用的数据。例如,如果你搜索某些商店的价格和库存,你就可以估算出一家公司的季度收益。对冲基金会花钱购买这类信息。
网络抓取市场本身虽然仍处于新兴阶段,目前价值数十亿美元,但正在大幅增长。如此大规模增长的原因在于第三个市场,即人工智能。
AI数据市场的规模现在非常难以量化。其市场规模可能每天都在呈指数级增长,对我们来说很难估价。但当你看到一些人在讨论出售数据给AI数据集时,你会明白这是一个巨大的机会。
那么,随着用户数量的增加,Grass是否会变得更有价值和竞争力?
是的,这是一个很好的问题。网络规模越大,它的可行性就越强。
我可以举一个例子,就是hivemapper,我认为这是一个非常酷的产品和想法。如果您想绘制整个世界的地图,但只有 10 辆汽车在行驶,那么您只能得到地图的一小部分。它可能对一些非常具体的小规模应用程序有用,但用途不是很广泛。
然而,如果您有数百万驾驶员绘制世界上每条道路的地图,您就可以绘制出更全面的图景。然后,您可以以更高的溢价出售更好的产品,并且对于每个参与者来说,单位经济效益都会大大提高。
仔细想想,Grass 本质上是在绘制整个互联网的地图。
所以,让我再给你举一个例子,这个应用与AI无关,但它属于一个庞大的行业——机票、旅行和酒店。如果你是一个旅行聚合网站,你希望从每个地点的每个提供商处获取最优惠的价格。例如,从柏林到新加坡的航班价格,从纽约看可能与从柏林看不同。旅行聚合网站需要知道尽可能多的IP地址的每个航班的价格,以便拥有最佳产品。现在,如果他们只有新加坡、中国和美国的一些地方的IP地址,而有人试图在欧洲两地之间飞行,那么对他们来说抓取正确的价格将非常困难。网络随着规模的扩大解锁了更多用例,这很令人兴奋。
随着网络的发展,您认为用户的奖励会被稀释吗?还是说由于网络变得更有利可图而找到一个平衡?
我会尽量不做任何前瞻性声明来回答这个问题。第一个变量是,网络现在非常接近可用,这就是为什么在这个beta测试期间,我们选择补偿正常运行时间。我们不打算无限期地奖励用户的上线时间。
所以,现在是你唯一可以仅仅为了保持设备在线而赚取积分的时候。在未来,节点只会因实际带宽使用而得到补偿。关于平衡,我之前提到的旅行就是一个很好的例子。
在那个领域,你永远不可能拥有足够的节点。对于旅行聚合网站来说,要保持竞争力,最有竞争力的聚合网站实际上是那个拥有最多节点的聚合者。因此,如果你能解锁这个,他们只会通过网络投放更多的内容和更多的吞吐量。
是什么促使您决定在 Solana 上进行开发?
对于我们正在尝试做的事情,拥有高吞吐量的链显然非常重要。当Grass网络上线时,它将成为用户数量最多的加密协议之一。这就需要有非常低的Gas费来激励用户。Solana是目前最节省Gas费的,可能也是最快的链。即将推出的一些更新(例如 FireDancer)非常令人兴奋,因为并行事务正是我们所需要的。
Solana上有许多Depin协议,从商业发展的角度来看,我们很乐意与其他一些DePin协议合作。我们发现非常酷的一件事是 Solana 拥有自己的手机,我们相信Solana手机的采用率只会增加。这是其他任何链都无法提供的。对于我们来说,在 Solana 手机上安装一个应用程序是显而易见的选择。
您有没有从DePin领域的其他项目那里寻找灵感,比如Helium?
当然有,DePin背后的整个理念其实是关于你自身的。你不仅为生活中的很多事情支付了过多的费用,而且还被剥夺了本可以赚钱的东西。
最近Depin对去中心化的推动,以及例如Helium Mobile和Saga手机所做的一些事情,让每个人都大开眼界。这就好比,我掌握着如此多的资源,但在很多情况下,这些资源却被人从我身边偷走了。但现在,人们看到了另一条道路,在这条路径上你有选择不接受这种情况发生的权利。这是非常强大的,我不想错过。因此,我们从中得到了很多启发。
展望未来,2024 年 Grass 会是什么样子?您能给我们一些关于您的路线图的见解吗?
我们计划在 2024 年的某个时间点全面启动网络,我想大家都不会感到意外。
除此之外,在路线图中,我们想实现使用zk-TLS的请求证明,将网络请求与数据集绑定,这可能在下半年发生。我们还计划去中心化我们的许多排序器。这将如何实施还有待确定,但我们有许多激动人心的想法,这将允许人们更加容易地运行Grass的基础设施。
我们还在考虑硬件的问题。现在,使用Grass的成本为零,我们喜欢这样,并打算永远保持这种方式。但假设你不想让你的设备全天候在线,或者由于某种原因你不想在你的设备上运行这个节点。我们想给人们一个选择,只需购买一个盒子,将其连接到他们的互联网,并让它在后台运行。除了个人偏好之外,拥有硬件的一个令人兴奋的方面是,我们实际上可以在硬件中放入AI代理,并允许它们在其中运行。它们可以为你完成大量的网络抓取和爬行工作。你所要做的就是坐下来让那些人工智能代理来运行这些工作,就像拥有一辆可以绘制地图的自动驾驶汽车一样。
如果你想为网络做出更多贡献,那么我们希望有一种能够做到这一点的设备可用。
我们正在开发一些小功能,比如仪表盘的新游戏化功能。我们还想专门为 Saga 用户添加一些复活节彩蛋功能,目前正在探索这方面的想法。除此之外,我们还在研究其他设备的发行版。现在,我们不仅在考虑网络扩展,还在考虑让那些需要的人可以下载。比如,有很多人不喜欢安装扩展程序,这完全没有问题。因此,我们计划将其扩展到其他平台,如 Android、iOS、Raspberry Pi、Linux 等。
总的来说,我们想给人们更多的选择,以便能够轻松地加入Grass网络。
您如何看待Grass的治理结构?它会是一个完全由社区拥有的去中心化网络吗?
我们朝向去中心化有几个不同的阶段。第一个是认证机制,在这里我们能够在链上奖励用户的贡献。
第二阶段涉及到我们排序器的去中心化,以及一些抓取审批请求的内容。治理在这里发挥关键作用。我们本质上希望成为一个庞大的数据供应网络,社区成员可以说,“嘿,我正在训练这个人工智能模型,我需要这些类型的数据集,我想建议我们将抓取工作转向抓取这些数据。”然后,排序器可以兼作验证器,以确保抓取正确的数据。
我们想要包括的少数治理功能之一是保护网络。在一个去中心化的网络中,如果执行得当,通常会随着时间的推移实现市场效率。有许多应用程序可以通过未使用的 CPU、GPU 等货币化,通常以法定货币进行交易。它们一开始可能会支付一定的费率给入驻会员,然后随着时间的推移降低费率,最后收益变得微乎其微。
通过治理结构,您可以保护社区,因为那些为网络做出贡献的人实际上拥有网络的一部分。这是我们想要达到的状态,即Grass网络中运行节点的每个人都拥有网络本身的一部分。
您认为您现在理论上有足够的规模来启动网络吗?或者您仍然想在启动前增加节点数量?
就节点的总体数量而言,我们非常接近我们的目标。然而,在特定的地理位置,我们实际上并不那么接近。有些地理位置的人们想要抓取特定类型的内容,而那里的需求实际上高于供应。我们希望确保我们有能力满足所有需求,这是我们启动网络的目标。
如你所知,我们处于测试阶段,所以我们正在尽力确保网络是可扩展的。由于我们的增长速度比预期的要快,人们在接入网络和仪表板显示方面遇到了一些问题。这些都是我们计划在完全网络启动之前解决的问题。这就是为什么我们还在测试阶段。因此,在节点数量方面,我们正在考虑许多因素。总的来说,我们对目前的情况还是相当满意的。
免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。
你也可能喜欢
故技重施?特朗普顾问据称建议他提前宣布胜选
报道称,特朗普的顾问告诉他,如果他在宾夕法尼亚州等关键战场州领先哈里斯足够票数,那么他应该在选举之夜提前宣布胜利,但尚不清楚特朗普是否会听从这一建议; 特朗普的助手们承认,如果特朗普决定要这么做,他的团队中可能无人能劝阻他。
一文盘点美国大选接下来的时间节奏与核心看点并展望后续影响
总的来说,从11月5日周二开始接下来的一周内,选举结果会陆续公布,这段时间,结果公布的进展将持续影响资产价格。
以太坊基金会研究人员辞任 EigenLayer 顾问,向社区致歉重申中立承诺
研究人员 Justin Drake 和 Drankrad Feist 在 5 月份因透露他们接受了 EigenLayer 的巨额代币而引发争议,引发了利益冲突担忧。