Cointime

扫码下载App
iOS & Android

比 Google 更快更干净的搜索引擎为什么没人用 ?

个人专家

一对前Googlers开始创建未来的搜索引擎。他们创造了一个更快、更简单且无广告的搜索引擎。那么,为什么你从未听说过 Neeva 呢?

作者:David Pierce. 编译:Cointime.com QDD

《Vergecast》的责任编辑和联合主持人,拥有十多年的消费科技报道经验。曾供职于《协议》、《华尔街日报》和《连线》。

Sridhar Ramaswamy并不是为了建立另一个搜索引擎而离开谷歌的。至少起初不是这样。在他在谷歌担任15年期间,Ramaswamy领导了公司的整个广告事业部,监督了超过1万名员工,他比大多数人更清楚做好搜索所需要的工作量。

人人几乎无法过分强调谷歌在搜索领域的主导地位。大多数研究将谷歌在全球搜索市场的份额约定为90%左右,这个数字已经稳步增长了20年。谷歌几乎是几乎每个浏览器上,默认的搜索引擎,在几乎每个设备上都是如此,我们不会搜索互联网,我们会谷歌它。必应和雅虎是第二和第三大搜索引擎,你上次使用必应或者雅虎搜索是什么时候?谷歌已经花费了巨大的政治、工程和财务资本来保持这种地位。

但Ramaswamy比大多数人更清楚他们不可能也不敢对搜索引擎进行巨大改变,无论是对结果页面、新的商业模式还是可能减少用户搜索的任何产品。 (实际上,Ramaswamy曾经测试过一个名为谷歌 Contributor的功能,让人们在一些网站上付费享受无广告体验,但它并没有成功)。这里有一个机会,可以创建一些谷歌根本无法或不愿意开展的事情。因此,当他在2018年离开谷歌时,Ramaswamy和谷歌和YouTube的资深高管Vivek Raghunathan共同创办了一家名为Neeva的公司,以构建未来的搜索引擎。

之后的道路艰难曲折,但Neeva团队最终成功打造了一种令他们自豪的搜索引擎,这个搜索引擎在Neeva内部的指标和用户研究中接近于超过谷歌。试用过的人喜欢它,Neeva制定了一个充满着使搜索更好的创意的长远规划。多一点时间,他们很有可能就会构建出搜索的未来。但是,Neeva只经过了四年的运营就关闭了。

某种程度上,Neeva的短暂存在告诉了你关于过去20年搜索引擎统治的一切。构建一个搜索引擎很难,但要比谷歌做得更好就更难了。但如果你想超过谷歌,一个更好的搜索引擎只是起点。之后的路更加困难。

搜索引擎既是一个巨大而复杂的东西,又是一个相对简单的概念。

实际上,一个搜索引擎所做的只是编制一个网页数据库(称为“搜索索引”),然后每当你发出查询时,搜索引擎浏览该数据库并提供最好和最相关的网页集合。这就是整个工作。

在这个过程的每一小步中,都存在着需要进行重要和复杂权衡的巨大复杂性。其中大部分归结为两个因素:时间和金钱。

即使你可以假设构建一个不断更新的互联网上数十亿页面的数据库,仅存储和带宽成本就足以使任何一家公司破产。这还没有计算每天进行数百万或数十亿次搜索的成本。另外考虑到每毫秒都很重要,谷歌仍然在你的搜索结果的顶部广告中宣传查询所需的时间-因此你没有时间去检查整个数据库。

但首先,构建你自己的搜索引擎始于一个令人惊讶的哲学问题:什么才是一个好的网页?你必须确定什么是合理的争议,什么是错误的信息。你必须弄清楚有太多广告是多了。显然由AI撰写且充斥着SEO垃圾的网站:糟糕。由人撰写且充斥着SEO垃圾的食谱博客:大多可以。色情?有时可以,有时不可以。

一旦你进行了所有这些讨论并设定了自己的边界,你可能会确定一些你肯定想要包含在你的搜索引擎中的几千个域名。你将包括从CNN到Breitbart的新闻网站,像Reddit和Stack Overflow、Twitter那样的热门讨论板块,像维基百科和Craigslist这样的有用服务,像YouTube和Amazon这样的庞大平台,以及互联网上所有最好的食谱/体育/购物/其他相关站点。有时,你可以与这些站点合作,以结构化的方式获取数据,而无需逐个查看每个页面;许多大型平台都可以轻松实现这一点,有时甚至是免费的。

建设自己的搜索引擎始于一个令人惊讶的哲学问题:一个网页优秀的要素是什么?

然后是释放蜘蛛。这些机器人抓取给定网页上的内容,然后找到并跟踪页面上的每个链接,对所有这些页面进行索引,找到并跟踪每个链接、索引、查找、跟踪(它们被称为蜘蛛,因为它们爬行在网络上)。每次蜘蛛落在一个页面上时,它根据你设置的好页面标准来评估该页面。通过的内容会被下载到服务器的某个地方,你的搜索索引开始增长。

然而,并不是所有网站都欢迎蜘蛛。每次网络爬虫打开一个网页,提供者都会增加带宽成本;现在想象一下,一个搜索引擎试图每秒钟加载并保存你网站上的每个页面,只是为了确保它们处于最新状态。费用会不断增加。

因此,大多数网站都有一个称为robots.txt的文件,定义了哪些机器人可以访问它们的内容,哪些URL它们可以爬行。搜索引擎在技术上不必尊重robots.txt的要求,但这已成为网络的基础和文化的一部分。几乎所有的网站都允许谷歌和Bing,因为可发现性超过了带宽成本。许多网站会阻止特定的提供者,例如不希望亚马逊爬行和分析他们网站的购物网站。还有一些会设置全面的规则:不允许除了谷歌和Bing之外的任何搜索引擎。

不用等太久,你的网络爬虫就能给你提供互联网的一个相当广泛的快照。当Neeva团队从Bing过渡时,它的爬虫每天会爬行大约2亿个URL。

接下来的任务是为你的搜索引擎的每个查询按顺序对所有这些页面进行排名。你可以按主题对页面进行排序,将它们分成更小且更易搜索的索引,而不是一个巨大的庞然大物:将本地结果与本地结果,购物结果与购物结果,新闻结果与新闻结果一起使用。你将使用很多机器学习来分析给定页面的主题和内容,另外还需要很多人的帮助。你将组建评估员团队,向他们展示一个查询和一个结果,并要求他们评价从零到10这个结果有多好(有时很明显:如果有人搜索“Facebook”,而第一个结果不是facebook.com,显然有问题)。但大多数情况下,你正在合并来自许多输入的评级,将其反馈到你的索引和主题模型中,并重新开始这个过程。

这一切其实只是问题的一半而已。同时,你还必须改进所谓的“查询理解”,以便知道搜索“The Rock”和“Dwayne Johnson”的人是在寻找同一样东西,但搜索“the rock”和“rock”的人可能不是。你最终会拥有一个巨大的同义词和相似性的库,并找到重写查询以更易搜索的方式。但是谷歌喜欢说,每天有15%的搜索是全新的,所以你将永远在学习关于人们如何在线搜索的新知识。

过一段时间,你将向公众发布,并开始获取更多关于人们点击和关注什么内容的数据。(一次点击的链接,接着没有进一步的搜索和点击的链接,是该行业最好的信号。)他们点击得越多,你就越了解他们实际上在寻找什么。

运行搜索引擎意味着不断在速度、成本和质量之间进行三角定位。

运行搜索引擎意味着不断在速度、成本和质量之间进行三角定位。你可以每当有人输入“YouTube”并按下回车键时就搜索整个数据库,但这样的搜索会花费太长时间,使用太多带宽和存储空间。你可以拥有一个与互联网一样大的数据库,但存储成本会破产任何一个公司,并且存储和搜索速度过慢。你也可以限制自己只搜索网络上最流行的100个站点,但这对任何人都没有多大用处。网站也在不断变化,因此你的爬虫和排名系统必须不断适应变化。

从零开始构建一个搜索引擎是困难而昂贵的。这就是为什么许多公司不这样做——他们以10到25美元的价格向Bing授权数据,添加自己的功能和界面,之后就无需再费心了。这就是DuckDuckGo、雅虎和大多数其他较小的搜索引擎所做的,因为Bing非常好并且自己构建搜索系统是一项巨大的工程。这也是Neeva在开始时所做的。

但是Neeva对如何改进搜索有很多想法,所以它最终决定也需要控制基础数据。“更快的搜索、丰富的预览、首选供应商、个人搜索,这些都存在障碍,”Raghunathan说。来自Bing的API链接不能提供这些额外的功能,因此Neeva无法构建。如果Neeva想要成为一个更好的搜索引擎,就必须在某个时候构建自己的更好的搜索引擎。

经过两年的构建、训练、优化、重新训练和重新优化,Neeva的搜索引擎最终完全由自己的技术驱动。需要明确的是,Neeva并不认为自己已经构建了一个毫无争议地更好的搜索引擎:公司曾经对大约500个不同类型的查询进行比较,并要求人工评估员对结果进行评价,结果发现谷歌稍微领先一些。但是Neeva已经接近成功,并且有信心在用户体验方面取得了巨大的领先优势。

Neeva的计划始于一个简单的洞察:谷歌的商业模式是问题所在。Ramawamy认为,广告模式在长期内不会产生好的内容。

想一想:如果一个搜索引擎工作得非常好,你只需要搜索一次(并只展示广告一次)。而这些广告也会降低搜索的质量。当你在谷歌搜索东西时,你是在寻找某个东西。谷歌首要任务是向你展示其他人想让你看到的东西;其次是展示你想要的。

构建一个更好的搜索引擎意味着改变激励机制。

Ramawamy认为,如果不专注于尽可能展示更多的广告,可以将用户体验放在首位。你不需要让人们继续输入查询,也不需要收集用户数据给广告商。你只需清开道路,帮助人们达到目的。

Neeva团队建立了拥有更大图像和有用比较信息的购物页面。他们优先选择人类创作的来自Reddit和Quora等地方的结果。体育搜索变得美观,全屏显示比分板。他们使得如果你搜索“Brad Pitt IMDB”或“WhatsApp web”,Neeva的自动补全会直接将你带到网站,而无需着陆在结果页面上。Neeva简洁而简单,早期用户表示他们喜欢不被欺骗地看广告。

在Neeva建立自己的搜索索引的两年时间里,他们还继续开发移动设备上的浏览器,并大量投资于人工智能。建立自己的搜索索引的一个副作用是,你也同时收集了大量有用的训练数据,用于大型语言模型。Neeva是首批推出人工智能搜索伴侣的公司之一,被称为NeevaAI,它可以总结搜索结果,并有时尝试在页面顶部回答你的问题。

然而,建立一个好产品是一回事,让用户尝试使用它又是另一回事,尤其是如果他们必须放弃互联网上最简单、最根深蒂固的东西。

在科技行业,有一个长期并且经得起考验的陈词滥调,即人们不会改变默认设置。无论是隐私控制、系统功能还是应用程序,没有什么比已经存在的东西更强大。在许多情况下,控制这些默认位置的公司将几乎不惜一切代价保持这个地位。

我早期听到的,Ramaswamy告诉我:“解决默认使用情况是我们面临的最大障碍之一。人们忘记了谷歌的成功不仅仅是因为有了更好的产品。还有非常多明智的分布决策才能实现这一点。”

据报道,谷歌每年向苹果支付高达150亿美元,成为苹果Safari浏览器在各种设备上的默认搜索引擎。谷歌还向Mozilla支付费用,成为Firefox浏览器的主要搜索引擎,据报道每年高达4.5亿美元。它还与其他设备制造商和浏览器开发商以及无线运营商签署了类似的合作协议。《华尔街日报》报道,三星曾短暂考虑在2023年终止与谷歌的合作,但因“对其与谷歌广泛业务关系的影响”等各种原因而放弃了。

谷歌的真正优势在于其其他产品。安卓是全球最受欢迎的移动操作系统,占约78%的市场份额。Chrome是最受欢迎的浏览器,占到约62%。谷歌几乎无法动摇这两个平台上的默认搜索引擎地位。

“人们忘记了谷歌的成功不仅仅是因为有了更好的产品。还有非常多明智的分布决策才能实现这一点。”

多年来,任何希望推出可以运行谷歌应用程序(如地图和YouTube)的手机或平板电脑都必须签署称为移动应用程序分发协议的合同(实际上,这涵盖了几乎所有安卓手机)。该协议规定了谷歌的应用程序如何加载和显示在任何使用该协议覆盖的安卓设备上,而且搜索始终占据重要位置。

甲骨文公司2010年对谷歌的诉讼案件中提交的一份与HTC签订的协议中提到,“必须将谷歌手机顶部搜索设置为设备上所有Web搜索访问点的默认搜索提供商”,除非谷歌另外明确批准。HTC还必须将搜索小工具放在设备主屏幕上离搜索首页不超过一页的位置。

Brave公司负责搜索的负责人Josep Pujol表示:“【前谷歌CEO】Eric Schmidt说‘竞争只隔一个点击’,但事实并非如此。它需要点击和140亿美元。”

近年来,这种事态引起了严重的监管审查。2018年,欧洲委员会对谷歌处以43.4亿欧元的罚款,理由是谷歌违反了欧盟反垄断规则,以及其他违反欧盟条例的行为,其称之为“非法限制安卓设备制造商和移动网络运营商,以巩固其在通用互联网搜索中的主导地位。”

在做出这一裁决之后,当欧洲和英国的大多数用户第一次设置安卓手机或平板电脑时,会出现一个新屏幕。“选择你的搜索提供商”,它说,并提供可供选择的选项列表。

出现在该列表上的大多数搜索引擎(顺便说一句,这个列表由谷歌控制,最初向希望出现在该列表上的公司收费)没有看到用户数量的实质性增加。试图尽快完成设置的人们往往会选择最熟悉的选项,比如已经占有90%市场份额的选项。

即使没有额外的阻力,克服惯性也是困难的。而且周围还有很多这样的阻力。DuckDuckGo曾经发现,在安卓上切换默认搜索引擎需要点击15次

同样,在iOS上,搜索引擎提供商不能只是将其添加到Safari的搜索引擎选项列表中。除了内置的五个选项——谷歌、雅虎、必应、DuckDuckGo和Ecosia,其他任何人要想进入iPhone,唯一的方法是建立自己的应用程序。当然,当你是像Neeva这样的小型创业公司时,建立一个移动浏览器是需要大量资源的。而且一旦你拥有了浏览器,你又有了另一个问题。需要说服用户下载一个新的应用程序来替代他们已经拥有的应用程序。

DuckDuckGo曾经发现,在安卓上切换默认搜索引擎需要点击15次。

这个过程在桌面上应该更容易一些,因为平台限制较少。Neeva试图尽可能简化切换过程:在Mac或PC上,用户只需安装一个浏览器扩展程序,Neeva就会成为默认搜索引擎。(该扩展程序还提供了跟踪保护和其他功能。)其他搜索引擎提供商也尝试建立自己的扩展程序。但是在Chrome中安装这些扩展程序的用户会弹出一个弹窗询问是否要“改回谷歌搜索?”。按钮“改回去”的颜色是鲜蓝色的,而“保留”按钮是暗淡的白色。

早期,Neeva发现,如果能让新用户穿过可怕的弹出窗口,真正开始使用搜索引擎,那么他们在三个月后仍会继续使用。一些试用过Neeva的用户甚至愿意每月支付几块钱,以获得更理智的搜索体验。

如果用户费尽周折更换了Neeva,那么他们就会成为Neeva的忠实用户;但问题是,很少有人能成功通过默认设置和重定向的重重障碍。 Ramaswamy和他的团队尝试了很多次,终于找到了说服用户克服最初麻烦的方法。注重隐私的宣传对少数用户起了作用,但永远不会成为主流。人工智能功能引起了一些热议,但随着必应、谷歌和其他公司推出类似功能,这种热度也逐渐消退。

归根结底,Neeva是一款你必须试着去了解的产品。几年来,我一直把它作为我的主要搜索引擎,并非常欣赏它重新设计的体育比分页面以及Reddit和其他来源的优先级。不过,我很难向别人解释,从自动完成窗口直接进入一个网站,而不必再进行查询的感觉有多好,或者它的丰富食谱页面比谷歌页面上无限雷同的链接要好得多。眼见为实,搜索市场的现状成功地让Neeva蒙在鼓里。

如果有任何变化,它很可能会从监管机构开始。自欧洲委员会在2018年做出裁决以来,美国司法部也以反竞争的理由对谷歌提起诉讼,称谷歌与设备制造商和浏览器开发者的分发协议“限制了谷歌搜索竞争对手的分发,削弱了它们作为消费者和广告商的竞争选择,因为它们无法获得规模。”

谷歌回应称,用户和合作伙伴选择谷歌是因为它是最好的产品,并且默认选择并不具有排他性。“我们在一个快速变化和充满活力的领域中激烈竞争,每年投入数十亿美元进行研究和开发,并进行成千上万次的质量改进,以确保我们向每个人免费提供最有用的结果,”谷歌的政策沟通经理Ned Adriance表示。“就像无数其他企业一样,我们付费推广我们的服务,就像一家麦片品牌可能向超市支付费用,让自己的产品在一排最末或在眼睛水平的货架上展示。但在每种情况下,如果消费者愿意,他们可以轻松访问其他选择。”

如果谷歌的默认优势被打破,像DuckDuckGo和Brave这样的竞争对手认为它们将会迅速增长。许多竞争对手认为只能等待。Brave的Pujol说:“如果我们能够存活足够长的时间,就会出现一个转折点,谷歌的分发将会崩溃或被打破,”“无论何时出现这种情况,我们都必须做好准备。”

Neeva等待不起,在2023年4月,该公司宣布永久关闭其搜索引擎。随着经济恶化和投资资金的枯竭,Ramaswamy和他的团队决定“在消费者搜索领域创建可持续业务的道路已经不存在”。当然,这并不完全正确:谷歌去年在消费者搜索业务上创造了大约1600亿美元的收入。对于Neeva和其他潜在竞争对手来说,问题在于现在根本没有剩下的位置。(Neeva最终被业务软件巨头Snowflake收购,并完全转向人工智能。)

Neeva做了艰难的工作。它在初创企业的预算下运营着一个全套的搜索引擎和以隐私为先的浏览器,都是基于人工智能的产品。但这还不够。

因为即使你做出每个正确的决策,不走捷径,满足所有标准,完善索引,构建有史以来最好的搜索引擎,现在至少,你仍然无法打败谷歌。

评论

所有评论

推荐阅读

  • Robinhood首席法律官Dan Gallagher称不会担任美SEC主席

    据市场消息,Robinhood 首席法律官 Dan Gallagher 表示自己不会担任美国证券交易委员会主席。

  • 加密货币的政治倾向:特朗普的胜选引发了最新的牛市

    随着比特币瞄准10万美元和“花生松鼠”以3000%的涨幅成为头条新闻,加密货币在这个假期季节已经回归。家庭成员们将会就比特币、模因币和“埃隆推特的那个狗东西”展开辩论,你作为指定的“加密货币专家”,需要一些话题来赢得普通人的支持。加密货币是自由主义的疯狂行为。特朗普考虑“加密货币沙皇”,比特币创下新高,黑石IBIT期权推出,比特币的可编程性复苏,特朗普考虑加密货币律师担任SEC主席,选出霍华德·卢特尼克担任商务部长。特朗普的竞选和胜利引发了最新的加密货币牛市,许多人现在将其与MAGA和埃隆的D.O.G.E.恶作剧的最坏的过度联系起来。如果你的左倾亲戚看到新共和党政府如此强烈地支持加密货币,对你的情况没有帮助。如果你的表兄不会购买比特币,因为它与红色和橙色有关,那么就转而讲述事实。

  • 余弦:某用户用GPT给出带后门的代码写bot后,私钥被发送至钓鱼网站

    据慢雾余弦在 X 平台发文称,某用户用 GPT 给出代码写 bot 后将将私钥发给钓鱼网站,私钥被盗的原因是因为私钥在 HTTP 请求 body 里被直接发送给钓鱼网站了。余弦提醒,使用 GPT/Claude 等 LLM 时一定要注意这些 LLM 存在普遍性欺骗行为,之前提过 AI 投毒攻击,现在这起算是针对 Crypto 行业的真实攻击案例。

  • 美国区块链协会向特朗普政府提交加密监管建议

    美国区块链协会在 X 平台发文宣布,代表其近 100 名会员向美国当选总统特朗普和新一届国会提交了一封建议信函,概述了在前 100 天内需要考虑的影响加密货币行业的优先事项。主要内容包括:建立加密货币监管框架、结束加密货币和区块链技术公司的去银行化、任命新的 SEC 主席并撤销 SAB121、任命财政部和国税局的新领导层、建立一个加密货币咨询委员会,与国会和联邦监管机构合作。

  • 美国最高法院驳回Facebook试图避免股东证券欺诈诉讼的案件

    美国最高法院驳回了META旗下Facebook试图避免股东证券欺诈诉讼的案件。

  • 美国11月一年期通胀率预期终值2.6%,预期2.7%,前值2.60%

    美国11月一年期通胀率预期终值 2.6%,预期2.7%,前值2.60%。 美国11月五至十年期通胀率预期终值 3.2%,预期3.1%,前值3.10%。

  • 预测市场平台 Polymarket 因监管调查暂停法国用户访问

    去中心化预测市场平台 Polymarket 宣布暂停法国用户访问其平台。此举发生在法国国家博彩管理局(ANJ)对该平台展开博彩合规调查数周之后。 据悉,此次调查源于一名法国交易者在平台上对 2024 年美国总统大选特朗普胜选进行了大额押注。虽然 Polymarket 已实施 IP 封禁,但据法国加密货币新闻网站 The Big Whale 报道,用户仍可通过 VPN 访问该平台。截至发稿时,Polymarket 服务条款尚未更新相关限制内容。

  • 英国将于 2025 年初公布加密货币和稳定币监管规定

    英国工党政府将于 2025 年初公布全面的加密货币监管框架,旨在简化监管并解决稳定币和质押等关键领域。英国计划于明年发布其加密货币框架,这反映了全球对该行业的监管竞赛,欧盟等其他司法管辖区已在推进吸引创新和经济机会的战略。 英国政府在伦敦金融城全球代币化峰会上透露了在 2025 年初为加密货币行业引入统一监管框架的计划。作为新框架的一部分,稳定币将不再受英国现有支付服务规则的监管。政府认为这些法规不适合其当前的用例。这一转变旨在使英国的方法与稳定币不断发展的性质保持一致,稳定币通常与美元等资产挂钩,以保持稳定。

  • 亚马逊将向“OpenAI劲敌”Anthropic追加投资40亿美元

    亚马逊与Anthropic深化合作,将向对方追加40亿美元投资。今年9月份,人工智能初创公司Anthropic正在以高达400亿美元的估值寻求新一轮融资。Anthropic是一家由OpenAI前高管于2021年创立的公司,专注于创建可解释、安全且可操控的人工智能系统。该公司的旗舰人工智能大模型Claude基于“宪法式人工智能(Constitutional AI)”运行,这是一种使用预定义的原则来指导其输出的人工智能模型,避免一些错误地或有歧视性的输出反应。

  • Sui宣布与富兰克林邓普顿数字资产建立战略合作伙伴关系

    Sui 基金会宣布与富兰克林邓普顿数字资产(Franklin Templeton Digital Assets)建立战略合作伙伴关系,专注于支持 Sui 生态系统建设者并利用 Sui 区块链协议部署新技术。