多模态AI搜索引擎最强筹划，赶超贸易！GPT-4o、Qwen荣登榜首！

运营笑笑 · 发表于 2024-10-2 17:42:42

马上注册，结交更多淘宝商家，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？立即注册

x

编辑 | 言征

出品 | 51CTO技能栈（微信号：blog51cto）

有了多模态大模子（LMM）之后，之前那种OCR“以图搜图”的方式已经不再Fashion了。

然而，遗憾的是，固然本年AI搜索很火、多模态很火，但是多模态的AI搜索渴望却渴望迟钝。

香港中文大学、字节跳动、上海人工智能实验室、北京大学、斯坦福大学、商汤科技的一众研发职员开始动手研究多模态搜索引擎的可行性了。

他们经心筹划了一种零样本的方法，可以让LMM化身“多模态搜索引擎”。

重点来了，他们还进一步提出并解答了一个各人大概都难以复兴的命题：怎样评价一款多模态大模子作为搜索引擎的潜力？

图片

一、多模态AI搜索引擎

提到多模态AI搜索引擎，各人会不会想到之前的“以图搜图”？看图识花、淘宝中的看图搜商品等等，但这些还不是多模态AI搜索。

想象如许换一个场景，假设现在有多枚奖牌，想知道它们的详细名称。一个多模态AI搜索引擎可以大概将这些奖牌的照片与从互联网上检索到的图像和文本交错表举行匹配，从而辨认出每一枚奖牌。相比之下，纯文本搜索引擎既无法吸收照片举行搜索，也无法明确这种交错的表格。

而面临这种复杂的图、表、文交错出现的Web内容，即便是LLM也只能望洋兴叹：

固然语言大模子可以更好地把握用户意图、从原始Web信息中总结符合上下文语境的答案的本领，但这种仅限于文本查询息争释文本Web内容的情势，极大地限定了用户的查询场景和产物的想象空间。

这时间，就须要多模态大模子（LMM）上场办理了。

二、三个步调让LMM成为多模态搜索引擎

近一年以来，多模态成为了大模子发展的主旋律之一，GPT-4o、Sora、Qwen-VL等模子争相发布，基于大型多模态模子LMM的产物应用如可灵、Character.AI等产物也给业界带来了履历的视觉结果，但是，它们怎样才气用作多模态的 AI 搜索引擎呢？

香港中文大学团结一众着名大学、企业经心筹划了一套流水线，让市面上不管是闭源的GPT-4o、开源的Qwen，还是商用的Perplexity Pro，都齐备颠末三个步调，化身成为可以明确视觉Web内容的多模态AI搜索引擎。

MMSearch-Engine

AI搜索过程是一个复杂的过程，这期间涉及到LMMs与传统搜索引擎之间的多轮交互。

三、开辟团队毕竟是怎样筹划的呢？

起首，研究团队利用LMMs的图像明确本领，整合了两种范例的视觉数据——第一类，利用Google Lens（一种OCR工具）从图像中搜索信息；第二类视觉数据，则是检索到的网站截图，目的是生存网站内容的原始格式。

那么，LMM到底怎样与搜索引擎协同工作？该流程包罗三个一连阶段：

图片

1. 重新查询（Requery）。用户直接输入的查询大概包罗对图像中某些信息的引用，如图1所示的消息财经示例。由于传统搜索引擎仅继承文本输入，因此LMM须要将图像内容转换为文本，并将其与查询联合，以向搜索引擎提出有用的标题。

别的，原始用户查询偶然大概暗昧不清或服从低下，因此LMM还必须重新构造查询以使其更清楚。如果用户查询包罗图像，则将Google Lens的图像搜索结果截图纳入此中。

研究职员将用户查询、用户图像和图像搜索截图视为查询的根本信息。这些信息将在流程中的每一轮都输入给LMM。在重新查询阶段，研究职员须要提示LMM向传统搜索引擎输出一个重新构建的查询。

2.重新排序（Rerank）。将重新构建的查询发送给搜索引擎API（如DuckDuckGo），以检索前K个干系网站。根据重新构建查询的质量，并非全部检索到的网站都一定与查询复兴干系。因此，研究职员会提示LMM选择一个信息量最大的网站举行答案择要。

由于LMM的上下文长度限定和网站内容的广泛性，仅提供每个网站的须要信息（包罗标题、择要和网页顶部部分的截图），这里称之为扼要结果，这些将作为LMM重新排序的输入。

须要留意的实，这里包罗截图有两个目的。起首，截图提供了一个视觉线索来评估网页的可信度，由于构造良好的网站每每比充斥着广告的网站更值得信托。别的，截图大概包罗紧张的视觉信息。比方，它大概包罗与查询图像相似或雷同的图像。

3. 择要（Summarization）。起首抓取选定的网站以网络全部可用信息。分析HTML以获取原始文本内容，并捕获网站的整页截图。

然而，存在两个标题：原始内容每每冗长且紊乱无章，而整页截图中由于网站上的广告块，大量地区是空缺的。这两个标题导致输入令牌中添补了大量不干系信息。

为了进步数据服从，研究职员在将截图和内容输入给LMM之前，先对截图举行瘦身并检索干系内容。对于整页截图，则辨认空缺地区并迭代地将其移除。

对于文本内容，我们应用一个文本嵌入模子从原始内容中检索最多2K个与重新构建查询干系的令牌。以是，这里将瘦死后的截图和检索到的内容界说为完备的网站内容。

末了，研究职员将完备的网站内容、网站标题、网站择要以及查询信息输入给LMM，以总结答案。

图片

四、评估多模态搜索本领，靠这两招

这还没完，让LMM具备了多模态搜索的本领后，怎样评估这种本领的强弱呢？

这里涉及到两个紧张困难：评估数据集和怎样打分。

数据集方面，研究职员在此根本上引入了一个评测数据集 \dataset，这是一个全面的评估基准，用于评估 LMM 的多模态搜索性能。

该数据集包罗 300 个手动网络的实例，超过 14 个子字段，与当前 LMM 的训练数据不重叠，确保只能在搜索中得到精确答案。通过利用 MMSearch-Engine，通过实验三个单独的使命（requery、rerank 和 summarization）和一个具有挑衅性的端到端使命来评估 LMM，该使命具有完备的搜索过程。

图片

而在打分方面，研究团队没有简单粗暴地来举行一场端到端的黑盒打分计谋，而是采取了对三个核心搜索步调上举行多轮徐徐的计谋，由于仅对终极答案的端到端评估不敷以展现模子在每个核心搜索步调中的不敷。比方，模子所犯的错误大概发生在择要过程中，但也大概是由于在重新排名阶段选择了不精确的网站。

根据这四个打分，研究职员为终极结果筹划了一个团体的得分。

图片

研究职员对闭源和开源 LMM 举行了广泛全面的实验。在全部测试模子中，带有 MMSearch-Engine 的 GPT-4o 取得了最好的结果，在端到端使掷中高出了贸易产物 Perplexity Pro，证明确这种“三步调流水线”方法的有用性。

与此同时，为了彻底研究多模态搜索本领，通过上文提到的评估计谋在数据集 \dataset 上得到了了差别模子的评估结果。

图片

五、结论：闭源仍旧强大，开源Qwen居首

1.恣意分辨率的输入仅提供稍微的改进或没有改进

在测试的 LMM 中，有四种型号，即 InternLM-XC2.5、InternVL2、mPlug-Owl3 和 Idefic3，均支持低分辨率（LowRes）和恣意分辨率输入（AnyRes）。正如人们所料，AnyRes 输入可以更好地实现图像的 OCR 和感知。然而，与 LowRes 性能与 AnyRes 性能之间的差异相比，我们只观察到稍微乃至没有加强。

以 mPlug-Owl3 为例，AnyRes input 在总分上比 LowRes input 高出 1.8%，端到端高出 2.7%，rerank 高出 0.2%。固然它在重新查询和择要方面分别掉队于 LowRes 0.8% 和 1.7%。这表明 OCR 和感知质量不会成为搜索性能的瓶颈。相反，次优性能似乎源于 LMM 自己缺乏强大的搜索功能。

2.当前的 LMM 在 requery 和 rerank 方面仍旧存在庞大缺陷

将端到端使命的均匀分数与择要使命的均匀分数举行比力，就会发现，无论是在闭源模子还是开源模子中，择要分数都始终以很大的上风高出端到端使命。

论文以为，固然择要使命 input 始终包罗答案，但端到端使命的第三轮 input 质量取决于模子在前几轮中的 requery 和 rerank 质量。这种性能差距的巨细反映了模子的择要本领与其重新查询和重新排名使命的本领之间的差异。差异越大，本领差距越大。观察结果中发现：大多数开源模子的差距高出 14%，而闭源模子都在 10% 以下。

这表明全部当前的 LMM 都须要改进其 requery 和 rerank 本领，尤其是对于开源模子。

值得留意的是，Qwen2-VL-72B 的差距为 10.5%，也低于 14%，凸显了它在其他开源 LMM 中的良好性。

图片

3.闭源 LMM 在团体性能上优于开源 LMM

在终极得分方面，闭源 LMM 的性能始终优于开源 LMM。GPT-4o 得到了 62.3% 的最高总分，展示了杰出的零样本多模态搜索本领。固然 Qwen2-VL-72B 在开源模子中处于领先职位，但它仍旧掉队于 GPT-4o 9.6%。在最具挑衅性的端到端使掷中，性能差距扩大到 11.3%，对于 7B 开源 LMM 进一步扩大到 20.1%。这些显着的差异凸显了开源模子的巨大改进空间。

4.利用MMSearch-Engine，SoTA LMM 在端到端使掷中逾越了贸易 AI 搜索引擎

我们还评估了 Perplexity 的专业版，一个闻名的贸易 AI 搜索引擎，继承图像和文本查询。Perplexity pro 可以继承用户查询中的图像和文本。令人惊讶的是，只管 Perplexity 还利用了 GPT-4o 和 Claude 3.5 Sonnet 等 SoTA LMM，但它在端到端使掷中的性能在很大程度上低于配备雷同模子的 MMSearch-Engine。

更值得留意的是，MMSearch-Engine 乃至可以通过开源 LMM Qwen2-VL-72B 逾越 Perplexity。

这表明MMSearch-Engine 为多模态 AI 搜索引擎提供了更好的开源方案。性能差距验证了 MMSearch-Engine 的筹划有用性，并突出了在我们的管道中测试各种 LMM 的代价，由于在利用强大的 LMM 时，管道确实可以实现杰出的性能。

别的，论文还指出利用强大的图像搜索步调的紧张性。

图片

结果实例

六、多模态AI搜索引擎，何时才会到来

进入2024以来，“探求PMF”、“怎样利用大模子的本领打造产物”成为了业界的主流比赛点。而搜索作为与AI天生最容易联合的、最值得关注的赛道之一，我们欣喜地看到了香港中文大学、字节跳动、北京大学、商汤科技、斯坦福大学等浩繁国表里学术界、财产界的研究职员走到了一起，并为多模态搜索引擎的赛道提出了一种可行的筹划框架。

固然现在看，即便是GPT-4o，也难以到达人类实用的结果，但“三个步调”筹划流水线和评估LMM的多模态搜索潜力的方法，值得各位鉴戒。毕竟，我们可以看到利用MMSearch，SOTA模子的性能已经高出了贸易的Perplexity Pro，这是一个可喜的结果。

参考链接：

https://arxiv.org/pdf/2409.12959v1

https://mmsearch.github.io/

泉源： 51CTO技能栈

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

jeff963 · 发表于 2024-10-4 03:28:17

写的不错谢谢分享

ytjay · 发表于 2024-10-15 14:09:28

很好学习了

dfgdfgffffff · 发表于 2024-10-16 09:57:31

支持楼主来学习一下

duanzh · 发表于 2024-10-17 00:05:25

6666 不错好文章

lenny71 · 发表于 2024-11-7 06:11:23

谢谢楼主分享