如何通过“视觉埋词”提高亚马逊COSMO算法的推荐效果

过去，亚马逊卖家在编写Listing时，主要关注的是文本中的关键词：标题、五行卖点、ST、A+内容等。随着COSMO图片识别算法和Rufus场景识别系统的逐步升级，图片开始成为“关键词信号的来源”。

这意味着，不仅文字可以埋词，图片也能够“埋词”。但今天我们要讨论的，不是带有文本的图片埋词，而是纯图片的“视觉埋词”。即使没有文字，也能向亚马逊算法传达产品的适用人群、场景和用途。

一、COSMO是如何进行图片识别的？

在COSMO算法推出来时，亚马逊曾分享过一部分其背后的“电商知识图谱”挖掘逻辑。简单来说，COSMO通过大量商品、用户的搜索与购买行为，自动识别并构建了一套“电商常识关系网”。这套关系网不仅仅是简单的关键词匹配，而是理解用户意图的语义关系。

COSMO的识别不仅限于文本，商品图片的识别也是理解意图的重要环节。COSMO在图像识别上采用了图像-文本联合语义模型，其工作方式可以概括为三步：识别图片内容、理解图片场景和推断使用意图。

换言之，COSMO不仅考虑“买家搜了什么”，还尝试理解：这个产品适合什么人、在什么场景下使用、能够解决什么问题和带来什么情感体验。

例如，当买家搜索“保温杯”时，COSMO不会直接显示所有保温杯，而是会深入理解并分析。

二、图片视觉埋词，如何让系统看懂你想表达的场景和用途

您可以做一个简单的操作：将商品图片上传给AI，请其识别出哪些信号。如果识别出的结果符合您想传达的目标人群、场景和情感，说明您的图片“视觉埋词”成功。如果结果不符，说明您传达的意图不够清晰，您可以考虑：

增加人群角色（如加入妈妈/婴儿等用户人群），调整环境背景（如家庭/户外），或添加行为动作为例。

例如，若我上传了一张草地上的图像，并询问“What key words can you identify from this picture”，系统会自动识别出场景和人物的相关信号。

进一步询问“我想要什么产品”，AI能够准确说出我的需求，这表明通过图片的一些元素，系统能够正确推断出适合的产品。

三、如何为你的图片进行“视觉埋词”？

1、定位您的核心实体关系：参考COSMO的知识图谱，问自己：我的产品最核心的用途、场景和受众是什么？是用于特定活动吗？是面向特定人群吗？

2、将“实体关系”转化为“视觉元素”：通过具体的场景和行为表现抽象的关系。举例来说，展示一个刚健身的人在健身房用吸水毛巾擦汗的场景，视觉关键词包括运动、健身房等。

通过AI识别出关键词后，验证是否包含您想传递的场景、人物与情绪、动作与细节等。如果AI能够“解读”出您预设的场景和意图，COSMO算法对您的产品理解的准确性也会显著提高。

同时，卖家需注意文本与图片信号保持一致，确保Listing文案的内容与图片传递的信息一致，以便算法能够准确判断用户需求并给予推荐，从而实现精准流量转化。