过去,亚马逊卖家在编写Listing时,主要关注的是文本中的关键词:标题、五行卖点、ST、A+内容等。随着COSMO图片识别算法和Rufus场景识别系统的逐步升级,图片开始成为“关键词信号的来源”。
这意味着,不仅文字可以埋词,图片也能够“埋词”。但今天我们要讨论的,不是带有文本的图片埋词,而是纯图片的“视觉埋词”。即使没有文字,也能向亚马逊算法传达产品的适用人群、场景和用途。
一、COSMO是如何进行图片识别的?
在COSMO算法推出来时,亚马逊曾分享过一部分其背后的“电商知识图谱”挖掘逻辑。简单来说,COSMO通过大量商品、用户的搜索与购买行为,自动识别并构建了一套“电商常识关系网”。这套关系网不仅仅是简单的关键词匹配,而是理解用户意图的语义关系。
COSMO的识别不仅限于文本,商品图片的识别也是理解意图的重要环节。COSMO在图像识别上采用了图像-文本联合语义模型,其工作方式可以概括为三步:识别图片内容、理解图片场景和推断使用意图。
换言之,COSMO不仅考虑“买家搜了什么”,还尝试理解:这个产品适合什么人、在什么场景下使用、能够解决什么问题和带来什么情感体验。
例如,当买家搜索“保温杯”时,COSMO不会直接显示所有保温杯,而是会深入理解并分析。
二、图片视觉埋词,如何让系统看懂你想表达的场景和用途
您可以做一个简单的操作:将商品图片上传给AI,请其识别出哪些信号。如果识别出的结果符合您想传达的目标人群、场景和情感,说明您的图片“视觉埋词”成功。如果结果不符,说明您传达的意图不够清晰,您可以考虑:
增加人群角色(如加入妈妈/婴儿等用户人群),调整环境背景(如家庭/户外),或添加行为动作为例。
例如,若我上传了一张草地上的图像,并询问“What key words can you identify from this picture”,系统会自动识别出场景和人物的相关信号。
进一步询问“我想要什么产品”,AI能够准确说出我的需求,这表明通过图片的一些元素,系统能够正确推断出适合的产品。
三、如何为你的图片进行“视觉埋词”?
1、定位您的核心实体关系:参考COSMO的知识图谱,问自己:我的产品最核心的用途、场景和受众是什么?是用于特定活动吗?是面向特定人群吗?
2、将“实体关系”转化为“视觉元素”:通过具体的场景和行为表现抽象的关系。举例来说,展示一个刚健身的人在健身房用吸水毛巾擦汗的场景,视觉关键词包括运动、健身房等。
通过AI识别出关键词后,验证是否包含您想传递的场景、人物与情绪、动作与细节等。如果AI能够“解读”出您预设的场景和意图,COSMO算法对您的产品理解的准确性也会显著提高。
同时,卖家需注意文本与图片信号保持一致,确保Listing文案的内容与图片传递的信息一致,以便算法能够准确判断用户需求并给予推荐,从而实现精准流量转化。
声明:文章素材来源于网络并由AI编辑加工,若有侵权问题,请联系平台客服。