注意:用户行为通常是添加更多标签,以确保其产品获得最大曝光度。约克镇号航空母舰, 约克镇号, cv, cvs-10, 好人理查德, 革命军舰, 军舰, 船舶, 军舰, 攻击舰, 爱国者点, 地标, 历史悠久的船只, 埃塞克斯级航空母舰, 水, 海洋船舶, 船舶, 约克城, 战舰, 爱国者点, 老战舰, 地标, 航空母舰, 军舰, 船舶, 海军舰艇, 视图, 海约克城舰艇、战列舰和航空母舰、历史军舰、约克城号航空母舰正如您所看到的,每个用户都为图像生成了有价值的信息,我们像创建可索引分类的基础。
然而无论规模如何
我们都面临着直接的风险: 精简内容:当用户创建更具体/定义的标签(例如“cvs-10”)时,用户生成的标签仅由少数产品共享。重复和类似内容:其中许多标签会重叠,例如。不准确的内容:由不正确的格式、拼写错误、冗长的标签、连字符以及用户犯的类似错误造成的。
现在您已经了解什
么是标签蔓延以及它如何对您的网站产生负面影响, 手机数据 规模解决这个问题?局限性:不幸的是,这种方法也不完美。如果具有足够高权限的产品(或一组产品)包含标签的不良变体,则不良变体将排名并接收流量。
我们必须使用其他策略来确认我们对这种方法的选择,并设计一种方法来鼓励索引中的标签更改以获得术语的正确版本。 标签计数 描述:某个标签在网站上的使用频率通常是一个强烈的信号,表明我们可以信任该标签,特别是与其他类似标签相比时。
通过计算每个标签在网
站上使用的次数,我们可以使最终的可信标签集偏向于那 聘请社交媒体虚拟助理 些更流行的术语。 优点:当我们有两个非常相似的标签但只需要选择一个时,这是一个很好的决胜指标。例如,有时一个句子的两个版本是完全可以接受的(例如带有和不带有连字符的版本)。
我们只能推迟超过一个标签计数
局限性:标签频率的一个明显限制是许多标签太 学生手机清单 常见而无用。 当标签“蓝色”只能帮助人们找到“蓝色 T 恤”时,它并不是特别有用。这个术语太笼统,竞争太激烈,不值得纳入。此外,添加太多标签只会造成巨大的抓取与潜在流量比率。
一个典型的标签将有数百个
(如果不是数千个)匹配产品,为单个标签创建多个产品页面。 如果一个标签生成 50 页的产品列表,但每年只能吸引 10 名访问者,那么这是不值得的。 波特蒸 方法:词干提取是一种从标签中识别词根的方法,方法是从右向左扫描单词并使用各种模式匹配规则删除字母(后缀),直到到达词干。
有一些流行的词干分析器可用
但我们发现 Porter Stemming 作为查看替代词形式的工具更准确。您可以在此处查看 Snowball 中的 Porter 词干算法,也可以在此处使用 JS 版本。 优点:复数和所有格术语可以按其词干进行分组,以便进一步分析。