【网站分析】如何识别访客性别?
袁怀宾 发表于 2009-09-18 16:34 | 来源: | 阅读 747 views
维度统计中推出了访客性别识别的功能,这个功能表面来看看似不可能,那他们又是怎么实现的呢?猜!反正都有50%的正确率。还是让我们“猜猜”维度如何处理的吧:
第一步:词库的建立和喂养:
首先要建立了一个庞大的词库,而且这个词库必须不断更新,词库中的每个词入库后必做的事情是词性别关联分析,说白了就是这个词男性敏感的概率多少,女性敏感的概率多少,这个就建立了识别的基础。
第二步:语句的拆分与性别关联分析
链接的描述、搜索的关键词等等我们在获得访客属性或行为相关的这些语句之后进行分词拆分,然后分别分析性别概率。
比如:最新软件下载
会是这样: 最新(21%女性关注,79%男性关注)
软件(1% 女性关注,99%男性关注)
下载(10%女性关注,90%男性关注)
第三步:综合计算访客性别比率
针对所有该访客关联的分词作累加做计算,然后部分参考用户鼠标行为,从而综合得到一个用户的性别概率分布。
基本上这种方法还是有一定的科学性的,访客相关的分词越多,越丰富判断的准确率越高,另外对于词库的准确率的要求比较高,词库的准确率不高,一切都是玩耍!最后抛一个问题:这值得花这么大力气来做这个事情吗?或许只是个噱头!


这样的识别没有意义,只能是误导。大家都会猜,呵呵~~
世界如此寂寞,玩玩嘛,别当真!不过侧面了解维度那帮人据说有中科院背景。。。