【个性化研究】用户分类
用户分类是实现网站个性化的一项重要工作,我们可以根据需要进行多种分类,可以根据访问内容分出用户的各类兴趣爱好:如喜好足球的、喜好电脑技术的、喜好休闲娱乐的、喜好交友的;根据一般的上网时刻、访问量、上网的总时间、上网总次数等把用户分为一般网友、中级网友、高级网友等;甚至还可以根据访问内容确定用户大致所在的阶层,如白领、蓝领等。
从以往相同喜好的用户的访问内容、访问顺序中进行学习,经过综合、筛选后将其推荐给当前用户。这些推荐信息与用户兴趣间的相关度很高,能很大程度上满足用户的需求。
1.通过日志获取兴趣
客户浏览信息被Web服务器自动收集,并保存在访问日志、引用日志和代理日志中有效地对这些Web日志进行定量分析,揭示用户兴趣路径等,不但可以为优化Web站点的拓扑结构提供参考,而且还可以为企业制定更有效的市场营销策略提供依据,使其及时改进决策,获得更大的竞争优势。 目前,Web日志的挖掘研究主要集中在用户浏览模式的获取上,算法大致思路是它们先将日志中的用户浏览历史记录转换成一个浏览子序列集,具体如下:
(一)最大向前序列法:最大向前序列法根据用户折返的特性形成若干浏览子序列;
(二)参考长度法:参考长度法根据用户在网页上停留的时间形成若干个浏览子序列;
(三)树形拓扑结构法:树形拓扑结构法则把整个日志当作浏览子序列然后利用关联规则法对浏览子序列进行挖掘,找出频繁访问路径。
以上算法单纯地考虑了浏览频度,简单地认为用户的浏览频度就反应了用户的访问兴趣,这很不精确网页浏览频度的影响因素有很多,其中的页面放置位置和其它页面对该页面的链接都起着非常重要的作用,所以有必要提出一种可正确挖掘用户浏览兴趣路径的算法。
2.个性化聚类
作为一种重要的知识发现方法,数据聚类主要用于发现属性间有用的模式和(或)关联(统称为知识),对于大规模数据集的探测性分析有着重要的作用。
(一)效率问题
由于操作的对象是海量数据,所以其效率也就显得特别的重要。为此,近年来除了对聚类算法本身寻求改进以外,还对算法的并行化进行了大量的工作,以充分利用了当今计算机的综合计算能力,缩短聚类过程所需的时间。而且数据聚类的相应技术已经在图象处理,模式识别,信息融合等各个领域里都有重要的应用。
(二)质量问题
发现知识的效率固然重要,但是发现后所得到的知识的“质量”也同样不可忽视。一般来说,一个知识发现系统是面向多用户的(或者说是面向多应用的)。如果一次聚类所得到的知识多于、或少于、甚至根本不是当前用户所需要的知识,那么这些知识对当前用户而言就是存在所谓的质量问题。例如,对于一群学生,教学工作者可能需要把他们分为一年级学生、二年级学生等;而对于同一群学生,医务工作者则可能把他们分为甲肝患者、乙肝患者等。显然,如果一个教学工作者去操作知识发现系统的时候,系统按患病情况进行聚类时,其结果是不能接受的。
(三)理想情况
所以理想的情况是,不但要高效地产生所需要的知识,而且产生的知识要能够满足用户的实际需要,不存在与用户需要无关和多余的知识。当然,这些知识是在反映属性间内在客观联系的前提下满足用户需要的一种知识。该文通过聚类的方法获得仅满足用户需要的知识(不存在无关的知识)的过程,称为个性化聚类,相应的知识就称为个性化知识。在当今信息的海洋中,研究个性化聚类,发现个性化知识,对于减少用户的工作量、提高工作效率和正确率、以及进一步推动信息处理系统向智能化和实用化方向发展有着极为重要的现实意义。

