Perfil de 树杰追梦不息FotosBlogListasMás Herramientas Ayuda

追梦不息

我的梦想之路

树杰 陈

Todavía no se han agregado elementos de lista.

Fuente RSS

El propietario no ha especificado una fuente para este módulo.
11 abril

微软雅虎重启谈判

    美国消息人士10日说,美国微软公司和雅虎公司继去年收购计划告吹后,近日重启谈判,讨论搜索引擎和广告投放合作事宜,以对抗搜索引擎巨头谷歌公司。眼下谈判处于初级阶段,双方已提出多种合作方案。两家公司均拒绝就此事发表评论。
    消息人士说,虽然双方重新回到谈判桌前,但这并不意味着谈判一定会取得成果。虽然鲍尔默先前多次公开表示,微软有意收购雅虎搜索引擎广告业务或整个搜索业务,但一名与雅虎关系密切的消息人士说,雅虎仍不愿放弃对它来说至关重要的搜索业务和手中掌握的相关关键数据。
    
    评论:微软雅虎并购案,可谓一波三折。一开始,微软就像一个性急的小伙儿,而雅虎就像一个扭捏又自视甚高的老姑娘,结果双方谈崩了;后来,雅虎终于意识到自己不嫁不行了,微软又不想要,回去写总结了;现在,雅虎换了管家洗了脑,微软也冷静了、理智了,重启谈判,应该成功率大了。

    欢迎访问我的独立博客酷

10 abril

GAE开始支持Java了

    4月7日,Google宣布其Google App Engine支持Java语言。此次升级支持原有的所有GAE API,且与Java Servlet API, JDO and JPA, javax.cache, and javax.mail兼容。与此同时,Google还提供了GAE的Eclipse插件

    此前Google App Engine只支持Python。

    详情可见这里:Seriously this time, the new language on App Engine: Java

 

    欢迎访问我的独立博客:大树底下

几种用户相似度计算方法及其优缺点

注:我毕设要做一个垂直搜索引擎中的用户推荐项目,这些是我摘录的一些资料和相关分析。

    进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。

    这三种相似性都是基于一个称为用户-项目矩阵的数据结构来进行计算的。该数据结构如下:
   

    余弦相似性:把用户评分看作是n维项目空间上的向量,通过计算两个向量之间的夹角余弦来度量两个用户之间的相似性。

    皮尔森系数:又称相关相似性,通过Peason相关系数来度量两个用户的相似性。计算时,首先找到两个用户共同评分过的项目集,然后计算这两个向量的相关系数。
    调整余弦相似性:将余弦相似性中的向量,减去用户平均评分向量后,再计算夹角余弦以修正不同用户评分尺度不同的问题。

    在数据比较稀疏的情况下,这几种方法均存在一定问题:余弦相似性和调整余弦相似性对于用户未评价项目评分为0的假设;皮尔森系数中用户共同评分项目集可能很小。

    在垂直搜索引擎中,用户数据具有相当的稀疏性。所以需要通过一定的手段来消除这种稀疏性。我的思路:
    1.垂直搜索中存在一个项目的目录(树形结构),如果自顶向下进行评分,并将子项目分数与父项目分数按一定规则运算后作为最后评分。从而填充稀疏矩阵为密集矩阵。
    2.按照密集矩阵进行推荐。

   

    欢迎访问我的独立博客:大树底下

01 abril

推荐系统

目标:设计一个推荐系统;该系统用于bijiala垂直搜索引擎中;能够针对用户给出合适的推荐;推荐内容包括用户可能感兴趣的产品,某款产品用户可能感兴趣的价格区间、品牌等元数据,关联的关键字;能够根据用户是否接受推荐进行再学习。

原则:尽量高的准确率;尽量好的效率,良好的扩展性。

基元数据:页面、关键字、元数据。

思路:基于内容和协同过滤的结合方法。

    1.如何表示一个用户及其兴趣?
    2.如何定义一次用户操作?
    3.如何表示一次用户会话?
    4.如何定义一个推荐对象?
    5.如何进行权重分配?
    6.如何保证扩展性?
    7.如何避免共用ip问题?
    8.如何解决冷开始问题?

做法: 

    1.用户的表示:ip,会话,cookies(可能); 
    2.用户操作:页面停留;点击链接;点击推荐的链接;在推荐链接的页面停留;页面上下拉动;
    3.用户会话:点击流,访问频率数组
    4.推荐对象:某页面;某产品;某产品类别;某类别产品的某个属性
    5.权重:用户采纳的权重高;用户访问频率高的权重高;热门产品权重高;
    6.扩展性:
    7.共用ip:如量大,则仅用访问频率统计,将整个人群视为一个对象;如量适中,则仍作为不同个体辨认
    8.冷开始:以热门产品统计作为起步

架构:

    矩阵式的推荐系统。结合多个推荐算法。

25 marzo

垂直搜索用户推荐

两个维度的分析:用户自身的纵向对比,用户之间的横向对比

两者之间的权重动态调整(根据用户反馈)

多个维度的推荐:
产品类别推荐(如该类别最热产品)
关键字推荐
元数据推荐(如价格区间、供应商等)

过程:用户建模-->项目匹配-->推荐输出
用户建模:数据收集、模型表示、模型学习、模型更新

方法:基于内容,基于知识,基于协同过滤,基于Web使用挖掘,混合类型
基于内容:

 

设计目标是什么?建立怎么样的系统?有哪些考评该系统的依据?关键功能点是什么?

最终要推荐什么:产品(电子产品、机票、酒店)、关键字、下一步要做什么?是进行有状态的推荐还是无状态的推荐?

如何将用户与这些东西关联:向量?关键字如何识别并与某类产品关联?

如何进行权重分配?用户之间相似度的权重,用户直接关键字搜索的权重,用户点击的权重,用户采纳建议后如何计算权重并并入现有体系?

长期跟踪的推荐还是短期的推荐?能够从web日志中提取出cookies信息?

 

定义用户的元操作:关键字搜索、点击链接访问了概要信息页面、最终进入了外部网站

是否区分关键字搜索和直接的分类点击?

对于群体公用ip的如何处理?如学校

如何解决冷开始问题?

是否会存在性能瓶颈?

 

思路:用户推荐在其他地方有何应用?是否有可以借鉴的地方?有没有一些简单但有效的方法?别人的思想有没有可以借鉴的?

在目前比较流行的方法当中,有没有可以结合起来应用的方法?

有没有一些比较冷门但是合适的方法?

 

相关链接:

推荐系统:协同过滤 之 User-based Collaborative Filtering

http://www.guwendong.cn/post/2006/user_based_collaborative_filtering.html

推荐系统:协同过滤 之 Item-based Collaborative Filtering

http://www.guwendong.cn/post/2006/item_based_collaborative_filtering.html

 
Foto 1 de 16
Más álbumes (1)
感谢访问!
Espera...
El comentario que has escrito es demasiado largo. Acórtalo.
No has escrito nada. Vuelve a intentarlo.
No se puede agregar tu comentario en este momento. Vuelve a intentarlo más tarde.
Para agregar un comentario, necesitas permiso de tus padres. Pedir permiso
Tus padres han desactivado los comentarios.
No se puede eliminar tu comentario en este momento. Vuelve a intentarlo más tarde.
Has superado el número máximo de comentarios que se puede dejar en un día. Vuelve a intentarlo en 24 horas.
Se ha deshabilitado la capacidad de tu cuenta de dejar comentarios porque nuestros sistemas indican que podrías estar enviando correo no solicitado a otros usuarios. Si crees que tu cuenta se ha deshabilitado por error, ponte en contacto con el servicio de soporte técnico de Windows Live.
Para terminar de dejar tu comentario, realiza la siguiente comprobación de seguridad.
Los caracteres que escribas en la comprobación de seguridad deben coincidir con los de la imagen o el audio.
Todavía no se han agregado elementos de lista.
Todavía no se han agregado elementos de lista.