在弄不清样本空间、总体、分布的情况下,不推荐使用假设检验。
------------------------------------------------------------------
另一种思路
提取uid1到uid10000的用户编号,以及他们每个人选用的服务编号(a,b,c之类的),做0-1稀疏矩阵,然后用夹角余弦求每2个服务之间的距离,距离近的说明两个服务(a和b)中有用的重复用户数量多,也就是用户喜欢a服务的同时喜欢b服务的人数较多。(即你所述的关系Ⅰ.使用A的一般都使用B)
举个栗子: 提取用户编号1-10的数据,一共有3个服务可选(服务编号1、2、3)
uid 1 选用服务有 1 ,2
uid 2 选用服务有3
uid 3 …………2,3
uid 4 …………1,2
uid 5 …………2,3
uid 6 …………1,3
uid 7 …………1,2
uid 8 …………1,2
uid 9 …………3
uid 10 …………3个服务都没选用
按3个服务列成矩阵
uid1 uid2 uid3 uid4 uid5 uid6 uid7 uid8 uid9 uid10
服务1 1 0 0 1 0 1 1 1 0 0
服务2 1 0 1 1 1 0 1 1 0 0
服务3 0 1 1 0 1 1 0 0 1 0
计算:
a<-c(1,0,0,1,0,1,1,1,0,0)> b<-c(1,0,1,1,1,0,1,1,0,0)>
c<-c(0,1,1,0,1,1,0,0,1,0)
sum(a*b)/(sqrt(sum(a^2))*sqrt(sum(b^2)))[1] 0.7302967>
sum(a*c)/(sqrt(sum(a^2))*sqrt(sum(c^2)))[1] 0.2>
sum(b*c)/(sqrt(sum(b^2))*sqrt(sum(c^2)))[1] 0.3651484
接近1的两个距离近,接近0的两个距离远
结果是:使用1的一般都使用2,使用1的一般都不使用3,使用2的一般都不使用3
在 2011年8月20日 下午4:59,杜宏羽 <dongfengweixiao(a)gmail.xn--com>:-0s6m5392c
一共存在16向服务
但是我只是简单的分析每2个服务之间的关系.
关系例如为:
Ⅰ.使用A的一般都使用B
Ⅱ.使用A的一般都不使用吧
Ⅲ.A/B之间无相关性
但是现在我仅仅列出了15跟16的数据
不知道有没有什么方法可以检验15跟16之间是不是有相关性?
在 2011年8月20日 下午4:54,BX <btbxbob(a)gmail.xn--com>:-0s6m5392c
> 假设检验么?楼主要的是什么样的关系?是要根据用户号预测服务还是根据已有服务预测下次?
>
> 在 2011-8-20 下午4:43,"Michael Ding" <dingyan(a)freestorm.xn--org>:-0s6mn078a
>
> -----BEGIN PGP SIGNED MESSAGE-----
> Hash: SHA1
>
> 可以用T检验试试,把两种服务看作是两种条件,用户编号看作样本值,用T检验 检验这两组样本值分布是否存在显著差异?
> 没有细想,可以讨论
>
> 在 2011-8-20,下午4:09, 杜宏羽 写道:
>
>
> > 210 15
> > 237 15
> > 239 15
> > 258 15
> > 284 15
> > 290 15
> > 300 15
> > 307 15
> > 341 15
> > 366 15
> > 372 15
> ...
> - --
> Michael DING
>
> Main Founder of Free Storm ORG
>
http://www.freestorm.org
>
> -----BEGIN PGP SIGNATURE-----
> Version: GnuPG/MacGPG2 v2.0.17 (Darwin)
> Comment: GPGTools -
http://gpgtools.org
>
> iQEcBAEBAgAGBQJOT3N7AAoJEE46QpXD7ZpwoSgH/3/4qjBDOXzvMP1k3qEyrver
> ThLc+2IvF2viL4lN5/7f1T7yvAxi2Ig+pDI/MuAbaxqRam4Yt8nc+CeQO5NlwKhc
> vcvVeifTadeHM4zk3mdNmJJaigIgSh6KdqsTxRBnxpX3RKIqmUEtOdsv7NPQT67K
> j9Dx5A0Y0DYclDhyqzpSiaFBumpif7vTAgtzCH0HtE1vWvsHRx2/CVKftOK4W2OT
> eRkD6Zhx5tLnOH6turi3eXH7rM3IUQiU7x8FpLlWBMs08YW5aeIxnJBSaal9iRsy
> xuLSgmoisos3jLqLoaZ9CBCNW/LRsmD31qiSCgm70QKEsR2gR1Xr/XwH93YkRlw=
> =np83
> -----END PGP SIGNATURE-----
>
> _______________________________________________
> Chinese mailing list
> Chinese at lists.fedoraproject....
> _______________________________________________
> Chinese mailing list
> Chinese at
lists.fedoraproject.org
>
https://admin.fedoraproject.org/mailman/listinfo/chinese
>
_______________________________________________
Chinese mailing list
Chinese at
lists.fedoraproject.org
https://admin.fedoraproject.org/mailman/listinfo/chinese