博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Jackcard类似度和余弦类似度(向量空间模型)的java实现
阅读量:6805 次
发布时间:2019-06-26

本文共 3149 字,大约阅读时间需要 10 分钟。

版权声明:本文为博主原创文章,地址:,转载请留言。

总结Jackcard类似度和余弦类似度。

一、集合的Jackcard类似度

1.1Jackcard类似度

Jaccard类似指数用来度量两个集合之间的类似性,它被定义为两个集合交集的元素个数除以并集的元素个数。

数学公式描写叙述:

J(A,B)=|AB||AB|
这个看似简单的算法有非常大的用处,比方:
  1. 抄袭文档
    高明的抄袭者为了掩盖自己抄袭的事实。会选择性的抄袭文档中的一些段落,或者对词语或原始文本中的句序进行改变。jackcard类似度计算适合从字面上进行计算,假设是更高级的抄袭改变了语义jackcard类似度计算就无能为力了
  2. 镜像页面
    多个主机上建立镜像以共享载入内容,同一份内容有多个副本。这样的情况实现jackcard类似度计算十分有效。
  3. 同源新闻稿
    一个记者撰写了一份新闻稿件投稿多家媒体,稿件经过少量改动后公布,使用这些同源新闻稿能够用jackcard类似度算法来检測出来

1.2 Java实现

import java.util.HashSet;import java.util.Map;import java.util.Set;/** * Created by bee on 17/4/12. */public class JackcardSim {    public static double calJackcardSim(Set
s1, Set
s2) { Set
all = new HashSet<>(); all.addAll(s1); all.addAll(s2); System.out.println(all); Set
both = new HashSet<>(); both.addAll(s1); both.retainAll(s2); System.out.println(both); return (double) both.size() / all.size(); } public static void main(String[] args) { Set
s1 = new HashSet
(); s1.add("互联网"); s1.add("金融"); s1.add("房产"); s1.add("融资"); s1.add("科技"); Set
s2 = new HashSet
(); s2.add("互联网"); s2.add("开源"); s2.add("人工智能"); s2.add("软件"); s2.add("科技"); System.out.println(calJackcardSim(s1, s2)); }}

执行结果

[科技, 房产, 软件, 融资, 人工智能, 互联网, 开源, 金融][科技, 互联网]0.25

二、向量空间模型

2.1简单介绍

向量空间模型是一个把文本文件表示为标识符(比方索引)向量的代数模型。

它应用于信息过滤、信息检索、索引以及相关排序。

文档和查询都用向量来表示。

dj=(w1,j,w2,j,...,wt,j)q=(w1,q,w2,q,...,wt,q)
cosθ=d2qd2q=i=1Nwi,jwi,qi=1Nw2i,ji=1Nw2i,q

2.2、java实现

import java.util.HashMap;import java.util.HashSet;import java.util.Map;import java.util.Set;/** * Created by bee on 17/4/10. */public class Vsm {    public static double calCosSim(Map
v1, Map
v2) { double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0; Set
v1Keys = v1.keySet(); Set
v2Keys = v2.keySet(); Set
both= new HashSet<>(); both.addAll(v1Keys); both.retainAll(v2Keys); System.out.println(both); for (String str1 : both) { sclar += v1.get(str1) * v2.get(str1); } for (String str1:v1.keySet()){ norm1+=Math.pow(v1.get(str1),2); } for (String str2:v2.keySet()){ norm2+=Math.pow(v2.get(str2),2); } similarity=sclar/Math.sqrt(norm1*norm2); System.out.println("sclar:"+sclar); System.out.println("norm1:"+norm1); System.out.println("norm2:"+norm2); System.out.println("similarity:"+similarity); return similarity; } public static void main(String[] args) { Map
m1 = new HashMap<>(); m1.put("Hello", 1.0); m1.put("css", 2.0); m1.put("Lucene", 3.0); Map
m2 = new HashMap<>(); m2.put("Hello", 1.0); m2.put("Word", 2.0); m2.put("Hadoop", 3.0); m2.put("java", 4.0); m2.put("html", 1.0); m2.put("css", 2.0); calCosSim(m1, m2); }}

执行结果:

[css, Hello]sclar:5.0norm1:14.0norm2:35.0similarity:0.22587697572631282

三、參考资料

你可能感兴趣的文章
Objective-C 基础,类和对象,方法和消息,已声明的属性和存取方法,块对象,协议和范畴类,预定义类型和编码策略...
查看>>
NDK编译时指定NDK_MODULE_PATH的方法
查看>>
解决Android 应用运行报Unable to resolve superclass of L错误
查看>>
经典排序之 归并排序
查看>>
调用手机震动
查看>>
编程珠玑:位图法排序
查看>>
CREATEMUTEX
查看>>
矢量数据压缩:道格拉斯普克算
查看>>
IIS添加对ashx文件的支持
查看>>
Top Down Operator Precedence - 自顶向下算符优先分析法
查看>>
android 来电自动接听和自动挂断
查看>>
SharePoint2010 获取网站集SPSite,SPWeb对象的4种方法
查看>>
poj 1607 Deck(坑爹的水题啊)
查看>>
Asterisk 函数
查看>>
你看得到工具的本质吗
查看>>
EF架构~看看下面这代码,你还敢用它的延时加载吗?
查看>>
BroadcastReceiver入门
查看>>
【ASP.NET Web API教程】1 ASP.NET Web API入门
查看>>
EXCEL中ABS
查看>>
java代理模式与反射机制
查看>>