.NET下文本相似度算法余弦定理和SimHash浅析及应用实例分析

2024-07-10 12:48:11

字体：大中小

来源：转载

供稿：网友

本文实例讲述了.NET下文本相似度算法余弦定理和SimHash浅析及应用。。具体分析如下：

余弦相似性

原理：首先我们先把两段文本分词，列出来所有单词，其次我们计算每个词语的词频，最后把词语转换为向量，这样我们就只需要计算两个向量的相似程度.

我们简单表述如下

文本1：我/爱/北京/天安门/ 经过分词求词频得出向量（伪向量） [1,1,1,1]

文本2：我们/都爱/北京/天安门/ 经过分词求词频得出向量（伪向量） [1,0,1,2]

我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, ...]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

C#核心算法：
代码如下:    public class TFIDFMeasure
    {
        private string[] _docs;
        private string[][] _ngramDoc;
        private int _numDocs=0;
        private int _numTerms=0;
        private ArrayList _terms;
        private int[][] _termFreq;
        private float[][] _termWeight;
        private int[] _maxTermFreq;
        private int[] _docFreq;

        public class TermVector
        {
            public static float ComputeCosineSimilarity(float[] vector1, float[] vector2)
            {
                if (vector1.Length != vector2.Length)
                    throw new Exception("DIFER LENGTH");


                float denom=(VectorLength(vector1) * VectorLength(vector2));
                if (denom == 0F)

上一篇：asp.net中MVC借助Iframe实现无刷新上传文件实例

下一篇：ASP.NET生成两个日期范围内随机时间的实现方法

学习交流

硬盘分区如何设置准确的分区空间

硬盘分区如何设置准确的分区空间...

热门图片

猜你喜欢的新闻

猜你喜欢的关注