下载 购买
软件介绍

依据内容判断文章相似度,并过滤重复

此项功能是业界最为领先的技术之一,为熊猫独创。
在熊猫V1.6版本中,增加了依据内容来判断文章相似度的功能,并依据相似度判断结果,来过滤内容重复的文章。
熊猫会在对采集结果文章分词的基础上,对分词结果建立索引,然后依据新的文章的分词结果快速检索到相似文章。熊猫为此内置了一个独立开发的分词索引检索引擎,性能强劲,内存消耗低,CPU占用极低。

依据内容判断文章相似度,并过滤重复

默认情况下,熊猫会自动依据采集信息的来源URL,来判断、过滤重复采集的数据。这也是一个成熟的采集软件的必备基础功能之一。但是出于习惯,互联网内容复制、转载的非常多,不同url下的内容,可能会完全相同,或基本相同,此时就无法依据采集来源的Url来判断数据的重复性。
利用熊猫的分词索引功能,实现内容相似度的判断,可以排除转载的重复内容。 确保结果的唯一性。
此项功能还有一个附属功能:“相似文章列表”的输出。默认的采集结果中,会输出相似文章的ID列表,转换后,可以附属在文章的后面,作为“延伸阅读”使用。
在此功能的基础上,熊猫新增了对文章摘要的自动生成功能。依据文章的内容,自动智能挑选最合适的摘要描述文字。

熊猫独有的部分高级功能分项阐述
友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4