本文介绍了URL路径相似度/字符串相似度算法的处理方法,对于大家解决问题有一定的参考价值。 有需要的朋友,跟着小编一起学习吧!问题描述
我的问题是我需要比较 URL 路径并推断它们是否相似。 下面我提供了要处理的示例数据:
我的问题是我需要 URL 路径,如果它们是 . 下面我的数据:
#组1/.txt#组2/bot.html#组3/-2.5.6-rc1//setup.php/-2.5.6-rc2//setup.php/-2.5.6//setup.php /-2.5.7-pl1//setup.php/-2.5.7//setup.php/-2.6.0-alpha//setup.php/-2.6.0-//setup.php#组4// /
我尝试与距离进行比较,但对我来说不够准确。 我不需要100%准确的算法,但我认为它必须在90%以上。
我尝试过,但对我来说不是。 我不需要100%,但我认为90%及以上是必须的。
我认为我需要某种分类器,但问题是新数据的每个部分都可以包含应分类为新的未知类的路径。
我认为我需要某种,但每个新数据都可以将其路径传递到新类。
你能指引我到正确的位置吗?
你能帮我到右边吗?
谢谢
推荐答案
在检查@jakub.的建议时,我偶然发现了一个令我满意的解决方案 - 聚类算法,最初旨在减少生物序列数据集中的冗余。
当@jakub. 我发现我-“数据集”。
布鲁诺给了我很好的结果。 唯一的问题是我需要实现它,但我确信我可以找到代码或自己重新实现代码。
Bruno 对 PERL 的测试给了我很好的结果。 唯一的问题是我需要,但我可以通过 或 代码找到一个。
接下来的事情是我还没有检查这个算法的主动学习能力;)
接下来的事情是我还没有这个;)