标题:一种基于机器学习的相似度算法在文本相似度比较中的应用——以法律文本比较为例 作者:骆浩楠 汪峥;李峰 作者单位:东南大学自动化学院,江苏 南京 210096;东南大学信息科学与工程学院,江苏 南京 211100 关键字:民间借贷;法律文本;相似度计算;机器学习;自然语言处理 摘要:随着法律文本的大量公开,在文本挖掘中发挥越来越重要的作用,同时随着机器学习与自然语言处理技术的发展,其与大数据的融合运用逐渐普及,将两者结合起来进行相似度判别分析,有利于对法律文本的充分挖掘利用,对于帮助用户了解案情,同时基于法律文本相似度分析可拓展更多应用,对于促进国家法制化建设具有重要意义。使用了一种基于机器学习的相似度算法,通过与不同词向量结合的方式,能够有效提升文本相似度对比的准确率。通过在真实民间借贷类法律文本比较案例中实验取得明显效果,准确率提升10%,具有较好的使用前景。 |