降重秘籍!自己的写的论文怎么降重?需要什么技巧?

  1. 阅读次数:1488
  2. 发布作者:王茹
  3. 发布时间:2020-04-02

零. 查重系统:


学校用什么查重系统为准,我们就选择使用什么查重系统。一般学校用知网,本科采用知网pmlc,研究生采用知网vip。发表投稿采用知网期刊系统,投稿国外一般采用Turnitin查重官网!


一. 查重的算法


总体相似度 = 相似字数 / 检测字数


被系统自动识别出来的非正文部分(如目录,标题,公式,图表,参考文献等)不参与检测,检测字数一般略小于论文字数。


相似字数 =(句子1字数 * 句子1相似度 + 句子2字数 * 句子2相似度 + ...... + 句子n字数 * 句子n相似度),句子相似度范围0.00~1.00,绿色句子相似度按照0计算。


红色句子为重度相似(80%~100%),建议修改;橙色句子为轻度相似(50%~80%),可酌情修改;绿色句子表示没有检测到相似语句。简单归纳:


(其中i句相似度>50%为有效,<50%记作0)


简单理解:查重时把文章分解为一个个小句,根据某个算法算出单句相似度。把其中相似度大于50%的句子的相似字数加总再除以论文总字数即为重复率。


单句相似度这个概念似乎比较玄学,网站没有明确说明算法,但目前NLP实践中,文本相似度的算法有很多种:Jaccard相似度、余弦相似度、Jaro相似度等,对于人工修改的参考意义都差不多,以Jaccard相似度为例:

 

即用两句话中汉字的交集数除以并集数,如“小红在做作业”“小绿在写作业”两句话,交集字符为小/在/作/业(4个);并集字符为小/红/在/做/作/业/绿/写(8个)。因此,Jaccard相似度=4/8*100%=50%。


最重要的一个信息是:相似度>50%的句子才会被标黄,相似度>80%的句子会被标红。相似度<50%的被标绿并且相似度被计为0.


二.降重目标


①降低每句相似字数,以降低总相似字数;


②把句子的相似度降低到50%以下,那么这句相似字数直接就变为0了。


我们发现这两个途径其实一样。但是②的效果更显著,因为能直接把句子变绿(要坚强)从而大幅降重,所以对于大多数句子,我们的目标显然是用方法②把他变绿。。。


当然还有一些句子非常坚强,比如“根据图2-1我们可以看到,...”这种句子就比较难绿,但是总体而言难绿的句子不多,所以把重复率降到5%以下是不难的。


三、具体措施


我们目前看到的大多数降重思想都局限在方法①,即没有目的地用同义词替换、把字句被字句转换等方法尽力降低相似字数。但是有了科学思想的指导,我们的修改方向就更清晰了。


使用 免费论文降重 公众号,或者网页版: 我要毕业-EZPaper免费论文降重。网址:ezpaper.cn,输入要修改的语句就能返回结果,而且是完全免费的。我用这个工具把毕业论文重复率降到了0%。


四、经验总结


由于在线改重功能可以改一句话及时看到新的重复率,所以可以利用算法技巧不断修正结果,非常好用。但是仍存在该网站和知网查重率不一致的问题,在一些情况下查重率偏差很大。


重复率有差异的原因主要在两处:一是算法严格程度差异;二是网站背后的数据库大小差异。


1、算法严格程度差异可能是由于50%标绿这个阈值大小不同,也可能是单句相似度的Jaccard相似度/余弦相似度/Jaro相似度等指标选择不同,但知网算法的严格程度通常小于外库。原因在于第2点差异。


2、知网的数据库大于其他查重网站。知网本科论文查重与其他网站的最大区别在于知网pmlc有【大学生论文联合对比库】,这个数据库收录了各学校历年的毕业论文,这些论文是其他网站所没有的。因此其他网站会通过严格算法来使查重结果和知网平衡,这也是很多抄袭、大篇幅粘贴者的查重率在知网和外网差异很高的原因。但是对于自己写作的有原则的大学生来说,paper系列的查重结果肯定是有参考意义的。并且有些同学认真写的论文在知网的重复率很可能比其他网站更低。


以上内容转载于正态君公众号,如有侵权请联系客服删除!

 


问卷调查 意见反馈
联系我们
客服QQ