中國知網(wǎng)CNKI學術不端檢測系統(tǒng)也稱為知網(wǎng)查重檢測系統(tǒng),是通過知網(wǎng)查重檢測系統(tǒng)對論文的主體進行識別檢測的方法,通過系統(tǒng)的運作與計算,以“復制比”或“相似比”的直觀形式呈現(xiàn)檢測結果。 目前知網(wǎng)查重檢測系統(tǒng)不能完全取代人工對比,仍存在較多檢測盲區(qū),現(xiàn)就筆者使用過程中發(fā)現(xiàn)的問題列舉如下體會:
1、合理引用與抄襲的區(qū)分
引用政府文件、領導人講話、權威著作、歷史材料、法律法規(guī)、診斷療效標準、操作規(guī)程等,被誤判為段落抄襲或句子抄襲,導致文字復制比偏高。生物醫(yī)學領域的論文,很多研究方法和臨床診療方案是相似的,而且論文的格式基本都是固定的,語句較為簡單和通用,如:采用SPSS統(tǒng)計軟件分析數(shù)據(jù),計量資料以X±S表示,組間比較采用t檢驗;計數(shù)資料組間比較采用X2檢驗;P<0.05為差異有統(tǒng)計學意義。同一方向的研究往往查詢的文獻相同、采用的技術和方法一致,就連在術語的應用和語言的表達上也容易造成重復。同一作者在前期研究的基礎上繼續(xù)深入,后期文章中前言文字、研究方法、研究儀器、所用材料、統(tǒng)計學分析等很多文字說明與前期文章一致,甚至會引用前期文章中的數(shù)據(jù)。中醫(yī)藥類論文經常引用經典語句,檢測系統(tǒng)尚不能識別這些語句出自經典著作。因此,醫(yī)學類文章容易出現(xiàn)文字重復,導致文字復制比偏高。也有的論文整體文字復制比偏高,但核心內容基本不重復,利用這些系統(tǒng)檢測醫(yī)學論文的時候可能會出現(xiàn)檢測結果“假陽性”。檢測系統(tǒng)遏制了明目張膽的抄襲、剽竊,但對文化發(fā)展產生了負面影響。依據(jù)《著作權法》作者有引用的權利,系統(tǒng)卻不能保障。此類情況應由同行評議的方式進行補充評議。
2、檢測系統(tǒng)收錄文獻完整性問題
CNKI、萬方、維普數(shù)據(jù)庫與國內眾多期刊均有合作,但三家數(shù)據(jù)庫所收錄的期刊并不完全重合。造成各家收錄論文存在差異性,導致知網(wǎng)查重檢測系統(tǒng)的結果出現(xiàn)差異。如果抄襲了回溯建庫之前的文獻,則數(shù)據(jù)庫無法查實。并且CNKI、萬方數(shù)據(jù)都分別與部分科技期刊編輯部簽訂了獨家合作協(xié)議,意味著該刊的所有文獻只能在各自的數(shù)據(jù)庫中檢索到,造成其他數(shù)據(jù)庫的統(tǒng)計源文獻的缺失。此外,目前檢測系統(tǒng)對圖書的收錄還有很大空缺,如果論文抄襲的是圖書內容,現(xiàn)有系統(tǒng)無法檢測出來。
3、檢測技術問題
各檢測系統(tǒng)在工作方式、后臺數(shù)據(jù)庫、算法特點(對論文關鍵語義片斷識別檢測、字段識別、近義同義識別)等方面都存在差異,這些在技術上的不同,會造成不同的檢測系統(tǒng)對同一篇論文檢測時,得出不同的結論結果,而且有時差異較大。有抄襲者針對檢測系統(tǒng)的檢測原理研究出“反反抄襲”方法,把論文寫作變成了文字游戲,通過對語句順序的調整、同義詞替換、語句表達方式的變動而躲避系統(tǒng)的檢測。更有甚者將外文文獻翻譯成中文后發(fā)表,或將自己的中文稿件翻譯成英文再投稿。知網(wǎng)查重檢測系統(tǒng)在技術上只能檢測“文字”而不能檢測“思想”,從而只能避免“文字”抄襲而不能防止“思想”抄襲的缺陷[10]。此時需要通過同行評議的方式進行補充評議。
4、文字識別誤差
對于同一篇論文,使用Word版與PDF版本進行檢測會得到明顯的論文重復率的不同,這主要由兩者文字識別率不同引起。同時在檢測報告中有時也會出現(xiàn)亂碼,也是由于提交的PDF版本論文或數(shù)據(jù)庫中論文的文字轉換差錯所導致。
5、轉頁文字處理錯誤
兩篇論文共用一頁或同一篇論文排版標識為下轉某一頁時,檢測結果可能出現(xiàn)被檢測論文與其自身重復或同一文字誤作兩篇的錯誤,直接導致復制比增高,必須人工予以鑒別。
6、外文論文檢測水平需提高和突破
在檢測中發(fā)現(xiàn)目前外文論文檢測結果復制比較低,這與檢測系統(tǒng)收錄外文文獻底層數(shù)據(jù)不足、范圍受限有關,較低的復制比并不能反映出論文的真實質量水平。
7、檢測報告閱讀、解釋
因檢測系統(tǒng)尚未完善,檢測報告中可能存在其他問題:⑴部分外文會議論文未標引作者,同作者提交的期刊論文重合部分無法排除;⑵參考文獻與其他論文的參考文獻重合,也計入了總重合率(雖然系統(tǒng)中有“去除參考文獻后復制比”指標,但是有的參考文獻未被識別);⑶外文姓名不能自動識別,如Xiao Yong SUN VS Xiao-Yong Sun;⑷文字識別錯誤,筆者曾檢測過一篇論文,檢測報告顯示“去除本人學位論文會議論文文獻復制比”為43.4%,“單篇最大文字復制比”為18.4%。后與原文對比發(fā)現(xiàn)檢測字數(shù)為376字,與原文轉換為文本后的4001字差別較大,故考慮為檢測系統(tǒng)文字轉換有誤。咨詢相關技術人員解釋為:收錄數(shù)據(jù)加工問題所致系統(tǒng)無法讀取原文。后經該論文以PDF格式原文上傳檢測,其結果“去除本人學位論文會議論文文獻復制比”為0.9%,“單篇最大文字復制比”為0.9%。
總結:以上七點是本人的知網(wǎng)查重檢測系統(tǒng)使用體會。論文抄襲是學術不端的常見形式,知網(wǎng)查重檢測系統(tǒng)確實對檢測中文論文的內容重復情況具有重要的實用價值,也對部分學術不端者起到了震懾作用。本研究對山東省部分高校4年間9000多篇職稱評審論文檢測結果的統(tǒng)計分析,部分地反映了當前山東省高校學術論文的學術不端真實狀況。知網(wǎng)查重檢測系統(tǒng)本身還存在一些問題,這就需要檢測人員以高度的責任心對檢測報告仔細解讀,審慎出具檢測結論。同時也提醒檢測報告的使用機構必須合理使用報告結果,必要時應進行人工的學術鑒定,而不能只關注檢測報告的數(shù)據(jù)。