論文查重檢測系統(tǒng)作為論文初篩工具已經(jīng)成為歐美高校的常用軟件, 國外高校對于反剽竊的研究高度重視, 在反剽竊領(lǐng)域的研究也比較成熟, 六年來國際反剽竊大會 已經(jīng)舉行了三屆, 相對來說前面介紹的國內(nèi)相關(guān)研究還比較滯后。
1 CNKI科技期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)(AMLC)
CNKI科研誠信管理系統(tǒng)研究中心是同方知網(wǎng)出版集團(tuán)旗下從事科研誠信管理產(chǎn)品研發(fā)的專門機(jī)構(gòu), 中心主要從事學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)、科研誠信檔案管理系統(tǒng)等軟件研發(fā)。同時也承擔(dān)相關(guān)機(jī)構(gòu)委托的科研誠信監(jiān)測、管理等事務(wù)。還為各單位的學(xué)術(shù)評價提供科研誠信方面的參考數(shù)據(jù), 輔助進(jìn)行學(xué)術(shù)評價。它旗下的中國學(xué)術(shù)期刊(光盤版)電子雜志社(CNKI)的科技期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)(AMLC) 從2006年開始正式立項(xiàng)研發(fā)到目前已經(jīng)達(dá)到大規(guī)模實(shí)用化的成熟程度。2008年底, AMLC管理辦公室開始為CNKI提供每期數(shù)據(jù)的期刊編輯部免費(fèi)提供剛開發(fā)完成的《科技期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)(AMLC)》。
如期刊編輯部希望使用該系統(tǒng), 可以郵寄、傳真方式向中國學(xué)術(shù)期刊(光盤版)電子雜志社AMLC管理辦公室提交《AMLC使用申請》, 簽訂授權(quán)使用協(xié)議, 就可以通過CNKI 的客服人員直接開通本編輯部的系統(tǒng)使用賬號, 這個賬號只能用于檢測本刊的來稿和已發(fā)表文獻(xiàn)。
AMLC系統(tǒng)建設(shè)是一個系統(tǒng)工程, 涉及檢測方法設(shè)計、比對數(shù)據(jù)庫建設(shè)、規(guī)范數(shù)據(jù)庫建設(shè)、大規(guī)模數(shù)據(jù)測試、系統(tǒng)性能測試等多個環(huán)節(jié)。系統(tǒng)目前的檢測范圍涵蓋中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫、中國博士論文網(wǎng)絡(luò)出版總庫、中國優(yōu)秀碩士論文網(wǎng)絡(luò)出版總庫、中國報紙全文數(shù)據(jù)庫、中國專利全文數(shù)據(jù)庫(知網(wǎng)版)、中國科技成果數(shù)據(jù)庫(知網(wǎng)版)、中國年鑒網(wǎng)絡(luò)出版總庫、中國工具書數(shù)據(jù)庫、中國標(biāo)準(zhǔn)數(shù)據(jù)庫(知網(wǎng)版)。正陸續(xù)引進(jìn)英文數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫等資源。AMLC可以進(jìn)行快速文獻(xiàn)比對。以CNKI各庫為比對基礎(chǔ)庫, 在2 ~ 5秒內(nèi)完成一篇5000漢字的文獻(xiàn)比對, 出示比對結(jié)果。并支持批處理。用戶可上傳包含多篇文獻(xiàn)的壓縮文件進(jìn)行檢測。其比對結(jié)果經(jīng)過標(biāo)紅, 且有定位功能。能夠快速發(fā)現(xiàn)文字重復(fù)的部分, 方便快捷。另外在結(jié)果中將詳細(xì)顯示比對源文獻(xiàn)的篇名、作者、發(fā)表刊物、發(fā)表時間等信息, 便于用戶參考。
經(jīng)筆者所在編輯部試用, AMLC可以檢測的文獻(xiàn)格式包括:caj、doc、pdf、txt文本以及包括上述格式文獻(xiàn)的壓縮文件。用戶也可對已提交文獻(xiàn)進(jìn)行重新檢測、修改、刪除操作。點(diǎn)擊提交文獻(xiàn)的篇名即可細(xì)覽該文獻(xiàn)的監(jiān)測結(jié)果。
另外, 用戶還可以刪除系統(tǒng)給出的某些抄襲來源文獻(xiàn), 得到新檢測結(jié)果。如果用戶點(diǎn)擊抄襲來源篇名, 就可以查看文件相似內(nèi)容對比情況了。
2 萬方論文相似性檢測系統(tǒng)
萬方論文相似性檢測系統(tǒng)是基于萬方數(shù)據(jù)公司所收錄的期刊論文、學(xué)位論文、萬方數(shù)值數(shù)字化期刊全文數(shù)值庫、萬方數(shù)值學(xué)位論文、常識服務(wù)平臺的全文數(shù)值庫等海量數(shù)據(jù), 運(yùn)用先進(jìn)的檢測算法研制而成, 它具有檢測速度快、檢測準(zhǔn)確等特點(diǎn)。國內(nèi)第二大數(shù)據(jù)集成商萬方數(shù)據(jù), 在CNKI推出AMLC 一年零一個季度之后終于拿出了一個與CNKI相提并論的產(chǎn)品, 在2010的3月, 萬方公司的網(wǎng)站上出現(xiàn)了萬方論文相似性檢測系統(tǒng), 通過論文相似性檢驗(yàn)測定體系的官網(wǎng) , 萬方數(shù)據(jù)將檢測費(fèi)用定義在10元每萬字, 可以直接通過自己在萬方數(shù)據(jù)的賬戶登錄, 并進(jìn)行論文的檢測, 通過檢測可以看到萬方數(shù)據(jù)提供了簡明和詳細(xì)兩種檢測報告。
3 維普——— 通達(dá)論文引用檢測系統(tǒng)
國內(nèi)第三大數(shù)據(jù)集成商維普資訊, 在CNKI推出AMLC 一年零3個季度和萬方數(shù)據(jù)推出論文相似性檢系統(tǒng)半年之后終于也拿出了一個與CNKI和萬方數(shù)據(jù)相提并論的產(chǎn)品——— 論文引用檢測系統(tǒng).從2010 年9 月起個人用戶在維普——— 通達(dá)論文引用檢測系統(tǒng)的官網(wǎng)注冊就可免費(fèi)檢測自己的文章。
維普——— 通達(dá)論文引用檢測系統(tǒng)經(jīng)過部分高校及社會個人用戶的測試, 已經(jīng)面向企事業(yè)用戶、個人用戶全面公開免費(fèi)試用, 用戶僅需填寫真實(shí)的郵箱快速注冊即可免費(fèi)享受論文引用檢測服務(wù)。
該論文檢測系統(tǒng)是基于多年數(shù)據(jù)挖掘技術(shù)領(lǐng)域的成功經(jīng)驗(yàn), 應(yīng)用于文本比對檢測領(lǐng)域上的成熟產(chǎn)品。該系統(tǒng)將自主研發(fā)的大規(guī)模文本處理技術(shù), 應(yīng)用于論文內(nèi)容創(chuàng)新性評價系統(tǒng), 能夠高效的與海量文本資源進(jìn)行比對, 檢測出重復(fù)及引用片段等, 并且能夠計算出論文的復(fù)寫率、引用率及自寫率(對論文內(nèi)容創(chuàng)新性評價)等指標(biāo) 。
該系統(tǒng)集合了專業(yè)的數(shù)據(jù)庫資源, 針對不同類型用戶的需求, 可提供專業(yè)的個人自檢測服務(wù)、高校學(xué)生論文檢測服務(wù)、期刊稿件檢測服務(wù)以及其他類型的檢測服務(wù)等。
該系統(tǒng)可以滿足教育界、出版社、媒體、科研機(jī)構(gòu)等行業(yè)客戶及各類論文撰寫者等不同用戶的需求。通過該系統(tǒng), 我們可以查出該文作者的自寫率是多少,
4 ROST反剽竊系統(tǒng)(學(xué)術(shù)論文不端行為檢測系統(tǒng))
ROST反剽竊系統(tǒng)(學(xué)術(shù)論文不端行為檢測系統(tǒng))是由武漢大學(xué)信息管理學(xué)院出版科學(xué)系沈陽教授帶領(lǐng)課題小組開發(fā)成功的文檔相似性檢測工具??捎行z測論文的抄襲相似情況, 經(jīng)過6年的研發(fā)(早期版本叫做網(wǎng)盜克星), 推出了6.0版本。
ROST反剽竊系統(tǒng)可以自動將文檔切割為多個50 ~ 200 字(可自定義)的小文本, 通過混合引擎與188 億個網(wǎng)頁和490萬篇文獻(xiàn)進(jìn)行柔性匹配, 標(biāo)示出每個文本塊與文獻(xiàn)庫中的文獻(xiàn)的最大相似度。由此軟件統(tǒng)計出相似度≥ 95%(基本原封不動拷貝)與相似度≥ 80% (拷貝后略作修改)的字?jǐn)?shù)所占總字?jǐn)?shù)比例。軟件把這個比例作為相似程度參考衡量指標(biāo)。“ ROST反剽竊系統(tǒng)”與其他系統(tǒng)最大的不同之處在于覆蓋了188億個網(wǎng)頁以及490萬篇論文。
自ROST反剽竊系統(tǒng)2008年4月推出以來, 先后在武漢大學(xué)信息管理學(xué)院研究生辦公室、CSSCI核心期刊《出版科學(xué)》、《圖書情報知識》試用, 在2008年11月舉辦的第二屆數(shù)字時代出版產(chǎn)業(yè)發(fā)展與人才培養(yǎng)國際學(xué)術(shù)研討會對會議論文進(jìn)行全面檢測, 并在2008年12月的第三屆中國期刊創(chuàng)新年會向全國期刊界做了全面推介, 取得了良好的效果?,F(xiàn)在,
ROST反剽竊系統(tǒng)已經(jīng)進(jìn)一步在《中國社會工作》、北京大學(xué)、廈門大學(xué)、上海理工大學(xué)、成都理工大學(xué)、浙江傳媒學(xué)院等全國近百所高校和期刊社中試用。
5 國內(nèi)論文查重檢測平臺的比較
隨著計算機(jī)技術(shù)在國內(nèi)的廣泛興起, 對于論文查重檢測系統(tǒng)的軟件開發(fā)浪潮也一浪高過一浪。網(wǎng)絡(luò)和軟件的開發(fā)成功成為了國內(nèi)反學(xué)術(shù)不端行為重要的里程碑, 也成為反學(xué)術(shù)論文不端行為的重要力量。通過對國內(nèi)幾個著名的學(xué)術(shù)論文不端行為檢測系統(tǒng)的介紹, 我們發(fā)現(xiàn), 國內(nèi)的學(xué)術(shù)論文不端行為檢測系統(tǒng)都是由具有背景的各高校和研究所開發(fā)。它們在功能和形式上大同小異, 也有各自不同的軟件算法, 支持的文件類型也非常相近, 只是由于平臺名稱科技期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)論文相似性檢測系統(tǒng)維普—通達(dá)論文引用檢測系統(tǒng)ROST反剽竊系統(tǒng)
后臺核心數(shù)據(jù)庫的不同, 造成了最終檢測結(jié)果有所差別。因此一個學(xué)術(shù)論文不端行為檢測系統(tǒng)的強(qiáng)大與否根本在于其后臺比對數(shù)據(jù)庫是否收錄了以前所有公開發(fā)表的文獻(xiàn)。由于現(xiàn)在CNKI和萬方爭相采取和各個編輯部簽訂獨(dú)家合作的協(xié)議 , 如果某一編輯部簽訂這一協(xié)議之后, 就勢必造成另一數(shù)據(jù)庫該刊物的原始數(shù)據(jù)文獻(xiàn)缺失, 也就造成了現(xiàn)今國內(nèi)沒有一家數(shù)據(jù)庫是完整收錄所有刊物文獻(xiàn)數(shù)據(jù)的。由于數(shù)據(jù)庫文獻(xiàn)不全, 所以國內(nèi)任何一家開發(fā)單位的產(chǎn)品都不能說百分百保證被檢測的數(shù)據(jù)一定可以與以往所有公開發(fā)表的中文文獻(xiàn)數(shù)據(jù)進(jìn)行比對。所以各編輯部如果追求最全數(shù)據(jù)比對效果的話, 最好同時使用各個開發(fā)單位的產(chǎn)品。另外我們也同時呼吁國家政府管理部門出面叫停所謂的簽獨(dú)家協(xié)議的做法, 這樣做不僅僅造成的數(shù)據(jù)庫內(nèi)容不完整, 更是造成了社會資源的極大浪費(fèi)。