日前,一項發(fā)表在《圖書館學與學術(shù)交流雜志》上的針對700多萬份數(shù)字出版物的研究表明,超過200萬篇標有數(shù)字對象標識符(DOI)的學術(shù)論文未得到妥善歸檔和保存。盡管這項研究被認為存在一定局限性,但研究的相關(guān)分析結(jié)果仍然引起了文獻專家的關(guān)注與討論。
如今,學術(shù)論文的產(chǎn)出數(shù)量大、速度快。上述研究指出,在線保存論文的系統(tǒng)已經(jīng)無法滿足研究產(chǎn)出的增長速度。是否有必要對所有學術(shù)論文進行歸檔保存?學術(shù)論文歸檔保存面臨哪些機遇和挑戰(zhàn)?
交流共享是重要目的
上世紀八十年代前,紙質(zhì)化保存是學術(shù)論文歸檔保存的主流形式,主要以期刊為保存單元!凹堎|(zhì)化保存成本很高。購買紙質(zhì)期刊需要成本,存放期刊要占用巨大空間。”中國人民大學信息資源管理學院教授索傳軍說。
隨著數(shù)字技術(shù)水平提高,學術(shù)論文數(shù)字化保存逐漸成為主流,在保存單元上也打破期刊限制,將單篇學術(shù)論文作為基本保存單元。數(shù)字化保存使獲取學術(shù)論文的便捷性、開放性更高,保存成本更低,同時解決了存儲面積不足和期刊重復保存造成資源浪費等問題。
“現(xiàn)在有一些機構(gòu)采用混合存檔,對大多數(shù)學術(shù)論文進行數(shù)字化保存,對少量重要期刊和論文仍以紙質(zhì)化形式保存。國家科技圖書文獻中心(NSTL)采用的就是這種方式!彼鱾鬈娊榻B,此外,還有一些機構(gòu)對二次文獻或?qū)W術(shù)論文的元數(shù)據(jù)進行保存,或是只保存論文的摘要、關(guān)鍵詞等。
在探討對學術(shù)論文歸檔保存的必要性之前,需要明確保存論文的目的。索傳軍認為,學術(shù)論文是對科研結(jié)果的記錄,保存學術(shù)論文是為了讓后人能夠有效獲取并了解前人的研究成果,保持學術(shù)研究的傳承性和連貫性。同時,保存學術(shù)論文也是為了實現(xiàn)更大范圍的知識交流與共享,提高科研效率,節(jié)省研究資源和成本。
“在我看來,對所有學術(shù)論文進行歸檔保存,從理論上來說沒有必要。”索傳軍認為,一方面,根據(jù)文獻計量學中經(jīng)典的布拉德福定律,期刊是分層的,學術(shù)論文也是分層的。一些學術(shù)論文價值不高、創(chuàng)新性不強、研究結(jié)論過時,還有些論文甚至可能存在一定重復或錯誤。此類論文沒有必要進行保存。另一方面,依據(jù)信息生命周期理論,學術(shù)論文的學術(shù)價值也隨時間變化。大部分論文生命周期較短,很快就會因過時而失去參考價值。
從國內(nèi)外有關(guān)機構(gòu)的粗略統(tǒng)計分析結(jié)果看,60%以上的學術(shù)論文在發(fā)表后從未被訪問和獲取,即從未參與知識交流和共享。此外,由于每個人的時間和精力有限,論文保存得越多,人們有效獲取信息的效率就越低,知識交流共享的成本也就越高。
“學術(shù)論文是為了保存而保存,還是為了滿足當下國家重大科學技術(shù)和經(jīng)濟發(fā)展需求,以及科研人員對知識交流共享的實際需要而保存?這是一個本質(zhì)問題!彼鱾鬈娬f。
逐步縮小保存單元
數(shù)字化時代,學術(shù)論文歸檔保存工作的挑戰(zhàn)和機遇并存。“我國在算力、云存儲等方面的水平較高,因此技術(shù)問題并非最大挑戰(zhàn)。目前我們面臨的主要問題在于,如何選擇判斷需要歸檔保存的學術(shù)論文。這不僅缺乏較為統(tǒng)一的選擇判斷標準,而且也缺乏較為科學的評價方法。”索傳軍說。
直至目前,人們?nèi)灾饕罁?jù)學術(shù)期刊的影響因子大小判斷一本期刊及其刊載論文的重要性或?qū)W術(shù)價值。從客觀上看,期刊的影響因子并不能代表其刊載論文的學術(shù)價值,每種期刊刊載的每篇學術(shù)論文質(zhì)量和價值不同。
大多數(shù)情況下,人們并不需要閱讀一篇學術(shù)論文的完整文本,而是要借鑒和利用論文中有學術(shù)價值的內(nèi)容,這些內(nèi)容可以被稱為“知識元”。索傳軍認為,一篇學術(shù)論文本質(zhì)上是一組知識元的邏輯組合。論文最有創(chuàng)新價值的部分,就濃縮在這些知識元中。知識元才是人們真正需要的,也是真正需要歸檔保存的。
“數(shù)字化保存單元已經(jīng)從期刊變?yōu)檎撐,下一步能否打破對學術(shù)論文全文保存的限制,只保存論文的核心知識元?如果歸檔保存的單元是知識元,讀者直接獲取的也是知識元。我們歸檔保存對象的單元會更小,成本會更低,讀者獲取利用效率會更高!彼鱾鬈娬J為,學術(shù)論文中知識元的識別和提取是一大關(guān)鍵挑戰(zhàn)。這不僅是對相關(guān)技術(shù)的挑戰(zhàn),更是對學界和業(yè)界在保存學術(shù)論文的認識和觀念上的挑戰(zhàn)。
當前,國際上一些學術(shù)期刊雜志社(出版集團)已經(jīng)進行了小范圍嘗試。他們要求作者在投稿時提供論文所闡述的新觀點,即讓作者描述最具價值的創(chuàng)新知識元。在索傳軍看來,這種嘗試是有益的,但同時會存在主觀性偏強的問題。如有些作者為了發(fā)表文章拔高論文的創(chuàng)新性,或是因個人的認知水平不足而對創(chuàng)新性的描述過高。
索傳軍認為,當下數(shù)字技術(shù)的發(fā)展,要求學術(shù)論文的保存單元不再局限于期刊,“一刀切”的保存策略或許也應做出改變!拔覀儗W術(shù)論文的數(shù)字化保存,應該順應時代發(fā)展,逐步過渡到數(shù)據(jù)化保存階段。這需要將學術(shù)論文轉(zhuǎn)化成更精細的數(shù)據(jù),而不是機械性地把紙質(zhì)論文轉(zhuǎn)化成計算機上‘0’和‘1’的符號。”他說。
在首次全國數(shù)據(jù)工作會議上,國家數(shù)據(jù)局提出,探索建設(shè)國家級數(shù)據(jù)標注基地。索傳軍說,學術(shù)論文也是數(shù)據(jù)標注的對象之一。對學術(shù)論文內(nèi)容進行深入、細致、準確標注,可以較為精準地定位、獲取、利用知識元。
生成式人工智能和大語言模型等新技術(shù)的應用有望實現(xiàn)這一目標。“學術(shù)論文是針對研究問題開展的。如果能通過機器學習找到每篇學術(shù)論文的主要研究問題,就可以對此進行標注,進而使讀者能通過研究問題來檢索論文!彼鱾鬈娬f,這將是一個長期積累和發(fā)展的過程,必須循序漸進地構(gòu)建起不同領(lǐng)域、不同學科的標準和參照系,利用大語言模型和機器學習等技術(shù),經(jīng)過不斷優(yōu)化迭代,最終使標注結(jié)果達到科學準確。