一级毛片免费不卡在线视频,国产日批视频免费在线观看,菠萝菠萝蜜在线视频免费视频,欧美日韩亚洲无线码在线观看,久久精品这里精品,国产成人综合手机在线播放,色噜噜狠狠狠综合曰曰曰,琪琪视频

萬維網(wǎng)時代的規(guī)范控制

時間:2023-04-30 23:39:28 資料 我要投稿
  • 相關推薦

萬維網(wǎng)時代的規(guī)范控制

作者:劉煒張春景夏翠娟

中國圖書館學報 2015年08期

1 傳統(tǒng)規(guī)范控制的困境

規(guī)范控制是因圖書館編目而發(fā)展起來的一項工作,是圖書館“書目控制”思想的具體實踐和重要內(nèi)容,有時也與“書目控制”概念混用,旨在保障書目系統(tǒng)中重要屬性描述的一致性,滿足準確查找、辨識、歸類和判定的要求。規(guī)范控制所涉及的書目屬性通常有:人名、機構名、會議名、連續(xù)出版物名、圖書題名以及主題詞等[1]。圖書館在長期的編目實踐中對規(guī)范控制逐漸形成了一整套規(guī)則和做法,并規(guī)定了用來提供規(guī)范控制依據(jù)的特殊的MARC數(shù)據(jù),稱為規(guī)范記錄,大量的規(guī)范記錄匯集在一起,稱為規(guī)范檔。高質量的規(guī)范控制通過對同名異形進行歸一,對異名同形進行區(qū)分,并對詞間關系進行導引指示,為高質量的書目系統(tǒng)提供了必要的保障。規(guī)范控制可以說是圖書館學對知識組織最為獨特的貢獻。

然而,長期以來,圖書館界對規(guī)范控制的認識基本上是工具、現(xiàn)象層面的,這種認識上的缺陷,正在成為規(guī)范控制利用最新信息技術,并應用到更廣泛相關領域的障礙。從業(yè)界對規(guī)范控制的定義中我們就可以感受到這種局限,例如以下定義。

規(guī)范控制是指圖書館編目或書目記錄中所使用的保持標目(個人或團體名稱、文獻或叢編題名和主題)一致性的程序。該程序將規(guī)范文檔應用于新增文獻并將其加入館藏[2]。

權威控制是通過使用權威詞表(稱為權威檔),對圖書館目錄中或書目記錄文件中標目的一致性(包括名稱、統(tǒng)一題名、連續(xù)出版物名和主題)進行維護,應用于新記錄加入館藏的過程[3]。

規(guī)范控制是為確保標目在檢索款目及書目系統(tǒng)中的唯一性和穩(wěn)定性而建立、維護、使用規(guī)范款目和規(guī)范文檔的工作過程[4]。

這些定義是圖書館界非常典型的認識,所描述的都是為達到檢索一致性的目的,在一定歷史條件和技術條件下,通過長期實踐總結出來的方法和手段,其中還沿用了MARC所代表的磁帶數(shù)據(jù)文件時代甚至卡片目錄時代的許多概念。這樣雖然也確實解釋了規(guī)范控制,但與具體的技術緊密結合起來,用具體做法代替了定義,沒有說明為什么,沒有抽象出規(guī)范控制的實質。

如果僅僅根據(jù)上述定義來認識規(guī)范控制,則規(guī)范控制就深深打上了MARC時代的烙印,越來越陷入人工處理高成本的泥潭中無法自拔。另外,在規(guī)范控制的效率、一致性效果以及影響面和影響范圍等方面不僅無法突圍,甚至難達初衷。尤其是,規(guī)范控制無法利用技術進步帶來的全面網(wǎng)絡化、智能化、社群化的優(yōu)勢,更無法應用到圖書情報之外的廣闊天地。傳統(tǒng)的規(guī)范控制不能隨當前信息技術進步取得相應進展,是規(guī)范控制面臨的最大困境。

那么,規(guī)范控制的本質是什么?如何在各種技術條件下(尤其是萬維網(wǎng)環(huán)境下)達到一定程度的一致性?規(guī)范控制的功能需求是什么?萬維網(wǎng)環(huán)境下是否還有可能進行規(guī)范控制?是否應該有一個“度”?這是本文將要探討的內(nèi)容。

2 規(guī)范控制的本質

規(guī)范控制的本質是實現(xiàn)基于概念的描述和匹配。解釋這個問題首先要從傳統(tǒng)目錄發(fā)揮功能的機制說起。

圖書館目錄是館藏的縮影和指代物,是讀者與館藏資源之間的橋梁。圖書館對館藏的有序組織主要體現(xiàn)在其目錄體系中。傳統(tǒng)圖書館把卡片目錄的功能發(fā)揮到極致,創(chuàng)造性地采用“標目”方式(即將該屬性置于端首)組織目錄體系(排序),這樣一套館藏可以有多套目錄與其對應,從而提供了針對不同屬性(著者、題名、主題、分類、機構、會議名、期刊名等)的不同檢索途徑,只需將這個屬性作為標目即可。清賬造冊是大多數(shù)涉及倉儲管理的行業(yè)都有的技術,然而只有圖書館的卡片目錄,以上述這種方式,突破了財產(chǎn)清單或查檢式目錄在排序、互見、多對多對應方面的局限,非常靈活,這成為圖書館行業(yè)獨有的創(chuàng)造。

所有的書目記錄都包含三個要素:標目(即檢索點)、書目描述和位置信息。檢索點引導讀者找到其所需要的書目記錄,書目描述信息讓讀者判斷是否是其所需要的資源,如果需要則位置信息提供了獲取方式。這是編目工作所需滿足的基本功能需求。

由此可見,“標目”是編目工作中最為重要的一項工作,直接關系到能否充分、準確揭示館藏,能否建立起不同館藏屬性標目之間的關聯(lián)關系等,也即關系到目錄系統(tǒng)的質量,是一項“技術活”。規(guī)范控制即是對標目的一致性進行規(guī)范工作的總稱,主要有兩方面的工作。①規(guī)范記錄(規(guī)范檔)的編制和維護工作。其中要詳細記錄異名同義、同形異義或概念名稱之間的關系等需要規(guī)范的信息,最好能與編目系統(tǒng)以及讀者查詢系統(tǒng)建立連接,才能更好地發(fā)揮規(guī)范數(shù)據(jù)在編目和查詢方面的功能。②編目人員應用規(guī)范檔確定正確標目形式的工作。原則上,理想狀態(tài)下,這樣做之后,應該能夠在圖書館的目錄體系中,或讀者檢索時,將同一個作者的作品歸并,將同一個作品的不同版本歸并,將同名的不同作者的作品區(qū)分開,將同一主題及其上下位主題歸并在一起,等等,其他屬性也以此類推,從而實現(xiàn)規(guī)范控制的“匯集、區(qū)分、導引”的基本功能。

情報檢索理論中有一個基本假設,就是任何語詞都是概念的表征。當人們看到狗這種動物時,在大腦中就建立起狗這個概念,然后通過“狗”這一文字符號進行表征,這時“狗”就成了概念的文字標簽,即規(guī)范詞,表示的是概念本身,而不再是一個自由詞。這樣就用規(guī)范的語詞或符號構造了一個概念空間,在其中所有的檢索都可以認為是概念檢索,即知識檢索。

規(guī)范控制實際上就是這個理論的一個應用。通過編目人員所編制的規(guī)范檔(記載了概念與概念表達——即語詞或符號——之間的關系)來建立規(guī)范的概念空間:相同的概念有相同的表達,不同的概念有不同的表達,關系密切的概念應該能夠用一定的表達明確地描述出它們的相關關系。傳統(tǒng)的規(guī)范控制方法希望通過一整套規(guī)則、方法和規(guī)范檔,建立一種人為的規(guī)范控制機制,應用于編目和檢索系統(tǒng)中。如圖1所示,當編目人員建立了人名規(guī)范檔之后,書目系統(tǒng)就會自動將魯迅、茅盾、巴金與他們的本名和其他眾多筆名聯(lián)系起來,這樣就能使讀者更準確、全面地檢索到想要的文獻。

圖1 規(guī)范控制的作用機制

3 傳統(tǒng)的規(guī)范控制為什么不可能成功?

圖書館幾乎自誕生之日起就以“搜羅并整序人類所有知識”為己任,這可以追溯到亞歷山大圖書館。圖書館人經(jīng)過長期的努力發(fā)現(xiàn),可以通過編制全球統(tǒng)一書目而達到掌握人類所有知識的目的。雖然只是目錄,但未必不能觀照某一歷史時期的全球知識,這是一個可行的權宜之計。這就是圖書館書目控制的理想。1950年,聯(lián)合國教科文組織和美國國會圖書館對書目控制的定義是:從書目的目的出發(fā),控制人類已出版的全部文獻[5]。

從各類編目規(guī)則對于編目對象“文獻類型”(GMD)的定義可以看出這個雄心:在以印刷資料為主要知識載體的工業(yè)化社會,圖書館的編目對象幾乎是所有的知識產(chǎn)品。GMD包括的內(nèi)容如表1所示。

書目控制有兩個層次的基本職能:了解世界上總共有多少知識產(chǎn)品;了解某個圖書館具體有哪些館藏,以及如何獲得這些館藏。前者是宏觀上的需求,圖書館的國際性聯(lián)盟組織(如國際圖聯(lián))長期致力于此,通過各種“書目控制”的行業(yè)規(guī)定和技術手段力圖實現(xiàn)這個目的;后者是微觀上的要求,各國國家圖書館或地區(qū)、行業(yè)、專業(yè)性的大型圖書館,對本國、本地區(qū)或本領域的圖書館負有責任,這是圖書館保存性職能的體現(xiàn),也是圖書館職業(yè)的基本要求。要實現(xiàn)書目控制,前提是要有統(tǒng)一的編目規(guī)則和數(shù)據(jù)格式(卡片也可以作為一種記錄格式),同時要有一套操作規(guī)程,規(guī)范控制就是實現(xiàn)書目控制的必要手段和方法的總稱,有時也被當做書目控制的同義詞。要實現(xiàn)規(guī)范控制,規(guī)則和規(guī)范檔是兩個必不可少的要素。長期以來,各級各類圖書機構對書目控制進行了大量的研究和實踐,嘗試了很多技術,制訂和維護了大量的原則標準和規(guī)則規(guī)范。

國際圖聯(lián)等各類國際組織和各國的國家圖書館數(shù)十年來在規(guī)范控制方面做出很大努力,投入了巨大的人力成本,數(shù)百萬條規(guī)范名稱和大量規(guī)范詞表對于書目信息的有序組織起到了重要作用,使得經(jīng)過圖書館編目的數(shù)據(jù)明顯比其他來源的數(shù)據(jù)更具可信度。

然而規(guī)范控制的美好理想,從來沒有不折不扣地實現(xiàn)過,人工進行規(guī)范控制的這種業(yè)務模式在信息社會已顯得不合時宜。這主要表現(xiàn)在世界范圍內(nèi)規(guī)范控制的標準遠未統(tǒng)一且各國參差不齊,規(guī)范控制的標目字段并未實現(xiàn)全覆蓋,規(guī)范數(shù)據(jù)的數(shù)量極其有限,質量差強人意,等等,規(guī)范控制應用的一致性程度和深度都沒有達到人們所期望的規(guī)模和水平。隨著信息爆炸和知識載體類型的復雜化,規(guī)范控制的成本越來越高,效果得不到體現(xiàn),性價比不高,全面實現(xiàn)規(guī)范控制的可能性越來越渺茫[7]。以至于美國國會圖書館在2007年末發(fā)布的《書目控制未來報告》中幾乎宣布要放棄承擔書目控制的責任[8]。

相對于圖書館的宏大夢想,圖書館所能支配和掌握的資源及武器少得可憐。這種反差一直伴隨圖書館成百上千年的歷史,直到今天。起源于卡片目錄時代的規(guī)范控制思想,大大超前于卡片目錄所能提供的技術手段,因為建立規(guī)范檔以及將其應用于編目和檢索的復雜過程,大都需要人工完成,而人是最不可靠的。由人來制訂規(guī)則、執(zhí)行流程、操控機器,不僅效率極低、成本巨大,而且根本無法保證一致性。在計算機技術突飛猛進發(fā)展的時代,規(guī)范控制方法還一味地模仿卡片目錄時代的做法,也成為其最大的桎梏。

可以總結的原因還有很多,如人們在當時的認識存在局限,編目原則和編目規(guī)則本身有瑕疵,各國由于語言和文化的差異造成編目實踐的特異,以及執(zhí)行中存在的大量細節(jié)無法詳細規(guī)定等。從總體上看,真正的原因其實只有一個:思想太超前,而技術尚不成熟,又低估了人為執(zhí)行規(guī)則并保證其一致性的難度。正是這個原因造成規(guī)范控制在MARC時代成為“不可能的任務”。卡片目錄時代,圖書館對于知識組織的領先優(yōu)勢,已經(jīng)成為其后來跟不上技術進步潮流的包袱和阻力。

總之,書目控制理論所提出的目標過于龐大和理想,以卡片目錄的管理為核心思想而發(fā)展起來的一整套信息描述和知識組織技術以及工作流程,遠不足以支撐規(guī)范控制理想的烏托邦。

4 新技術帶來新希望

根據(jù)摩爾定律,我們知道近半個多世紀以來,成本不變的情況下,計算機芯片的集成度一直呈指數(shù)增長,帶來計算速度、存儲能力和網(wǎng)絡帶寬的飛速發(fā)展,使我們正來到一個萬物互聯(lián)、“智慧”無所不在的嶄新時代的入口。這個時代帶給圖書館的,將是重新審視如何完成歷史賦予的各項職能。例如,當知識以脫離載體的多媒體形態(tài)四處游蕩時,圖書館該如何捕獲、處理、保存、組織和提供它,并傳之后代?

如同產(chǎn)業(yè)技術革命解放了人類的體力一樣,信息技術革命正在極大地拓展人類的腦力。計算機首先解放了人腦的記憶功能,其次讓人的交流不再只依靠文字這種經(jīng)過抽象的媒介,還可以通過視頻、音頻甚至觸覺、味覺(通過各類傳感器)等更加本源的方式進行。得益于各類手持設備、可穿戴電腦和物聯(lián)網(wǎng),將來以視頻等原始信息進行交流的方式將越來越大行其道。對圖書館而言,最大的變化是計算機已不僅僅能夠實現(xiàn)將圖書先掃描為圖片,圖片識別成文字,再對文字進行處理的模式,那樣只能進行字符匹配,實現(xiàn)全文檢索,而且可以以語義標注的方式直接對“知識”進行編碼,這樣就能進行知識處理和檢索了。這就是說計算機已經(jīng)能接管以往只有人類在大腦中才能建立的概念空間,開始以知識為編碼和處理對象,并輔之以邏輯計算,進而向真正的智慧化挺進了。

現(xiàn)在看起來上述預測似乎還很遙遠,但孕育著這一切的技術有些已經(jīng)蟄伏了近20年,對于互聯(lián)網(wǎng)技術而言,20年已經(jīng)跨代了。目前萬維網(wǎng)(World Wide Web)作為互聯(lián)網(wǎng)技術最成功的應用,已成為人類從事信息活動的壟斷性平臺,移動互聯(lián)網(wǎng)也是其基本協(xié)議的延伸應用,所有的新技術、新應用、新模式都必須“觸網(wǎng)”才可持續(xù)并被最多的人群了解。這其中包括以RDF和知識本體為代表的語義萬維網(wǎng)技術,以社會性網(wǎng)絡、群眾智能為代表的Web2.0技術,以及大數(shù)據(jù)、云計算、商業(yè)智能技術等。這些技術經(jīng)過學術界和產(chǎn)業(yè)界的不斷打磨,在軟硬件和網(wǎng)絡環(huán)境的合謀之下,現(xiàn)在終于到達了一個爆發(fā)臨界點。在這種背景下,前述規(guī)范控制所面臨的技術短板可望得到根本性的克服,MARC時代的不可能任務有望變成可能。

圖2 規(guī)范控制模型示意

綜上所述,傳統(tǒng)編目工作中的規(guī)范控制過程可抽象為從符號體系到概念體系的映射過程(見圖2)。書目系統(tǒng)的建立過程就是應用概念體系規(guī)范符號體系的過程,規(guī)范檔的建立則是把符號體系抽象為概念體系的過程[9],而讀者的檢索過程就是在后臺用概念體系匹配符號體系,然后把匹配結果提供給讀者的過程。只有將這一系列過程充分去除人工因素,實現(xiàn)流程化、自動化,才能保證高效、低成本和準確性,才能使規(guī)范控制可持續(xù)并得到拓展。萬維網(wǎng)協(xié)會(W3C)十多年來不斷完善語義萬維網(wǎng)架構和眾多的標準規(guī)范,尤其是用以表達語義的RDF模式和它們的擴展(如SKOS、OWL等),以及以RDF數(shù)據(jù)模型為基礎的“關聯(lián)數(shù)據(jù)”技術等,其目的正是構建概念化的知識空間,這與規(guī)范控制的功能需求有著完美的契合,如果我們能結合當前日漸成熟的社會性網(wǎng)絡,充分利用眾包和群眾智慧提供的信息自我完善機制,并把整個知識生產(chǎn)的流程納入元數(shù)據(jù)語義獲取和模型化的過程中來,規(guī)范控制的前景將一片光明。

5 關聯(lián)數(shù)據(jù)如何滿足規(guī)范控制的功能需求?

從20世紀90年代開始,國際圖聯(lián)為順應書目控制應用環(huán)境的變化,對圖書館書目數(shù)據(jù)的功能需求進行了重新審視,采用計算機領域流行的實體—屬性分析方法,提出了一個顛覆以往的概念模型,并先后推出了三個功能需求報告,分別是書目記錄的功能需求(FRBR)、規(guī)范數(shù)據(jù)的功能需求(FRAD)和主題規(guī)范數(shù)據(jù)的功能需求(FRSAD),后兩個報告直接針對規(guī)范控制。

實體—關系分析是構造模型的常用方法。計算機模擬現(xiàn)實世界必須首先建立模型,對同一事物,基于不同目的,可以用不同的觀察角度和方法得到不同的模型,也就能解釋不同的現(xiàn)象和因果關系。國際圖聯(lián)的這三個功能需求報告,都是圍繞著第一個FRBR報告中提出的書目數(shù)據(jù)模型展開的,該模型將與書目數(shù)據(jù)相關的實體分為三類,詳細分析了這些實體的相關屬性和關系。這三類實體分別是:第一類書目實體,有作品、內(nèi)容表達、載體表現(xiàn)和單件(WEMI)四種類型,第二類代理(agent)實體,有個人、家庭和團體三種,第三類為主題實體,包括概念、實物、事件、地點四個方面。報告提出書目記錄的功能需求(用戶任務)為查找(find)、辨識(identify)、選擇(select)和獲取(obtain),規(guī)范數(shù)據(jù)(authority data)的功能需求是查找(find)、辨識(identify)、提供情境(contextualize)和證明(justify),而主題規(guī)范記錄(subject authority data)的功能需求是查找(find)、辨識(identify)、選擇(select)和探索(explore)[10]。

國際圖聯(lián)的系列報告把圖書館書目控制帶入了一個新時代,從此人們看待目錄的方式與以往有了很大不同。FRBR在屬性揭示的基礎上納入立體化的實體—關系分析,厘清了許多書目屬性的隸屬關系,更接近真實世界,同時更易于采用最新的計算機及網(wǎng)絡技術進行模擬。這些功能需求報告所提出的理論很快被業(yè)界接受和采用,體現(xiàn)在許多標準規(guī)范中,如作為編目規(guī)則的RDA和作為MARC數(shù)據(jù)格式替代者的BIBFRAME(書目框架)等。雖然,能否借此成功將圖書館書目數(shù)據(jù)帶入網(wǎng)絡世界尚未可知,但已經(jīng)有了很多有益的嘗試,OCLC已經(jīng)將其WorldCat書目數(shù)據(jù)FRBR化,并開發(fā)了支持關聯(lián)數(shù)據(jù)服務的VIAF規(guī)范檔系統(tǒng)[11],美國國會圖書館也宣布將停用MARC并啟用BIBFRAME,并已把大量的規(guī)范詞表以關聯(lián)數(shù)據(jù)形式發(fā)布到網(wǎng)上[12]。

不論上述系列報告中所提出的具體功能需求是否精當,或者是否還應該包括更多的需求,其滿足需求的程度直接取決于規(guī)范控制的質量,具體來說,即檢索點選擇、名稱控制、規(guī)范記錄的豐富性以及參照引用是否充分及方便快捷等,而這些方面關聯(lián)數(shù)據(jù)技術提供了天然的解決方案,主要表現(xiàn)在四個方面。

(1)關聯(lián)數(shù)據(jù)技術提供了概念獨立于其表示形式的表達模型。可以URI標識概念,以標簽或名稱屬性表示各種語言或符號的表達,從而使“標目”問題得到完美解決,即不需要選擇任何一種優(yōu)先形式(如魯迅)作為標目,標目就是代表概念的URI,任何同義詞符號都可以作為顯示標簽而被檢索到,系統(tǒng)后臺直接進行同一性處理。當然,為了與傳統(tǒng)的規(guī)范記錄在格式上兼容,也可以保留首選詞(preferred name)。

(2)任何屬性都可以作為“檢索點”,也都可以進行規(guī)范控制。書目信息中的所有屬性特征,只要有需求,都可以作為“標目”或檢索點,提供規(guī)范的、基于概念的檢索。當然也可以不進行詞匯控制,采用一般的全文檢索、字符匹配的方式。

(3)規(guī)范記錄(規(guī)范檔)不再是含混不清的MARC格式,而是可以用清晰記錄語義關系的RDFS及其擴展(如SKOS、OWL)等編碼模式(schema)。例如,美國國會圖書館推出BIBFRAME,專設一種“規(guī)范數(shù)據(jù)”格式,就是以RDFS形式表達規(guī)范數(shù)據(jù),所涉及的概念術語及各種屬性關系、約束關系及取值范圍等,均能以機器可讀的方式代碼化,包括各類功能需求模型(如FRBR/FRAD/FRSAD等)所規(guī)定的各種關系。

(4)萬維網(wǎng)的全球一體化環(huán)境為分布式規(guī)范控制的自動更新和同步機制提供了很好的平臺。通過Web服務,各類參照關系可以跨域整合和自動服務,實現(xiàn)包括編目和檢索過程的各類功能需求。國際組織和各國的國家圖書館通力協(xié)作,還可以引入社會化眾包模式進行規(guī)范檔的更新糾錯維護,利用大數(shù)據(jù)分析進行自動的規(guī)范術語獲取和推薦等。這些都是MARC時代根本無法做到的。

只有這種依靠最新計算機網(wǎng)絡技術實現(xiàn)自動化的管理,才能將各類編目原則和具體規(guī)則(如RDA/AACR2等)代碼化、語義化,應用并融合到規(guī)范控制的整個過程中去,才有可能克服人工流程的各種不一致情況,實現(xiàn)規(guī)范控制的最大訴求。

6 萬維網(wǎng)規(guī)范控制

萬維網(wǎng)時代是一個信息嚴重過剩,而知識十分稀缺的時代,掌控人類所有知識的書目控制理想雖然越來越遙不可及,但也絕非應該被拋棄,反而更加彰顯價值,在科研、教育、生產(chǎn)等領域更應得到重視。

對于歷史上已經(jīng)出版的文獻,已有OCLC這類國際機構以及世界各國的國家圖書館實現(xiàn)了基本的書目控制。當前最大的任務,是將這些書目信息向萬維網(wǎng)遷移,使之成為人們隨時可用的參考,這就需要為書目數(shù)據(jù)制訂新的、適應互聯(lián)網(wǎng)時代的格式和交換標準。目前,OCLC針對WorldCat這一全球聯(lián)合的書目數(shù)據(jù)庫研發(fā)出符合Schema.org規(guī)范的書目數(shù)據(jù)擴展格式,能夠將書目信息以RDF形式嵌入到網(wǎng)頁中,從而能被搜索引擎所收割和識別。OCLC還聯(lián)合美國國會圖書館等機構,研發(fā)了規(guī)范檔的關聯(lián)數(shù)據(jù)服務虛擬國際規(guī)范檔(Virtual International Authority File,VIAF)。另外,美國國會圖書館也開發(fā)了符合關聯(lián)數(shù)據(jù)規(guī)范的BIBFRAME書目數(shù)據(jù)格式,其中規(guī)范數(shù)據(jù)是其四種數(shù)據(jù)類型之一。此外,還有大英圖書館、德國國家圖書館等一大批國家圖書館都將自己的國家書目發(fā)布成了關聯(lián)數(shù)據(jù)。這些新的數(shù)據(jù)規(guī)范一方面充分考慮與過去的MARC數(shù)據(jù)兼容,保證書目數(shù)據(jù)的語義內(nèi)容能夠遷移到新的系統(tǒng)中,另一方面也為未來的書目控制探索了可行的技術方案。

對于萬維網(wǎng)時代“原生”的“文獻”如何進行“書目控制”,除了國際圖聯(lián)的一些報告,或學者的論文之外,并無系統(tǒng)的研究。萬維網(wǎng)時代“文獻”的概念已發(fā)生了巨大變化,按照“文獻是記錄有知識的一切載體”[13]的經(jīng)典定義,它在數(shù)字時代可以以任何形式和媒體形態(tài)呈現(xiàn),其負載的內(nèi)容和載體可以完全分離,甚至“碎片”化、“數(shù)據(jù)”化了,它還可以同時呈現(xiàn)于用戶的任何終端設備上。“書目”的含義也隨之發(fā)生改變,可以是對任何知識單元的描述,并且不局限于圖書館行業(yè),至少包括博物館、美術館、檔案館等在內(nèi)的所有“記憶機構”都有類似的“書目控制”需求。

這些變化一方面使得“書目控制”的數(shù)量有了很大增長,內(nèi)容類型也大大超出以前的范圍;另一方面值得進行書目控制的內(nèi)容在知識總產(chǎn)出中所占的比重將會越來越小,大量的知識產(chǎn)出由于各種原因不需要或無法進行“控制”,圖書館的書目控制距離涵蓋所有知識載體類型的夢想將會越來越遠。不嚴格地說,搜索引擎才是目前互聯(lián)網(wǎng)信息的最大“控制”者,雖然目前它只具備少量的規(guī)范控制功能,但語義萬維網(wǎng)技術正在使搜索引擎能夠索引知識,谷歌的知識圖譜(Knowledge Graph)、Wolfram Alpha[14]等就預示著這個發(fā)展方向。

因此,未來的書目控制將只能存在于某些特定的、有規(guī)范控制需求的領域,例如科學研究、工程管理、社會運行、產(chǎn)業(yè)經(jīng)濟、教育媒體等,這些領域需要通過付出額外的人力和其他成本來獲取一定的有序性,要求越高,成本越大。類似化學文摘社(CAS)這樣的基于知識的規(guī)范控制,永遠是有需要的,只是它主要由人工來完成標引加工的業(yè)務模式會發(fā)生變化。將來大多數(shù)的元數(shù)據(jù)加工和規(guī)范控制工作應該無需專門的編目人員去做,規(guī)范信息將越來越多地能夠伴隨知識的生產(chǎn)、流轉等生命周期過程中,由軟件或系統(tǒng)自動生成和附加。

語義萬維網(wǎng)技術為萬維網(wǎng)時代的規(guī)范控制提供了原生的解決方案,但如何做卻主要不是技術問題,而是一個管理和決策問題,不同的應用領域有不同的需求,資源情況和業(yè)務流程也不一樣,因此也決定了不同的實施成本,這就帶來一個規(guī)范控制的“度”的問題,不是說越嚴格的規(guī)范控制就越好,科研成果和文學作品的要求肯定是不一樣的,雖然雙方都很關注責任者的標注,但在內(nèi)容揭示方面,對于前者顯然希望更準確地揭示(如前面列舉的化學文摘的例子),而對于后者,如果我們希望把文學作品里的雙關、反諷、隱喻、幽默以及話里有話也標注出來的話,顯然失去了欣賞的意義。

從技術的角度,Burners-Lee提出的關聯(lián)數(shù)據(jù)四原則和五星級標準[15]提供了規(guī)范控制嚴格程度的參考;從書目控制角度,規(guī)范檔的豐富程度也決定了規(guī)范控制的“高級”程度。然而,總體上萬維網(wǎng)環(huán)境下的規(guī)范控制只能追求合適,無法追求完美。評價是否合適主要是以能否滿足需求為標準,即在多大程度上滿足了規(guī)范控制在特定領域的功能需求,如前述國際圖聯(lián)功能需求研究報告中總結的查找、辨識、提供情境、證明、選擇和探索等,以及更多的本地需求。需要選擇哪些屬性做規(guī)范(即標目),以及是選擇控制詞表的方式進行嚴格規(guī)范,還是僅僅定義屬性元素的定義域和值域,以及數(shù)據(jù)類型或數(shù)據(jù)之間的關系,這些都可以由具體應用來決定。這些其實就是MARC規(guī)范檔中所記錄的內(nèi)容,一旦決定,都可以以RDFS方式進行形式化編碼,使機器可讀、可校驗甚至可解析參考。

7 一些實例

把書目數(shù)據(jù)的揭示和服務遷移到互聯(lián)網(wǎng)上,是近20年來圖書館界探索得最多的主題,其中以美國國會圖書館于2012年底推出的BIBFRAME書目框架格式草案和OCLC虛擬國際規(guī)范檔的嘗試最為著名,且影響深遠。然而僅多一種兼容過去的書目數(shù)據(jù)格式是沒有意義的。

(1)美國國會圖書館的BIBFRAME Authority規(guī)范數(shù)據(jù)格式

書目框架(BIBFRAME)是美國國會圖書館于2011年啟動的一項研究計劃,它的目的是開發(fā)一種“適應未來需求”的書目數(shù)據(jù)格式,即BIBFRAME,逐步取代MARC,使書目數(shù)據(jù)在萬維網(wǎng)上被方便地發(fā)布和共享。該格式應用了關聯(lián)數(shù)據(jù)技術,能夠對圖書館及相似機構的各類館藏資源進行描述和編碼,規(guī)范數(shù)據(jù)是BIBFRAME四種數(shù)據(jù)類型之一(其他三個分別是作品、實例和注釋)[16]。

書目框架定義的規(guī)范數(shù)據(jù)格式并非要取代其他的規(guī)范控制方法,而是作為一種容器,提供一個輕型的抽象層,使規(guī)范控制在萬維網(wǎng)環(huán)境下更加有效地發(fā)揮作用。它既要實現(xiàn)傳統(tǒng)規(guī)范控制對作品、實例及其相關的作者(人物及角色)、機構、主題、事件等要素的規(guī)范功能,兼容傳統(tǒng)的MARC規(guī)范檔數(shù)據(jù),又有許多新的網(wǎng)絡化特點,如支持向其他規(guī)范數(shù)據(jù)服務(例如VIAF或DBPedia)的外鏈、支持規(guī)范檔的編碼描述以及對數(shù)據(jù)的屬性取值提供自動的鏈接解析校驗等。BIBFRAME的規(guī)范控制定義了四個子類:代理(agent)、地點(place)、時間(temporal)和主題(topic),并對它們的編碼做出了具體規(guī)定(見圖3),MARC規(guī)范記錄中的屬性描述基本上都能轉換成書目框架的RDF陳述來表達。

圖3 BIBFRAME規(guī)范控制模型

(2)OCLC的虛擬國際規(guī)范檔(VIAF)

VIAF是美國國會圖書館(LoC)、德國國家圖書館(DNB)和OCLC于1998年發(fā)起的一個規(guī)范數(shù)據(jù)服務研究項目,2007年法國國家圖書館加入,2012年成為OCLC的一項服務。VIAF利用了關聯(lián)數(shù)據(jù)技術,將各國國家圖書館的規(guī)范名稱數(shù)據(jù)集成在一起,提供全球范圍的規(guī)范數(shù)據(jù)服務。至2014年7月,其成員已發(fā)展到29個國家34個機構,包含了來自30個國家的35個圖書館的數(shù)據(jù),還在不斷接收新的成員。

雖然分布式計算并不要求數(shù)據(jù)集中存儲,但VIAF這種將各成員館規(guī)范數(shù)據(jù)整合在一起的做法,無疑有利于項目實施和統(tǒng)一管理;ヂ(lián)網(wǎng)環(huán)境下非常需要規(guī)范數(shù)據(jù)的統(tǒng)一服務,這對于全球圖書館的數(shù)據(jù)加工,以及圖書館數(shù)據(jù)面向整個互聯(lián)網(wǎng)的開放存取都有巨大好處。OCLC作為一個圖書館的聯(lián)合體,其自身并無能力生產(chǎn)數(shù)據(jù),但是它可以通過前瞻性的研究開發(fā),將大家的數(shù)據(jù)整合起來提供更好的服務,WorldCat是這樣,VIAF也是這樣。

作為開放關聯(lián)數(shù)據(jù)的一員,VIAF已能集成其他關聯(lián)數(shù)據(jù)(如DBpedia、Wikidata等)作為規(guī)范數(shù)據(jù)(見圖4),而且其所規(guī)范的內(nèi)容也不僅僅是人名、機構名、地名、統(tǒng)一題名、主題等,還有許多其他名稱或概念(如虛構人物、動物、國王、主教、圣徒、天使、總統(tǒng)、城市、湖泊、山川等),它還考慮和采用了標準的名稱標識,如ISNI、ORCID等,將來的服務也不局限于圖書館領域。截至2014年6月,VIAF已有3516萬人名數(shù)據(jù),543萬機構數(shù)據(jù),388萬題名數(shù)據(jù)和42萬地名數(shù)據(jù)[17]。

康奈爾大學發(fā)起、多個研究機構參與的VIVO項目,看似一個科學家的社會性網(wǎng)絡,但實質上是科學家人名的規(guī)范控制,它不僅采用了科學家個人、研究機構和專業(yè)人員(如圖書館員)合作建立規(guī)范數(shù)據(jù)的模式,而且采用語義萬維網(wǎng)技術管理和發(fā)布數(shù)據(jù),以應用程序接口(API)方式提供規(guī)范數(shù)據(jù)的參考引用服務[18]。另外,近年來有一項由博物館界發(fā)起的“開放規(guī)范項目”(Open Authority)[19],嘗試匯集圖書館界與博物館、美術館等人類記憶機構的各類資源,利用社會性網(wǎng)絡,采用眾包的方式,共同開發(fā)規(guī)范控制服務。維基百科也在實施一個類似的Wikidata項目[20],采用維基百科的方式,將海量的各類事物、概念的名稱,以關聯(lián)數(shù)據(jù)的方式發(fā)布,并支持解析和引證。西班牙格拉納達大學(Universidad de Granad)基于Drupal開發(fā)的規(guī)范控制Authoris系統(tǒng)[21],支持MARC等格式或符合FRBR/FRAD模型的數(shù)據(jù)以關聯(lián)數(shù)據(jù)形式發(fā)布,并提供較為完善的編輯、引用和發(fā)布功能。

圖4 VIAF中魯迅的條目

8 結語

“在今天的環(huán)境下,書目控制不能再被看做局限于圖書館目錄。”

“書目控制未來將是合作的、去中心化的、國際范圍的、基于WEB的!

“單一環(huán)境(如圖書館目錄)中描述(著錄)的一致性,與各種環(huán)境間進行連接的能力相比,正變得不那么重要!盵22]

以上論斷來自美國國會圖書館2007年發(fā)布的《書目控制未來報告》,該報告預言了一個新時代的到來,雖然我們剛剛站在門口,但已看到巨大的機會和挑戰(zhàn)。上述基于萬維網(wǎng)的規(guī)范控制努力反映了一種發(fā)展趨勢,即傳統(tǒng)的圖書館知識組織和整序工作,在互聯(lián)網(wǎng)時代還是有價值的,圖書館行業(yè)數(shù)百年積累起來的書目控制經(jīng)驗,如果能充分利用好現(xiàn)代信息技術所提供的強大工具,不僅能實現(xiàn)過去沒有實現(xiàn)的理想,而且能在更大范圍內(nèi)發(fā)揚光大。

作者介紹:劉煒,上海圖書館副館長,研究員,E-mail:wliu@libnet.sh.cn;張春景,上海圖書館協(xié)調(diào)輔導處副研究員;夏翠娟,上海圖書館系統(tǒng)網(wǎng)絡中心研究開發(fā)部高級工程師,上海 200031

【萬維網(wǎng)時代的規(guī)范控制】相關文章:

網(wǎng)絡時代漢語借詞的規(guī)范05-02

螺釘車身制作控制規(guī)范及作業(yè)方法05-02

聯(lián)機編目環(huán)境下書目數(shù)據(jù)的規(guī)范與質量控制04-30

大科學時代對默頓規(guī)范的再認識04-27

規(guī)范采購成本管理在產(chǎn)品成本控制中的應用05-02

嚴格規(guī)范環(huán)境標志產(chǎn)品認證,從源頭控制裝修污染04-26

非規(guī)范生活垃圾填埋場填埋氣橫向遷移規(guī)律及控制04-25

內(nèi)部控制與制度控制04-27

H∞中的規(guī)范化LCF法在綜合控制系統(tǒng)設計中的應用05-01

《管理控制》[工作檢查與控制]05-02