<delect id="sj01t"></delect>
  1. <em id="sj01t"><label id="sj01t"></label></em>
  2. <div id="sj01t"></div>
    1. <em id="sj01t"></em>

            <div id="sj01t"></div>
            文化畢業論文

            “互聯網+”時代的古籍數字化新思路

            時間:2024-04-19 10:28:25 賽賽 我要投稿
            • 相關推薦

            “互聯網+”時代的古籍數字化新思路

              人類社會已經進入一個大數據時代,人工智能是大數據時代最為重要的技術樣態,它對人類社會生活的方方面面正在產生深遠的影響,也勢必對包括古籍整理在內的國學研究工作提出許多新的問題。以下是小編整理的“互聯網+”時代的古籍數字化新思路,歡迎閱讀。

            “互聯網+”時代的古籍數字化新思路

              “互聯網+”時代的古籍數字化新思路

              問題一:大數據時代,人們應具有什么樣的大數據觀?

              在大數據時代,判斷一個人思維能力的重要標準之一是看他有沒有大數據觀。大數據觀實為一種新的世界觀。在大數據時代,首先應該轉變思維方式,由過去慣常的邏輯思維轉換為數據思維(當然,這并不意味著邏輯思維的失效,相反,它與演繹思維一起,仍是人類最基本的思維方法)。充分認識到人工智能是大數據時代最為重要的技術樣態。

              人工智能的發展不再是簡單模仿人腦的思維,而是通過算法革命,不斷提升大數據的收集和處理能力,從而形成類似于人類甚至部分超越人類的認知能力,挑戰人類的認知極限。人工智能的思維方式就是數據思維,大數據是人工智能的基礎。基于大數據收集和處理能力的人工智能,代表了一種思維方式的轉換,即從邏輯思維轉換為數據思維,確切地說就是從尋求因果關系的邏輯思維轉換為尋求萬物相關性的數據思維。在這里,萬物相關性也可表述為萬物互聯。

              從技術的角度講,說大數據是人工智能的基礎還不夠,還要加上另外一個要素:云計算。人工智能(AI)、大數據(Big Data)、云計算(Cloud)三者共同構成了一個“ABC新時代”。“ABC新時代”代表新的產業趨勢和技術革命,它是繼PC時代、移動互聯網時代后的又一波新的產業變革,標志著一個全新的時代已經來臨,其對人類社會生活的影響、滲透是深遠的。在古籍整理方面,傳統紙質文獻將會被完全數字化;在古籍研究方面,人們研究所依據的“底本”將是數字化的古籍文獻。紙本古籍依舊會長期存在,人們可能在“懷舊”的意義上對其保持一份“親切”或“敬意”。

              對于從事包括古籍整理在內的國學研究者來說,要從對傳統紙質文獻整理研究的手工操作轉向充分利用古籍數據庫的智能操作。因此,未來不懂得如何智能操作古籍數據庫的學者將會落伍,甚至被時代淘汰。就像當下的衣食住行消費,我們如果不會運用手機移動支付就會寸步難行一樣。

              問題二:大數據時代,古籍數據的量化尺度如何把握?

              人們常說,中國的古籍浩如煙海。從量的方面來說,1912年以前產生并留存下來的中國古籍總量有19萬種和20萬種等不同說法。李明杰指出:“據不完全統計,我國現存古籍仍有約19萬種,其中僅保存在公共圖書館系統的就有2750萬冊,可列入善本的約有250萬冊。”(《中華善本在當代中國的保護與傳播》,載光明網-文藝評論頻道2019-05-15)杜志強指出:“據《中國古籍總目》,我國古籍存世總量大約20萬種,可謂浩如煙海。其中,善本大約占其三分之一。”(《古籍善本價值重大,中華文明源遠流長》,載光明網-文藝評論頻道2019-06-04)我們就暫時以20萬種作為現存古籍的總量。當然,古籍總量在某種意義上是動態的,如新出土文獻、海內外新發現的漢文典籍等都可增加古籍的總量,不過,這類文獻的量都不會太大。

              如果從傳統的數據量化意識來看,20萬種古籍確實可以說“浩如煙海”,但是,在大數據時代,20萬種古籍又不能說是“浩如煙海”。在大數據視野下,它又可看作是“寥若晨星”,20萬種古籍被完全數字化的時間指日可待。美國谷歌公司有一個宏偉的野心,它想通過掃描把全世界的圖書數字化,建立一個包羅一切的數字圖書館。盡管遇到版權等方面的障礙,谷歌公司還是只用了9年時間就達到了一個驚人的數量,到2013年,“谷歌完成了3000多萬本書的數字化,相當于歷史上出版圖書總數的1/4”(【美】埃雷茲·艾登,【法】讓-巴蒂斯特·米歇爾著,王彤彤等譯,《可視化未來——數據透視下的人文大趨勢》,浙江人民出版社2015年版。下同)。相對于世界上3000萬種圖書來說,20萬種中國古籍可能只是“小菜一碟”。

              客觀地評估,中國古籍的數字化應該說已經取得長足的發展。其中國家圖書館的“中華古籍資源庫”是“中華古籍保護計劃”的重要成果,目前在線發布的古籍影像資源包括國家圖書館藏善本和普通古籍、法國國家圖書館藏敦煌遺書、天津圖書館藏普通古籍等,資源總量超過3.2萬部,可在國圖官網上直接瀏覽。另外,中華再造善本工程一期、二期都已完成,且制作了數據庫,提供全文瀏覽。唐宋編和金元編共影印善本古籍758種。清人陸心源“皕宋樓”以藏200種宋刻本引以為傲,今天我們足不出戶便可閱覽幾百種宋本。不過,如果對標谷歌公司,我們有待完成的工作量還很大。中國古籍整理與研究的當務之急,是整合海內外各種古籍數據庫,建立一個由國家和民間、高校和企業共同參與管理的包含全部20萬種古籍的“古籍數字圖書館”,以實現古籍整理與研究資源的全面共享。

              大數據時代正在重構新的文獻統計學或計量文獻學。如果能正確把握當下古籍量化的尺度,就不會產生古人經常發出的“望洋興嘆”的感慨,就能完成過去在人工統計時代不可能完成的各種古籍量化工作。

              數據思維的前提是數據。也就是說,古籍整理與研究的基礎不再僅僅是傳統意義上的資料或文獻,而是數據,各種大數據。所謂“大數據”,首先是一個“量級”的概念,大數據不是以個、十、百、千為量級,而是以百萬、千萬、上億為量級,單個研究者依靠手工是無法完成這些大數據的收集與處理的,必須依靠機器,依靠人工智能。不少信息的統計手段發生前所未有的變化,必須依靠高科技的技術手段來分析海量的信息。數據思維的數據規模特點,除了量級的變化,還意味著某種龐大數據集。正如《可視化未來——數據透視下的人文大趨勢》一書中指出的,我們面臨的第一個主要的挑戰是,“大數據和數據科學家們之前運用的數據在結構上差異很大”,“大數據是雜亂的數據集”。當我們收集并處理的古典文獻從具體的、單個的文本轉化為龐大而雜亂的數據集時,就必須運用尋求萬物相關性的人工智能的數據思維方式,而不是簡單地尋求線性的因果關系的邏輯思維方式。這一點將賦能包括古籍整理在內的國學研究以新的時代特征。

              問題三:大數據時代,如何構建古籍數據和古籍數據庫的目錄學?

              古典文獻學是一套包含有目錄學、版本學和校勘學等主干性知識的知識譜系,它們在大數據時代都面臨著知識結構和研究方式的轉型。其中,目錄學具有優先性地位。

              在大數據時代,我們需要構建新的古籍數據和古籍數據庫的目錄學。這種目錄學,首先要對古籍數據進行重新分類,我們依照的既不是《漢書·藝文志》那樣的七分法、《隋書·經籍志》那樣的四分法,也不是按照針對紙質文獻所流行的杜威分類法或中圖法分類體系,甚至也不是按照傳統的科學數據分類,如實驗數據與觀察數據之類的數據分類。

              如何進行古籍數據分類?分類方法可以有多種,從層次上可分為表層數據與深層數據;從價值上可分為有用數據與垃圾數據;從可靠性上可分為真實數據與虛假數據;從時間上可分為長期數據和短期數據,等等。

              上海寶藤生物醫藥公司董事長樓敬偉曾表示,在生物醫學數據方面,不關注淺層數據,如身高、體重、呼吸、心跳等,而關注基因組數據、蛋白質組數據、代謝組數據等深層數據,關注這些深層數據所反映的人體表征之間的數據關系,關注人體生物學的這些表征,和影像學存在什么關系。我們在意的是人體的腸道微生態,人體與社會環境的互動,掌握多緯度的數據。我們不能收集一堆垃圾數據,而要開辟智能醫療的試驗場。樓敬偉的說法,對于我們重新認識古籍數據的分類是有啟發性的。哪些東西是古籍數據中的表層數據,哪些是古籍數據中的深層數據;哪些是古籍數據中的長期數據,哪些是古籍數據中的短期數據,這些都是需要進一步思考的問題。

              至于古籍數據庫的分類,我們曾做過嘗試性工作。我和毛建軍博士主編的《漢語古籍電子文獻知見錄》(世界圖書出版公司2015年版),就是“從古典文獻學教學資源利用視野對這些電子文獻進行了科學分類與導航設計”。我們改變傳統書目以“經、史、子、集”及其下設各小類進行分類提要的標準,而以古籍電子文獻開發所在區域和機構個人設置一、二級目錄進行解題。一級目錄的安排次序為:中國大陸、中國臺灣、中國香港、中國澳門、國外(日本、韓國、美國、歐美、澳洲);二級目錄的安排次序為:圖書館、檔案館等古籍典藏機構、高校等研究機構、古籍數字化企業公司、個人等。其中,中國大陸有古籍電子文獻數據庫166種;中國臺灣有古籍電子文獻數據庫70種;中國香港有古籍電子文獻數據庫9種;中國澳門有古籍電子文獻數據庫兩種;國外地區有古籍電子文獻數據庫22種;合作開發的古籍電子文獻數據庫有6種。二級目錄里所列古籍電子文獻數據庫共計275種,每種都有展現其研究特色的數據庫名稱。

              另外,我們也試圖改變傳統書目對古典文獻的版本分類,將古籍電子文獻分為古籍書目數據庫、古漢語電子語料庫、古籍全文數據庫、數字圖書館、古籍電子出版平臺,等等。我們的嘗試一定還存在不少值得改進的地方,所收的古籍電子文獻數據庫遠沒有做到“大而全”,還有很大的增補空間。古籍數據庫的分類,自然還可以按現代學科體制來分,分為文、史、哲、政、經、法等,數據庫所收古籍文獻最好有標點。對于專業研究人員來說,好的古籍數據庫應具備兩大特點,一是全(搜集的數據越多越好),二是專(就是說,可按學科分類,也可按文體分類,還可按文獻主題分類,按文獻載體分類),且不需要標點(如果有標點,自然更好)。我本人也一直在準備《漢語古籍電子文獻知見錄》的修訂工作。

              在古籍整理與研究領域,除了基于大數據技術的目錄學外,還有基于大數據技術的版本學、校勘學、辨偽學、輯佚學、索引學等,它們都會包括許多與古典文獻學完全不同的知識結構,需要我們重新加以建構。

              問題四:大數據時代,我們應該培養什么樣的古籍整理與研究人才?

              大數據時代,我們迫切需要培養同時具有古典文獻學基礎、古籍數據庫開發和利用能力的高級人才或復合型人才。最近,清華大學人文學院劉石教授“基于大數據技術的古代文學經典文本分析與研究”課題組因研究需要,面向國內外招收博士生(直博生)或招聘博士后若干名。申請者的要求條件之一就是“應具有一定的計算機技術基礎,或者具有一定的數字人文研究經驗。入學或進站后,從事中國古代文學經典文本的數據分析與研究”。這種人才培養意識在國內學術界和高教界開了一個好頭。“基于大數據技術的古代文學經典文本分析與研究”以及“數字人文”均屬于人文社會科學研究的新興領域,它要求學生在古典文獻學、數據分析和認知哲學上都有一定基礎,而目前能將這幾方面專長結合起來的人才并不多。大數據時代會催生許多新的跨學科分支。

              事實上,在古籍整理與研究的數字化推廣領域,已經產生一些新型專家,比如“數字文獻學家”兼“數字文獻企業家”。現在清華大學人文學院已經在培養自己的“數字人文學家”,未來中國可能還會出現“古籍數據目錄學家”“古籍數據平臺設計師”“古籍數據統計師”“古籍數據分析師”“古漢語語料庫語言學家”“古籍數字出版家”,等等。對此,我們沒有理由不伸開雙臂歡迎他們。我們的高等教育機構與研究機構必須立即行動起來推進有關的跨學科人才的培養。作為學者個人,我們也必須對此進行充分的思想準備、知識儲備與技能訓練。

              古籍數字化研究現狀

              古籍又稱典籍、文獻,是指沒有采用現代印刷技術來印制的書籍。中華文明五千年從甲骨文、簡牘、卷軸再到線裝,留下了大量寶貴的古籍,作為中華文明文化延續的印證,古籍整理是非常重要的。

              古籍整理的傳統方法,是通過對古籍進行審校釋(審定、校勘、注釋)等加工整理后形成新版本,便于現代人進行閱讀。古籍整理的傳統方法主要依賴手工進行,有著操作過程繁雜、效率低的缺點,而且新版本仍然是書本形式,難以再次利用。在計算機技術出現后,古籍整理有了新的工具和方法,即古籍數字化技術。通過利用信息技術將古籍文獻進行加工和整理,并使其轉化為電子數據,可以通過光盤、網絡進行保存和傳播,有效解決了傳統古籍整理的缺點。

              中文古籍的數字化最早是二十世紀七十年代,從計算機技術發達的美國開始的。我國在引入相關技術后,產生了大批有價值的成果。國家圖書館的“古籍特藏文獻數字化計劃”,完成了“甲骨文”、“數字方志”、“碑砧菁華”、“敦煌遺珍”、“西夏碎金”、“永樂大典”等成果。

              互聯網+古籍數字化

              “互聯網+”實際上是互聯網發展新形態,通過互聯網的云計算技術和大數據技術,來組建一個知識社會,進而推動傳統產業發展。“互聯網+”所面臨的不光是互聯網移動,也不是僅僅應用于某一個傳統行業,在加入了云計算、大數據和知識后,從而造就了創新,進而改變了人們的生產、工作、生活方式。互聯網+古籍數字化工作就是“互聯網+”浪潮中的一個創新.

              1、用戶參與內容制造。與原有的古籍數字化單向信息發布的模式不同,新型古籍數字化平臺的內容通常是網絡用戶發布的,網絡用戶不僅僅是知識體系的瀏覽者同時也成為了知識體系的制造者,這也就意味著新型古籍數字化平臺為用戶提供了更多參與的機會。

              2、全方位交互性。以知識網絡為架構的新古籍數字化平臺,不僅實現了用戶在發布內容過程中與網絡服務器之間交互,而且也實現了同一網站不同用戶之間的交互,所發布內容之間的交互

              3、輕便訪問的網站。早期的古籍數字化成骨展示平臺是以局域網訪問為目的設計,即使是在進入全文檢索階段后實現了網絡化訪問,仍然是重系統輕內容的設計。

            【“互聯網+”時代的古籍數字化新思路】相關文章:

            10-08

            10-05

            10-26

            02-24

            03-25

            07-01

            10-11

            10-13

            10-08

            10-08

            <delect id="sj01t"></delect>
            1. <em id="sj01t"><label id="sj01t"></label></em>
            2. <div id="sj01t"></div>
              1. <em id="sj01t"></em>

                      <div id="sj01t"></div>
                      黄色视频在线观看