应重视语言文学数据库建设与共享
2023-05-12 17:52:27
  • 0
  • 0
  • 0
  • 0

 

应重视语言文学数据库建设与共享 

金振邦 

 

        大数据是网络时代的全新媒介,正在全方位渗透进社会的各个领域,成为人们认知事物、解决现实问题的全新的理念、方法和路径。网络时代离开大数据,我们各项工作将寸步难行。尤其在高等教育领域,大数据正在拓展出全新学科视野。具有共享性质的数据库资源,对于我们的学习和实践,具有极其重要意义。这种全新传播媒介,正在引领世界发生翻天覆地的变化。

        一、何谓语言文学数据库

        数据库:第六媒介。数据库是指存储于特定介质上,一种比特化海量信息集合。数据库属于全新的第六媒介。传统传播媒介主要是指报刊、广播和影视。而网络是第四媒介,随后兴起的流媒体属于第五媒介,手机是典型代表。数据库人们称其为第六媒介。前三种属于传统原子媒介,后三种是比特化新媒介。六种媒介相互重叠、没有截然界线。数据库不仅改变信息传播方式,还将改变人们的生存方式,学习和研究方法。媒介本身就是内容,数据库集合了什么信息并不重要,而这种集合方式,就已包含着全新观念。

        J.Martin的定义是:数据库是存储在一起的相关数据集合,它们是结构化的,为多种应用服务;数据的存储独立于使用它的程序;对数据库插入新数据,修改和检索原有数据均能按一种公用和可控方式进行。哈佛大学加里-金认为:这是一种革命,庞大的新数据来源所带来的量化转变将在学术界、企业界和政界中迅速蔓延开来。没有哪个领域不会受到影响。舍恩伯格《大数据时代》认为:大数据信息风暴正在变革我们的生活、工作和思维,开启了重大的时代转型。它将放弃对因果关系的渴求,而取而代之关注相关关系。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流方式提出了全新挑战。大数据的核心就是预测,将为人类生活创造前所未有的可量化维度。它已成为了新发明和新服务的源泉。在各个领域中,决策行为将日益基于海量数据和分析结果,而并非依靠经验和直觉。

        我认为更重要的是,大数据新媒介彻底颠覆了传统思维模式,打开了俯瞰世界的认知窗户和浩瀚视野。它站在一个空前制高点上,来审视一个特定个体。传统思维路径总是从个别到一般、从点到面、从局部到宏观,而大数据思维则完全颠覆了这种传统思维方向和路径。它从一般去审视个别、从面去把握点、从宏观去了解局部,这就等于把大脑功能扩展到了网络世界所到之处,大脑简直就是全知全能、潜能无限。这种全新思维的巨大能量,已波及到了各个领域,正在大大加速社会的发展节奏,勾画出时代发展的光明前景。

        语言文学数据库。语言文学的范畴极其浩瀚,几乎没有边界。语言文字是一个民族的文化根基,决定了民族的思维方式和认知模式。而文学则是运用文字塑造形象的艺术,是民族文化的灵魂。语言文字几乎可以渗透到人文科学和自然科学的所有领域。语言文学的学科领域和辐射影响极为浩瀚,其意义价值不可估量。任何人都需要语言文学的滋养,它是我们认知世界、与人沟通的重要媒介。语言文学数据库也可以称作汉语言文学专业数据库,除了语言和文学的理论和作品之外,甚至涉及哲学宗教、文化历史、艺术形态、语文教育、新闻传播、音乐影视等。语言文学的视野是任何人必备的人文素养,是一个人的终身根基和底蕴,也是其灵魂所在。

        语言文学数据库是一个开放的、没有边界的、不断生长的、充满生命活力的大数据系统。目前建设的规模已经达到10T(10000G)容量,远期规模应达到50T以上。语言文学数据库的使用范围,几乎覆盖了所有人群。它的服务对象,不仅包括中文专业的学习、教学和研究人员,还包括广大的中小学语文教师,以及其他热爱中国语言和文学的相关人士,甚至包括爱好者。其使用者涉及文、理、工、商、农、医、法等各类从业者和热爱中国语言文学的业余爱好者。

        二、信息价值和传播功能

       多学科信息价值。网络时代我们所面临的任何问题,都难以运用单一学科知识来进行处理。因此多学科视野是从事任何每一领域挑战的重要基础。南洋理工大学蔡崇仁认为,“未来一切最好的,例如学校、公司和创意,都不会有人为的划分。未来的特点是打破所有界限,通过多学科研习或经验,促进互补增效作用。”“多元化的事业选择——最专业的领域除外——带来了一个很重要的趋势:一个学生如何修读所选择的科目,比科目本身来得重要。我的意思是说,重要的不是课程内容,而是一个学生在研读课程内容的过程中,最终所获得的核心技能。”它包括思路清晰的读写能力、对数字应付自如、善于利用信息科技和应变能力。网络时代的核心技能还能用一句话加以聚焦,即对信息的处理能力。这是任何一个接受高等教育学生所应具有的基本素质。语言文学数据库的多学科信息,是保证核心技能施展的基础和平台。

        跨时空传播功能。传统的原子传播媒介具有时间和空间特征,信息传播受到体积质量和时间流速的限制,从而决定了社会节奏的速度。而网络比特媒介只是一种状态,如0和1、里和外、上和下等,它把时空压缩为零,并超越了时空限制,信息可借助电子流动瞬间传播,大大加速了社会发展节奏。信息传播从来没有像今天那样如此地神速和快捷。手机传播功能的日新月异,是比特媒介巨大能量的象征。原子和比特媒介的特性,决定了传统社会和网络时代的本质差别。媒介的进步是社会发展的基本动力。现在各个领域的突飞猛进,都无法离开各种数据库的有力支撑。甚至可以说离开了数据库,我们都难以在这个现代化社会中生存。世界上巨大的信息流,我们可以轻而易举地把需要的数据,快速推送到电脑或手机界面。社会发展的快速节奏,常常让我们瞠目结舌、出人意料。我们甚至能把数据库移入电脑或上传云盘,随时随地调用需要的信息。信息的快速流动,给我们各个领域带来了勃勃生机和崭新面貌。

       三、框架结构和网络版权

       数据库框架结构。下面这张简略图表,可以大致展示出语言文学数据库信息的主要内容框架。如果需要,可以提供具体细目的超级链接。数据库的内容排列不是一种严格的逻辑分类,存在着一定的跨类和重叠,需要使用者各取所需、择取精华。我们只能采用硬盘拷贝设备的特殊技术手段来加以实现。  

        中文电子图书(161G)

        万圣书园(72G)

        仲媒电子书(10G)

        pdf电子书(1万本)   

        国家地理杂志(1.3T)   

        经典文集(250G)   

        摄影艺术(100G)   

        中文工具书(10G)   

        学习资源(20G)   

        中外文学(300G)   

        教学录像(100G)   

        照片资料(10G)   

        哲学宗教历史  (100G)   

        综合书库(200G)   

        中外电影(1T)   

        音乐歌曲(35G)   

        前沿信息(20G)   

        社科经典(300G)   

        新媒介艺术(10G)   

        游戏精粹(5G)   

        外国电视剧(1.5T)   

        视觉世界(110G)   

        语文教育 古诗词朗诵(80G)   

        经典视频(14G)   

        实用软件(26G)   

        Flash荟萃(9G)   

        BBC纪录片(1.8T)   

        国外大学开放课程(35G)

        办公自动化(25G)   

        写作与阅读(20G)   

        工具类资源(36G)   

        金振邦教学科研资料(2T) 

       数据库网络版权。关于数据库的版权,目前学术界还存在不同的观点,我们应更新理念,遵循世界上多数认可的网络版权规则。新媒介带来了全新的版权观念,对传统的纸质版权是一种冲击和颠覆。从传播学的视野来看,书籍、论文和文学作品的版权,与传播介质的特性息息相关。对于原子纸质媒介的信息,世界各国都有成熟的版权规则,其中很重要的一点就是出版者和读者都需要付费购买。然而比特媒介的信息可以无限制复制,其阅读、存储和复制是否还能沿用原子世界的传统版权呢?目前部分网站下载资料和全文阅读都要收费,这对作品原作者和读者都是极不公平的。那些已经失去版权保护年限的作品来说,网络上的使用应不会存在问题。而对新作品的网络刊登和阅读,作者常常存在不同看法。数据库信息的传播似乎面临同样的问题。我认为应提倡作家和学者无偿奉献自己的作品,它们在网络上的的广泛传播,其潜在价值和影响范围难以想象,必将远远超越传统纸质媒介,这是后者所望尘莫及的。

       如果个别作家或学者对于自己作品上网有异议的话,完全可以根据其要求撤下其作品。但他不能对大数据库的空间提供者或责任人发难。根据国际上互联网“避风港原则”,在发生著作权侵权案件时,网络服务提供商(ISP)只提供空间服务,并不制作网页内容,如果ISP被告知侵权,则有删除义务,否则就被视为侵权。如果侵权内容既不在ISP服务器上存储,又没有被告知哪些内容应删除,则ISP不承担侵权责任。后来这个原则也被应用在搜索引擎、网络存储、在线图书馆等方面。它具体包括两部分:“通知+移除”。但是,作为一个共享网络信息的作家和学者,他应该也有义务向网络无偿提供自己的作品和著作,而不是一味地从网络上获取。在网络上过分强调自己作品的版权利益,这种观念现在已经滞后于时代。

       四、无偿共享和媒介技术

       信息共享:网络新理念。创新、协调、绿色、开放、共享,是我们国家现代化建设的五大发展理念。而共享是其中之一,是网络时代的核心和基石。网络信息的免费、共享,是新媒介时代的必然趋势。这也是专业大数据库建设的基本原则和出发点。国内外大型专业数据库、博物馆、图书馆都纷纷免费开放、提供下载,就已经展示了共享理念的强大生命力。我在2008年11月刊登在东北师范大学校报上面的一篇文章,“信息获取权:衡量社会改革的重要尺度”,谈的就是信息共享问题。其中说到学术信息共享问题:过去教师进行教学和科研,学术资料的获取十分艰难。这项工作常受制于学校图书馆规模、期刊订阅数量,以及自己藏书多少。然而,随着网络媒介的延伸,专业信息的数量和体积,已不再成为衡量学术水平的尺度,教师的功能不再是单纯传播专业知识,而已转化为向学生提供教学咨询和治学方法。通过网络可以轻易搜索到所需要的专业资料。尤其是专业数据库这第六媒介的迅猛发展,人们大脑已延伸到世界上各个大学的图书馆和教学现场。不同层次的教育教学工作,开始提升到一个新的水平和层次。

       媒介技术:助力共享潮。语言文学数据库的建设目的,是为了能够让每一个需要这类数据的人士实现共享,即把需要的信息存储到使用者的移动硬盘上。而绝不是仅仅为一个单位或一个人进行传统方式拷贝。为此,不能采用传统硬盘USB接口来进行复制,这样操作劳民伤财、有较大风险。硬盘拷贝内容可参考数据地图的具体信息,依据使用者特定需求进行定制,或通过网络数据库进行新资源下载,来满足大家特定需要。有需求者,可以进一步给大家提供每一部分具体信息内容的超文本链接。需求者可加作者微信号13843080174。

       拷贝的目标硬盘,应是不带硬盘盒的裸盘。可以是2.5寸或3.5寸规格,但必须是SATA接口,而不能是IDE接口。它支持SATA接口,不支持IDE接口。

       硬盘拷贝的具体方法和步骤如下:从“语言文学大数据地图”中选择需要的1T-6T具体数据。有其他特殊需求的,则需要另行制作。拷贝者需要提供目标硬盘,它须等于或大于特定制作的数据母盘。目标硬盘的原有信息必须拷贝移除。硬盘拷贝时会对目标硬盘进行格式化。使用者如果需要1T以下的少量特定数据,可使用传统USB接口进行复制。1T以上的信息复制,则需要通过硬盘拷贝机来进行操作。我建议可以先进行2T或4T硬盘拷贝,以后再扩大至6T或8T容量的拷贝。运用硬盘拷贝机进行信息复制,一般经过学习和操作很容易上手,但数据的收集筛选和分类编辑具有一定的难度,它会涉及到数据库建设的理念、信息的分类和归类,以及对敏感资料的处理等。

 

                                                                                  2023年5月12日


 
最新文章
相关阅读