如果您参加过其中主持人节目的线追踪过去的几十年甚至几百年的单词或短语的普及,那么你有可能目睹计算分析文本或文本挖掘的水果谈话。越来越多的学者和科学家正在转向“谷歌NGRAM”浏览器,以帮助他们的观众清楚地看到在词汇和书面语篇的变化趋势。不是所有的人都知道,但是,它是如何,谷歌可以立即从文本的这样一个庞大的语料库产生这样的时尚视觉表现。

“数字人文”计算文本所占用分析一个突出的地方在实践,方法和问题的组合统称文本挖掘的从业人员从事,自文艺复兴定义最具有人文学术不变的追求:意的清晰度(或含义)嵌入在书面文字。

过去几个世纪里偶尔见到,旨在帮助学者们更多的文本和跟踪新的连续性或破裂其中的新技术。学者在十六世纪见证了本发明 “bookwheel” 一个笨重的玩意儿,他们能够更加周期从文本到文本赶紧用的齿轮和杠杆的帮助。但是从过去的没有什么可以远程进行比较,在21世纪,学者和科学家们提供了强大的工具时可以把计算机程序来帮助他们检查未在几十上百次,甚至数百万,数千或文本,但。

而一些可能之前在一个数量级的赞美计算文本分析为文本分析的革命性方法的出现从来没有,别人批评这些“遥远的阅读”的方法作为挑战的“细读”被认为是中央的传统对当代文学的人文和社会科学。有关程序,文本和核心计算文本分析方法的误解比比皆是辩论的两侧。在计算机辅助文本之前从事研究,或跳进这个辩论的方法,它了解的基础知识是非常重要的。

1.文本和源

他们是否意识到这一点,几乎所有的学者和今天的科学家,甚至是狂热的传统主义者,使用复杂的算法来咨询数字文本。毕竟,每一个谷歌搜索的一个作家或文章依赖于通过数字文本的语料库大量阅读进行排序,并召唤结果以最适合的输入的参数搜索功能。计算文本分析依赖于相同的基本组成部分:数字文本,计算机程序,和谁知道如何使用他们,即使他们并不一定了解他们的工作的研究人员。

大多数学者和科学家们使用数字文本完美的阅读和研究变得舒适。使用电脑阅读和分析的书籍学者tpically通过收集它们的来源,数字文本的语料库开始。有人想分析经典中的极少数可以简单地按下下载按钮访问几次为纯文本文件从喜欢网上资料库 古登堡计划。对较大规模的努力工作的研究人员,如 挖掘调度 项目的基础上,从内战时期的报纸,获取所有文本112000页的文章的分析,需要在计算机编程的一些知识;程序可以帮助从包含在在线数据库成千上万的文件,“刮”的数据。

这虽然可能看起来很平常,它马上进入关键假设第一步塑造最终可能的研究成果。例如,数字文本的学者和科学家通常力的计算分析依靠报纸和图书馆档案已经被数字化。这依赖会特权突出报纸和富裕库。伊恩·米利甘,滑铁卢大学的历史学家, 确认 这些问题的时候,他发现在咨询只有已经数字化的档案,在小型地区性出版物的费用两个全国性报纸加拿大历史的论文数量大幅上升。  

2.在“文字包”

虽然不常见到的计算文本分析的所有方法中,“词袋”假设underlies许多最突出的途径的。 ESTA直言不讳的描述捕获如何计划的计算机研究人员经常读的书作为一组单词分隔用空格,剥去任何逻辑顺序或意义的。

的“读书”这样一个平庸的方式乍看起来,确认数字人文的批评者的所有最可怕的警告,但允许极其强大的分析大集合的方法“词袋”。通过接近文本作为可算的话,计算机可以通过编程来量化,作者部署他们的著作,并将它们在规模比较超出了人类能在一生中完成了几个数量级的词​​汇。   

即使“字样的包装袋”并没有捕捉到什么是文学最复杂或升华,他们可以为我们如何描述语言,无论是正面的还是负面的,现代或古代,等等提供模式。例如,政治学家贾斯汀严峻和布兰登·斯图尔特 节目 如何研究员研究针对某个特定问题数千国会地板的演讲可能使单词列表共同的赞成和反对的立场,然后基于这些词语的出现频率分类演讲,从而节省他或她从读书演讲繁琐的任务和识别明显。这种定量方法的“情绪分析”仅仅表示一种“字袋”如何生成文本有趣的见解例子。

3.“监督”与“无监督”的方法

不是每一个“词袋”的方法限制所述研究者单一,预先确定的类别。政治学家研究楼的发言也许能够确定一个政策,这些方法不仅业主政治家的地位,但论点请或反对也有提供。第一个问题要求从“监督”的分类方法的答案,而第二个要求更可能是“无监督的办法。”  

简单的说,监督法允许研究者首先构造一个分类方案,然后群归类在基于它们所包含的单词的方案文本。无监督方法首先读取所有的文本,然后分类方案推荐哪些(S)可能适用。

一个重要但常被忽视的差异划分这些方法,他们可以回答的问题。在他的 批判 文本的计算分析,文学评论家斯坦利费什提供的这些方法片面的表征,声称“数字人文......首先你运行的数字,如果你看到,然后他们提示一种解释性的假说。”这说明仅适用于“无监督”的方法,然而,错过有监督方法,如情感分析的标志。

一个名为“主题建模”方法停留在无监督分类方法的最前沿。通过像开源特殊的计算机程序 ,研究人员可以产生在同一文本出现最频繁在一起的那些话组成的“主题”。在他的 挖掘调度 项目,历史学家罗伯特·尼尔森采用了话题的建模方法来确定发表在里士满派遣整个内战失控,从广告的数量。该程序读取超过十万的文章,产生了若干主题,使尼尔森能识别一个话题,相当于失控,从广告的基础上,种经常包含在该流派的话。该程序然后分配的所有文章,表示在每个“失控 - 从广告词语”的患病率,允许纳尔逊计数其紧密地配合该指定的所有文章的值。

虽然尼尔森知道他一直在寻找,他所采用的主题的建模方法可能已经揭开了用来描述逃亡奴隶和工会士兵,比如单词惊人的相似。主题建模制作,是由历史学家的预设unmarred物品的特征,但它仍然把他留在的位置来识别,根据他自己的期望,其中主题描述了他所要找的东西。所有方法,无论多么“无人监管”,最终依靠学者的监督。

4.超越“词袋”

,虽然该模型“词袋”比听起来更强大,它不是一台计算机可以读取文本的唯一途径。计算机和数据科学家和数学家开发的程序具有提供计算机有能力的读取超出词汇和捕捉到的句法关系结合的话,产生的意义。

计划如 斯坦福解析器,其中“解析”的句子到他们的语法部分,先后推出“自然语言处理”(NLP)来计算文本分析的快速发展领域的成果。研究人员在这些项目上的工作希望能更准确地模拟出带他们超越了阅读人的方式“字样的袋子。”这些方法,计算机可能会认识到,“生存还是毁灭”,是一个问题,而不是一个相当短话重复分类。

学者和科学家已经开始探讨语言是如何处理自然可以回答更复杂的研究问题。博士。大卫bamman,在信息十大线上网赌网站的学校教授和他的同事博士。华盛顿大学的诺亚·史密斯,最近 证明 程序如何,可以从网上评论部分计算解析政治声明可以让研究人员分离等声明“奥巴马是社会主义”或“全球变暖是一个威胁,”然后确定自己的党派隶属关系如何不同于“奥巴马总统”或“全球变暖是一个骗局。”

像bamman和史密斯的问题不能用“文字包”的方式来回答。一个评论者可能会张贴“全球变暖是一个骗局,但伊拉克是一个威胁,”而另一个可能会回应说:“伊拉克战争是一个骗局,全球气候变暖是威胁。”都使用几乎相同的话,但每次携带完全不同的政治影响。仅可以识别哪些用户形容为威胁和骗局研究人员可以判断每个问题的政治含义的方案。

5.在十大线上网赌网站的资源

通过所有的计算文本分析在期刊,会议和其他论坛已经产生了理论探讨,有时容易错过现实生活中的学者,科学家和团体谁依靠这些方法用于研究定期。研究人员在其职业生涯任何点都可以得知,使这项工作有可能的方案,并在像十大线上网赌网站的一个机构,他们需要不依赖于数字化社区,引导他们。

例如,任何有兴趣的话题建模诗,广泛收集或分析的数千条评论政治含义可以通过学习一些基础知识背后的主要计算机语言的计算文本分析项目,R和python的一个开始。该 d-LAB 在十大线上网赌网站提供免费 研讨会和课程如设计新人介绍,开始自己的项目所需要的方法“R数据科学”和“文本分析”。

计算文本分析是不是学习如何编写一些计算机代码,这就是为什么它可以帮助把社区在校园里像那样容易 计算文本分析工作组, 数字人文科学工作组 文献和数字人文工作组,它欢迎参加了正在进行的计算文本分析项目和方法,而且其方法的影响的讨论发言。

无论我们将计算文本分析,代表人文社会科学重点研究的最前沿,以奖学金的潜在威胁这种做法使这独特的,或两者的组合,有场地,校园讨论与同事的不乏其人。不管你今天熟悉的计算文本分析,十大线上网赌网站提供了机会,丰盈了解更多信息。 

 

照片来源: thinkbig项目. 美国大选2012叙事网络 - Nodes indicate noun phrases, links go from subject to object, color expresses relation of support or opposition. Appeared in: "Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015".

文章类型

  • 研究亮点