计量语言学
句法计量分析 豆瓣
作者: [德]莱因哈德·科勒 译者: 章红新 / 丛进 出版社: 商务印书馆 2019 - 3
本书阐释了构建符合科学哲学的语言学理论的主要思路,介绍了句法层面的定量概念与属性及其研究方法,在此基础上探讨了频率、复杂度、位置、深度、长度、信息量以及若干总藏之间等句法属性的关系,以及语言需求对于这些属性和关系的影响,从而建立了句法子系统协同模型。
本书将句法研究和计量语言学两个领域结合起来进行研究,用大量的事例说明计量模型和方法也可以应用到句法研究领域,为句法计量研究提供了新的思路,可供对句法或计量语言学感兴趣的研究者参阅。
2020年1月3日 已读
少数会从科学哲学引入的语言学领域,关注到这个领域学者重视Mario Bunge的系统了。自己以前对协同语言学的语言是一个自组织系统有误解,觉得过于偏重语言独立性,现在知道了原来它是用边界条件作为系统需求,而且分类已经比较细了。中间的篇幅相当于研究简报,研究都很统计学,取径则多用门策拉-阿尔特曼定律。借哥德尔配数函数方法做语言分形维度让人眼前一亮,风格学当如此,当然还提到词性的秩次也不错。开头吐槽二元论和集合论等影响下的“绝对静止观”确是20世纪语言学的大环境和缺陷,语料充裕领域从质性走向量化是必须的,觉得科勒基于其“定义清楚”做的动链单位是区别于旧的组合结构模式单位(如小句、短语)的计量好工具,其介绍的“跨范畴和谐”还有把配价看成非恒定特征(如补足语与附加语由计量属性替代)都是二元好解药。
Statistics Syntax Ynemlophics lib nobutdunbuy
Speech and Language Processing, 2nd Edition 豆瓣 Goodreads
10.0 (5 个评分) 作者: Daniel Jurafsky / James H. Martin 出版社: Prentice Hall 2008 - 5
This is the 2nd edition of "Speech and Language Processing, 2000" (http://www.douban.com/subject/1810715/).
An explosion of Web-based language techniques, merging of distinct fields, availability of phone-based dialogue systems, and much more make this an exciting time in speech and language processing. The first of its kind to thoroughly cover language technology – at all levels and with all modern technologies – this book takes an empirical approach to the subject, based on applying statistical and other machine-learning algorithms to large corporations. Builds each chapter around one or more worked examples demonstrating the main idea of the chapter, usingthe examples to illustrate the relative strengths and weaknesses of various approaches. Adds coverage of statistical sequence labeling, information extraction, question answering and summarization, advanced topics in speech recognition, speech synthesis. Revises coverage of language modeling, formal grammars, statistical parsing, machine translation, and dialog processing. A useful reference for professionals in any of the areas of speech and language processing.
计量语言学研究进展 豆瓣
作者: 刘海涛 出版社: 浙江大学出版社 2018 - 10
计量语言学是以真实语料为基础,用精确的方法来研究语言结构与发展规律的语言学分支学科。“精确、真实、动态”是计量语言学研究的三个主要特征。本书内容包括:对现代计量语言学基本定律与定律间协同关系的探索,采用语言定律来研究语体或文体的分类问题,采用复杂网络来对语言进行共时与历时的研究,采用计量语言学的方法研究语言规律背后的认知动因,认知约束与语言规律下的语言对比研究,语言能力发展的研究,等等。这些计量语言学研究实践说明,开展以汉语为主要研究对象的计量语言学研究,不但可以更精确地了解汉语的结构特征,而且也可以通过与其他语言的比较,更全面、更深入地理解汉语所具有的特殊性与普遍性,并有助于促进中国语言学的国际化与语言研究的科学化。
Computational Simulation in Evolutionary Linguistics 豆瓣
作者: Tao GONG (龔濤) 出版社: Taiwan: Academia Sinica 2009
本專著通過一個自行開發的多個體計算仿真模型來探索語言衍生中的一個關鍵問題,即語法能力是如何產生的。它是由天生的、人類所特有的能力決定的,還是從一些人與動物普遍具有的簡單能力中逐步適應發展而來的?該模型模擬了兩種語言普適特性(體現於詞彙上的合成性和體現於詞序上的規則性)的衍生過程,指出從整體語言向合成語言的轉化是一個詞彙與基本成分詞序共同演化的過程。該模型同時記錄了一個“自底向頂”的語法發展過程,即句子層面的(頂層的)詞序可通過複用詞項間的(底層的)局部詞序來得到。這些仿真結果表明語言的合成性和規則性,以及相關的語言能力可以從一些人與動物普遍具有的能力(如簡單的特徵提取和排序能力)中發展而來。
除了語言使用者的學習機制,本論文進一步討論了社群傳播,社會和語義結構對語言演化所施加的影響。首先,通過仿真幾種主要的社群傳播形式,本論文探討了“水平”傳播中的約定俗成效應對語言演化所起的作用。其次,通過記錄語言在幾種簡單社會結構中的產生與保持,本論文探討了受歡迎個體在語言演化中的作用,個體間對語言的理解與整個社會層次結構間的相互關係,以及社群間的交流對社群間語言趨同所起的作用。最後,通過模擬在不同語義結構下的語言保持,本論文指出不同的語義結構會對詞序產生影響,此因素可被用於解釋人類語言在基本詞序上的偏向性分佈。這些研究討論了自組織在語言演化中所起的作用,重新認識了社群傳播中的樽頸效應,並對其他研究社會結構對語言演化之影響的課題起了指導性作用。
计量语言学导论 豆瓣
作者: 刘海涛 出版社: 商务印书馆 2017 - 9
该书由国际计量语言学学会(International Quantitative Linguistics Association, IQLA)会刊《计量语言学学报》(Journal of Quantitative Linguistics)(SSCI、A&HCI收录期刊)副主编、国际计量语言学权威期刊《语言计量学》(Glottometrics)联合主编刘海涛教授主持编写,商务印书馆出版。
这本书是国家社会科学基金重大招标项目“现代汉语计量语言学研究”的结项成果之一,也是商务印书馆语言学教材书系中的第一本书。
中国的语言及方言的分类 豆瓣
作者: 邓晓华 / 王士元 出版社: 中华书局 2009 - 8
许多语言及方言的归属问题一直是备受争议的问题。传统的语言分类方法,凭经验作定性分析,却无法作语言之间亲缘距离关系程度的数量描述。因此相关结论的可信度均值得重新商榷。《中国的语言及方言的分类》的目的是根据计算语言学的原则,利用计算器手段以及分子人类学和词源统计法等先进方法,对汉藏语系的语言及方言的发生学关系做出科学的测定和分类。运用距离法和特征法来描述语言之间亲缘距离的程度,全面且系统地评价汉藏语系的语言及方言的亲缘关系,从而作出科学的分类。所使用的数理树图可以从整体上把握所有语言的相互关系,并可以发现一些有意义的理论问题,例如预测不同词的变化速度和替换方向以及计算出汉藏语系的语言及方言分裂的年代。《中国的语言及方言的分类》的意义在于建立起汉藏语系的语言及方言的分类的数学模型,建立基于语言遗传信息的系统树与基于生物遗传标记的系统树的亲缘距离以及地理分布距离的比较研究基础。这是运用计算语言学结合遗传学来处理中国语言信息的开创性研究。
《中国的语言及方言的分类》运用词源统计分析法及分子人类学方法对汉藏语系的语言及方言作出数理分类以及亲缘阐系程度的描述,并通过树枝长短来表示距离关系,显示汉藏语系的语言及方言的类簇和分级层次。同时计算出汉藏语系诸语言的时间深度,并分析其形成过程。
研究发现,一种语言中不同的词汇范畴具有不同的变化程度,即使是基本词汇的变化程度也不能假定为一种相同的值的理论。斯瓦迪士(Swadesh)的词表虽已成功适用于世界上上千种语言(“罗赛塔计划”Rosetta Project),但却无法用中国的语言来验证。本研究认为斯瓦迪士的100词可以用作汉藏语系的语言及方言分类的标准。《中国的语言及方言的分类》具有语言理论上的贡献。
从分类的结果看,更正了一些传统的错误分类,对解决学术界长期以来因传统分类引起的争论,提出了更科学的方法和结论:如畲语的归属;研究证明白语、羌语、土家语应当分别独立为一个语支;临高话分别跟黎语和壮语的亲缘关系最近,而传统的分类都认为临高话只跟壮语关系最近,而与黎语关系最远,临高话与黎语体现为不同语支之间的关系。
从语言进化树形图的结构变化,提出应当重新检讨传统的西方历史语言学的谱系分类的框架,即仅仅只在一个语言的平面上,人为地划分语族、语支、语言、方言,这种方法太过于简单,并已过时,体现不出语言的分屑和整体结构。从树图看,语支这一层次不是固定不变的,而是呈动态状态,并且是多层次的,即不止一个语支,树图的每个分离点都可等同于“语支”的位置。语言进化树形图能够改进传统的分类理论,更好地反映语言的分层和整体之间的相互关系。
我们采用每千年保留率的平均值的计算方法,不仅仅计算出每对语言的分离时间,而且计算出树图各个分离点的分离时间。我们的计算结果不同于许多语言学家已有的看法。其结论和考古学与人类学的最新研究成果一致。希望揭示东亚语言与民族演化进程的特殊性以及历史比较法的局限性。
《中国的语言及方言的分类》还认为南岛语族生活在以华南为中心的广大区域,约4000 B.P.开始分离,并经东南沿海或西南——中南半岛向台湾及南洋群岛扩散。
研究发现南方汉语方言具有“地域共同传统”,即一个地域内的许多不同的区域性文化,彼此之间的交往对于形成这个地域的共同特征具有很大作用。语言学主流研究中的“汉民族中心主义”理念已经过时。
传统的历史语言学主要依据由专家知识出发的系统化经验法则,重建“想象”中的古代语言,但无法直接验证。《中国的语言及方言的分类》的分类与传统分类相比较,虽然材料和方法不同,但分类的结果与传统分类大致相同,并能发现传统定性分类的缺陷。《中国的语言及方言的分类》的研究方法与传统语言学研究不同在于:这种方法可以用公式来推导,并可反复使用和验证。这对解决长期以来的学术界因为传统的分类而产生的争论,提供了一个数理分类的样品。而这种成功的范例的研究方法,可推广至更多的语言及方言的分类。
依存语法的理论与实践 豆瓣
作者: 刘海涛 出版社: 科学出版社 1991
《依存语法的理论与实践》的主要目的是,在充分了解前人有关依存关系、配价理论、依存形式化和依存句法分析方法的基础上,归纳出依存语法和配价理论的一般原理和方法,提出一套较完整的基于配价模式的依存语法分析框架,并用实验来证明这一框架的可行性。与此同时,我们也力图用《依存语法的理论与实践》提出的理论架构作为主线,将相关领域的主要研究成果串在一起,形成一部配价理论和依存语法研究的简史。
为了让国内读者更好地了解依存语法的一些基本思想和方法,《依存语法的理论与实践》在介绍其他学者的观点时,尽可能采用“引”而非“述”的方式,目的是为了更好地表现原义,减少误读率。在写作过程中,我们尽可能采用第一手的文献,所引外文资料一般均由作者自译。在计算语言学方法方面,《依存语法的理论与实践》对基于规则的方法和基于统计的方法都给予了足够的重视。理论求高、应用求实,是《依存语法的理论与实践》的基本方针。
2017年2月24日 已读
一本300多页的书内容那么丰富,横向纵向都有了。把配价和深度学习放一块,不知道会不会有好的效率。刘先生自己做的汉语的树库毕竟小,实践起来得更大的树库。不过现在机器翻译好像确实都基于统计,语言学家要加油实践和投入市场啊。
NLP 依存语法 句法分析 数理语言学 自然语言处理
Probabilistic Linguistics 豆瓣
作者: Bod, Rens (EDT)/ Hay, Jennifer (EDT)/ Jannedy, Stefanie (EDT) 出版社: The MIT Press 2003 - 4
For the past forty years, linguistics has been dominated by the idea that language is categorical and linguistic competence discrete. It has become increasingly clear, however, that many levels of representation, from phonemes to sentence structure, show probabilistic properties, as does the language faculty. Probabilistic linguistics conceptualizes categories as distributions and views knowledge of language not as a minimal set of categorical constraints but as a set of gradient rules that may be characterized by a statistical distribution. Whereas categorical approaches focus on the endpoints of distributions of linguistic phenomena, probabilistic approaches focus on the gradient middle ground. Probabilistic linguistics integrates all the progress made by linguistics thus far with a probabilistic perspective.This book presents a comprehensive introduction to probabilistic approaches to linguistic inquiry. It covers the application of probabilistic techniques to phonology, morphology, semantics, syntax, language acquisition, psycholinguistics, historical linguistics, and sociolinguistics. It also includes a tutorial on elementary probability theory and probabilistic grammars.