|
九九信用 大象金服北京科技有限公司
联系人:张 先生 (CEO) |
|
电 话:010-62648216 |
|
手 机: |
|
|
|
|
|
供应NLPIR:中文分词是大数据挖掘的基础新途径 |
伴随着计算机的日益普及,互联网的迅猛发展,文本的数量(电子邮件、新闻、网页、科技论文等)在不停的增长,因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下,自然语言处理技术的地位和作用日益重要。经过几十年的研究,计算机 处理自然语言的理论基础日趋成熟,应用范围也越来越广,初步形成了面向各种不同应用和研究的技术体系。分词作为自然语言处理的第 一个步骤,是其他高层应用的基础,起着极其重要的作用。
NLPIR大数据语义智能分析平台十三大功能:
精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。
文档转化:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息转化,效率达到大数据处理的要求。
新词发现:从文本中挖掘出新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。
批量分词:对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。
文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
文本分类:根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。
摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。
智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。
情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。
文档去重:快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
全文检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法 |
|
|