近年来,随着Internet 的迅猛发展以及人们利用信息技术生产和搜集数据能力的大幅度提高,大规模的网络文本库不断涌现。为了便于在海量文本库中搜寻、过滤、管理这些文本,基于人工智能技术的文本智能挖掘方法成为人们研究的焦点。
文本挖掘( Text Mining,TM),又称为文本数据挖掘 (Text Data Mining,TDM) 或文本知识发现 ( Knowledge Discovery in Texts , KDT) , 是指为了发现知识,从大规模文本库中抽取隐含的、以前未知的、潜在有用的模式的过程。
它的主要用途是从原本未经使用的文本中提取出未知的知识。但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学 、数据可视化 、数据库技术、机器学习以及数据挖掘等技术。
存储信息使用最多的是文本,所以文本挖掘被认为比数据挖掘具有更高的商业潜力. 当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘. 事实上,最近研究表明公司信息有80 %包含在文本文档中。
灵玖软件NLPIR大语义智能分析平台针对中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,先后历时十八年,服务了全球四十万家机构用户,是大时代语义智能分析的一大利器。
NLPIR大语义智能分析平台平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。
目前利用文本挖掘技术的多是一些信息收集机构,这是由于在信息行业中,文本信息都起着至关重要的作用,文本挖掘技术是采取任何技术的出发点,直接影响各工作流程的质量、效率、全面性和费用-效益比,并与最终产品息息相关。
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工 |