返回
顶部

WordStat 8—内容分析和文本挖掘软件

软件试用

软件简介


WordStat是一种灵活且易于使用的文本分析软件–无论您是需要文本挖掘工具来快速提取主题和趋势,还是需要使用最新的定量内容分析工具进行仔细而精确的测量。任何需要快速从大量文档中提取和分析信息的人都可以使用WordStat。我们的内容分析和文本挖掘软件可用于许多应用程序,例如开放式响应分析,商业智能,新闻报道的内容分析,欺诈检测等。

主要作用:

从许多来源导入
提取实体,关键字,短语,主题
使用最新主题建模探索内容
自动将内容分类
探索文本和数字之间的关系
使用交互式可视化工具


软件功能概述

使用文本挖掘来浏览文档内容

• 使用WordStat分析大量非结构化信息。该软件每分钟可处理2500万个单词,使用聚类,多维缩放,邻近图等功能快速提取主题并自动识别模式。


使用浏览器模式快速提取含义

• 使用资源管理器模式快速轻松地从大量文本数据中提取含义,特别是针对那些文本挖掘经验很少的人。只需单击一下,就可以提取文档中最常用的单词,短语和最突出的主题。


来自许多来源的进口

• 导入Word,Excel,HTML,XML,SPSS,Stata,NVivo,PDF和图像。连接并直接从社交媒体,电子邮件,网络调查平台和参考管理工具导入。


使用主题建模提取最显着的主题

• 使用基于单词,短语和相关单词(包括拼写错误)的最新自动主题提取功能,快速概览非常大型的文本集中最重要的主题。


探索连接

• 探索单词或概念之间的关系,并检索与特定连接关联的文本段。


与结构化数据相关的文本

• 探索非结构化文本与结构化数据(例如日期,数字或分类数据)之间的关系,以识别子组之间的时间趋势或差异,或使用统计和图形工具(对应分析,热图,气泡图等)。


使用字典分类您的文本数据

• 使用现有词典实现全文分析自动化,或使用单词,短语,邻近规则等创建您自己的分类模型。


为词典建筑获得独特的帮助

• 使用提取常用短语和技术术语并在文本集合中快速识别拼写错误,同义词,反义词和相关单词的工具,更快地构建词典。


使用机器学习分类您的文本数据

• 使用朴素贝叶斯和K最近邻来开发和优化自动文档分类模型。


一次单击即可返回源文件

•通过从几乎所有功能,图表或图形返回到文本来验证或深入分析。您可以使用“关键字检索”或“上下文中的关键字”功能来检索句子,段落或整个文档。这在建立分类法或消除词义歧义时特别有用。您还可以将QDA Miner代码附加到检索到的段。


执行定性编码

• 将 WordStat与最新的定性编码工具(QDA Miner)结合使用,以在需要时更精确地浏览数据或对特定文档或提取的文本段进行更深入的分析。


将非结构化文本转换为交互式地图(GIS映射)

• 将非结构化文本数据与地理信息相关联,并创建数据点,主题地图和热图的交互式图表,以及用于将位置名称,邮政编码和IP地址转换为纬度和经度的地理编码Web服务。


自动提取命名实体

• 自动提取命名的实体,可以使用简单的拖放操作将其添加到分类字典中。


出口结果

• 轻松将文本分析结果导出为常见的行业文件格式,例如Excel,SPSS,ASCII,HTML,XML,MS Word和图形(例如PNG,BMP和JPEG)。


使用PYTHON脚本转换文本

• 使用Python脚本及其全部开放源代码库预处理或转换文本文档,以便在WordStat中进行分析。


特征

借助WordStat,数据分析师可以从大量文档中快速提取有价值的文本分析结果,这些文档包括客户反馈,电子邮件,开放式回复,采访记录,事件报告,专利,法律文档,博客,网站等。这是WordStat的内容分析和文本挖掘功能的列表:

从许多来源导入

WordStat允许您从许多来源直接导入多语言内容:
• 导入文档: Word,PDF,HTML,PowerPoint,RTF,TXT,XPS,ePUB,ODT,WordPerfect。
• 导入数据文件: Excel,CSV,TSV,Access
• 从统计软件导入: Stata,SPSS
• 从社交媒体导入: Facebook,Twitter,Reddit,YouTube,RSS
• 从电子邮件导入: Outlook,Gmail,MBox
• 从网络调查中导入: Qualtrics,SurveyMonkey,SurveyGizmo,QuestionPro,Voxco,Triple-S
• 从参考管理工具中导入: Endnote,Mendeley,Zotero,RIS
• 导入图形: BMP,WMF,JPG,GIF,PNG。自动提取与这些图像相关的任何信息,例如地理位置,标题,描述,作者,评论等,并将其转换为变量
• 从XML数据库导入
• ODBC数据库连接可用。
• 从定性软件导入项目: NVivo,Atlas.ti,Qdpx文件
• 导入和分析多语言文档,包括从右到左的语言
• 监视特定的文件夹,并自动导入存储在此文件夹中的所有文档和图像,或监视对原始源文件或联机服务的更改。


整理数据

多种功能使您可以通过使分析过程简单明了的方式轻松组织数据:
快速分组,标记,排序,添加,删除文档或查找重复项。
使用“文档转换向导”手动或自动将变量分配给您的文档,即:日期,作者或人口统计数据,例如年龄,性别或位置。
轻松地对变量进行重新排序,添加,删除,编辑和重新编码。
根据变量值过滤大小写。


使用资源管理器模式快速提取含义

使用资源管理器模式可以快速,轻松地从大量文本数据中提取含义,这是专门为那些文本挖掘经验很少的人设计的。
使用主题建模工具,找出最常用的单词,短语并提取文档中最重要的主题。在任何时候,您都可以切换到专家模式,从而可以使用所有WordStat的功能。


使用文本挖掘浏览文档内容

在几秒钟内,探索大量非结构化数据的内容并提取有见地的信息:
提取最常用的单词,短语,表达方式。
在单词或短语上使用聚类或2D和3D多维缩放快速提取主题。
使用邻近图轻松识别与目标关键字同时出现的所有关键字。
使用链接分析功能探索单词或概念之间的关系。
通过应用关键字同时出现条件(在一个案例中,一个句子,一个段落,一个n个单词的窗口,一个用户定义的片段)以及聚类方法(一阶和二阶接近度,选择)来微调分析相似性指标)。 使用分层聚类,多维缩放,链接分析和邻近图来探索概念或文档之间的相似性。


使用主题建模来提取最突出的主题

通过将自然语言处理和统计分析(NNMF或因子分析)结合使用,不仅对单词而且对短语,都可以使用最新的自动主题提取功能,从大型文本集中快速浏览最重要的主题和相关单词(包括拼写错误)。
在层次聚类分析中,一个单词可能仅出现在一个聚类中,主题建模可能导致一个单词与多个主题相关联,这一特征更现实地表示了某些单词的多义性以及该单词的多个上下文单词用法。


探索联系

使用网络图探索单词或概念之间的联系。使用三种布局类型检测共现的基础模式和结构:多维缩放,基于力的图形和圆形布局。
图是交互式的,可用于探索关系并检索与特定连接关联的文本段。


使文本与结构化数据相关

探索非结构化文本与结构化数据之间的关系:
识别时间趋势,子组之间的差异,或使用统计和图形工具(偏差表,对应分析,热图,气泡图等)评估与等级或其他类别或数字数据的关系。
使用不同的关联度量来评估单词出现与名义或有序变量之间的关系:卡方,似然比,Tau-a,Tau-b,Tau-c,对称Somers'D,非对称Somers'Dxy和Dyx,Gamma,Person's R,斯皮尔曼的Rho。


使用字典对文本数据进行分类

使用现有词典实现全文分析自动化,或者创建您自己的单词和短语分类模型。
在字典中,可以实现布尔(AND,OR,NOT)和接近度规则(NEAR,AFTER,BEFORE)并使用正则表达式公式快速从文本数据中提取特定信息。
字典调节的词法修饰和词干支持多种语言,并且自动单词替换选项使您可以用目标关键字替换多个单词。用户定义的停用词列表可用多种语言提供,以避免不必要的常用词(例如他,她,它等)在分析中使用。


获得独特的词典构建帮助

通过提取常用短语和技术术语以及在文本集合中快速识别拼写错误和相关单词(同义词,反义词,全名,同义词,上位词,下位词)的工具,获得真正独特的计算机协助,以建立分类标准。


使用机器学习自动对文本数据进行分类

使用朴素贝叶斯和K-Nearest邻居开发和优化自动文档分类模型。用户可以选择多种验证方法:留一法,n折交叉验证,分割样本。实验模块可用于轻松比较预测模型和精细分类模型。
分类模型可以保存到磁盘中,并稍后在QDA Miner中的独立文档分类实用程序,命令行程序或编程库中应用。


一键返回原始文档

通过使用关键字检索或上下文中的关键字来检索句子,段落或整个文档,从几乎所有功能,图表或图形中返回文本,从而验证或深入分析。这在建立分类法或消除词义歧义时特别有用。
检索到的文本段可以按关键字或任何自变量排序。您可以将QDA Miner代码附加到检索到的段上,或以表格格式(Excel,CSV等)或文本报告(MS Word,RTF等)将其导出到磁盘。


执行定性编码

将WordStat与最新的定性编码工具(QDA Miner)结合使用,以便在需要时更精确地浏览数据或对特定文档或提取的文本段进行更深入的分析。


将非结构化文本转换为交互式地图(GIS映射)

将非结构化文本数据与地理信息相关联,并创建数据点,主题地图和热图的交互式图表,以及用于将位置名称,邮政编码和IP地址转换为纬度和经度的地理编码Web服务。


自动提取名称和拼写错误

自动提取命名实体(名称,技术术语,产品和公司名称),可以使用简单的拖放操作将其添加到分类字典中。
拼写错误和未知单词会自动提取出来,并与用户词典中的现有条目匹配,并且可以迅速添加到词典中。


汇出结果

将文本分析结果导出为常见的行业文件格式(例如Excel,SPSS,ASCII,HTML,XML,MS Word),流行的统计分析工具(例如SPSS和STATA)以及图形(例如PNG,BMP和JPEG)。


使用Python脚本转换文本

使用Python脚本及其全部开放源代码库来预处理或转换文本文档,以便在WordStat中进行分析。


软件新功能

WordStat 8具有新功能和选项,可以增加灵活性,并允许经验不足和专业用户使用该软件。
我们知道您正被越来越多的文本数据所淹没,并且正在寻找对其进行分析和分类的方法。您正在寻找工具来帮助您快速找到大量文本数据中的主题,上下文,重要概念和含义。我们知道,这对于专家数据科学家以及经验不足的研究人员和分析是而言都是一个挑战。我们希望在提高性能和精度的同时提高可用性和灵活性,可以用较少的经验在几秒钟内处理大量的非结构化数据,或者轻松构建您自己的广泛分类字典来执行概念的精确度量。


独立文本挖掘平台

学习新软件可能是一项艰巨的任务,特别是具有WordStat等许多功能的软件。以前,WordStat是QDA Miner的附加模块,这要求用户不仅要学习WordStat,还要学习QDA Miner的元素来设置他们的项目。WordStat是一个独立的产品。这减少了复杂性和学习曲线,因为洪湖现在可以直接在WordStat中创建他们的项目。但是,它仍可以作为QDA Miner , STATA或SimStat的内容分析附件运行。


您现在可以从不同来源在WordStat中创建项目:

• 文件:MS Word , RTF , PDF , HTML等
• 数据文件:Excel , CSA , Stata等
• 网络调查平台:SurveyMonkey , Qualtrics , SurveyGizmo等
• 参考管理工具:Endnote , Zotero , Mendeley
• 社交媒体服务:Twitter,Facebook,RSS Feeds,Youtube
• 电子邮件平台:Outlook ,Gmail,Hotmail,Mbox和EML格式等其他来源


新的探险者模式

实施了一种新的滋源管理模式,允许具有文本挖掘经验的用户快速轻松地从大量文本数据中崎岖含义。您可以使用WordStat 8的改进主体建模工具识别很长用的单词和短语,并在文档中提取突出的主体。您可以随时切换到专家模式,这样您就可以访问所有WordStat功能,包括分析词典,交叉表和贡献分析功能。


改进的主题建模

现有的主题建模例程授予众多改进,例如用于更快主题提取的附加提取算法(NNMF),以及创新的主题丰富过程。这种技术允许人们通过自动选择相关短语并提供其他表达,潜在异常以及拼写更正的建议,超越产痛主题建模典型的“词袋”解决方案。所有这些创新都应该能够更准确,更全面地衡量文本集中的显著主题。


新的和改进的图形显示

WordStat 8有几个新的图形显示,可帮助您更好地理解数据分析的结果。我们改进了交互式词云、圆环图和雷达图表。


偏差表

与其他变量相比,偏差表允许您查看或多或少使用的单词/短语。首先需要激活交叉表按钮才能看到图表。您可以右键单击以查找KIMC,删除并保存到制度分隔符,HTML或位图。


出口到TABLEAU软件的结果

只需单击一下,您还可以将结果导出到Tableau Software,以使用其高级交互式数据可视化工具。


改进的内容分析词典

已对分类词典部分进行了一些新功能和改进,以帮助您更准确地改进行文本搜做并获得更准确的结果。


改进的界面

改进的界面允许快速访问和比较结果,因此可以在几秒钟内提取有价值的见解
WordStat 7 WordStat 8界面对比图如下:


使用PYTHON脚本转换文本

为NLP数据科学家提供了使用Python脚本及其全系列开源库来预处理或转换文本文档以便在WordStat中进行分析的可能性。这一新功能增加了WordStat的灵活性,并允许用户使用它们的Python编程技能。


数字转换

新的数值转换对话框允许您从其他变量计算数值变量,至多包含50个转换函数,包括三角函数、统计函数、随机数函数。也可以使用IF - THEN - ELSE逻辑结构来执行条件变换。


BINNING

现在可以使用分箱功能将连续值转换为较少数量的不同类别。它可用于减少数值异常值,异常分布的影响,或将连续素质转换为序数变量。当数值变量中的不同数值的数量太多事,它对于创建标胶的图形显示特别有用。


EMNJIS的分析

Emojis已经在社交媒体、短信、电子邮件和其他电子通信普遍存在,并且通常用于表示对象,表达想法或情绪或者为书面消息添加细微差别。他们通常是信息的组成部分,很难被忽视。WordStat 8.0可以将表情符号转换为文本形式表达,允许您自己或作为整个消息的一部分来分析他们。


从WINDOWS EXPLORER中探索您的文档

新的文档资源管理器工具允许用户从Windows资源管理器快速浏览文档内容,而无需导入文档或创建项目。您只需选择要浏览的文档或包含它们的文件夹,右键单击并选择“浏览”以快速识别常用的单词和短语以及他们在的文档中的位置。通过简单的右键单击,您还可以使用有线的分类字典文档执行语义搜索,或使用WordStat中的预测魔心对文档进行分类。


WordStat for Stata

Stata的内容分析和文本挖掘工具

Stata是由StataCorp LLC创建的完整,集成的统计软件包。它提供了广泛的统计分析,数据管理和图形。最新版本的Stata添加了许多新功能,其中包括一个长字符串数据类型,该类型允许将其与数字和分类数据一起存储,最多记录20亿个字符。因此,可以创建一个包含期刊摘要,新闻记录,专利,事件报告,客户反馈,访谈等的统计数据库。
创建WordStat for Stata的目的是允许在Windows下运行的Stata 13和Stata 15用户将文本分析技术应用于存储在Stata数据文件中的任何字符串变量。WordStat结合了自然语言处理,内容分析和统计技术,可快速提取大量文本中的主题,模式和关系。它可以在几秒钟内处理数百万个单词,并将提取的主题与Stata文件中的任何其他数字,分类或日期变量进行比较。

它的作用是什么?

任何需要快速提取和分析Stata文本变量中存储的信息的人都可以使用WordStat。它可以用于:
• 直接从社交媒体,在线调查平台,参考管理工具导入文本和定量数据
• 开放式答复,访谈或焦点小组成绩单的内容分析
• 商业智能和竞争网站分析
• 从事件报告中提取信息和发现知识,客户投诉
• 新闻报道或科学文献(科学计量学或文献计量学研究)的内容分析
• 文档的自动标记和分类
• 欺诈检测,作者归属,专利分析
• 分类学开发和验证
• 等等(对于使用WordStat,请参阅研究页面)。


WordStat for Stata 的主要功能

• 探索性文本挖掘
集成的探索性文本挖掘和可视化工具(例如聚类,多维缩放,邻近图等),可快速提取主题并自动识别模式。

• 主题建模
快速概述大型文本集中最突出的主题。侧面面板允许使用条形图或折线图比较特定主题与其他变量之间的频率。

• 分类字典
使用现有的或创建由单词,单词模式,短语和接近规则组成的自定义词典。获得计算机协助,以通过短语和命名实体提取,拼写错误的替换词,集成词库等构建分类法。

• 对比分析
使用统计和图形工具(对应分析,热图,气泡图等)探索非结构化文本与结构化数据之间的关系。

• 链接分析
使用基于力的图,多维比例或圆图来探索单词或提取的概念之间的关系。检索与特定连接关联的文本段。

• 机器学习
通过使用朴素贝叶斯和K最近邻居来开发自动文档分类模型。然后可以将分类模型保存在磁盘上,然后将其重新应用于新数据。

• 充电中
使用交互式可视化工具(例如条形图,折线图,热图,词云,气泡图,MDS图等)来说明模式并探索复杂现象。将图表复制并粘贴或保存到bmp,jpg或png文件中格式。

• 文件转换向导
文档转换向导使您可以轻松地将其以各种文件格式(.DOC,HTML,PDF,TXT)存储的文档导入到新的Stata .dta文件中,并自动从结构化文档中提取数字和字母数字值。

系统需求

操作系统:Microsoft Windows XP , 2000 , Vista , Windows 7,8和10
内存:从256MB(XP)到1GB(Vista , Windows 7, 8和10)
磁盘空间:40MB


相关链接

  • Stata—数据统计分析软件包
  • MAXQDA—质性数据和混合方法分析软件
  • NVivo—质性分析软件
  • ATLAS.ti8—专业定性数据分析软件
  • Mplus—结构方程模型
  • smartPLS—偏最小二乘结构方程建模软件
  • LISREL—结构方程软件
  • HLM—分层线性模型分析软件
  • AUXAL—结构方程模型分析软件
  • BoundarySeer—空间分析模型软件
  • Nlogit—罗吉特模式软件包
  • SuperMix—混合效应模型分析软件
  • SigmaPlot—科学绘图软件
  • Scientific Workplace—科学论文排版软件
  • EndNote—参考书目软件
  • Stat/Transfer——统计数据格式转换软件

    北京友万信息科技有限公司,英文全称:Beijing Uone Info&Tech Co.,Ltd ( Uone-Tech )是中国大陆领先的教育和科学软件分销商,已在中国300多所高校建立了可靠的分销渠道。拥有最成功的教学资源和数据管理专家。如需申请软件采购及老版本更新升级请联系我们,咨询热线:010-56451129 ,咨询邮箱:info@uone-tech.cn 感谢您的支持与关注。