数据挖掘领头人韩家炜教授：如何从无结构文本到有用的知识？

时间:2019-11-08 作者: 来源:

现实世界中的大数据在很大程度上是非结构化的、互联的和动态的，且以自然语言文本的形式出现，将此类庞大的非结构化数据转换为有用的知识是一条必由之路。作者：camel 来源：雷锋网

数据挖掘领域的研究者来说，北京是一个关注的焦点，原因无他，作为数据挖掘三个领域，而ICDM则更为专注数据挖掘。

在两次会议中，数据挖掘领域的巨擘韩家炜教授将就其研究分别做主题为《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@CIKM2019)和《Embedding-Based Text Mining: A Frontier in Data Mining》(@ICDM2019)的报告。

现实世界中的大数据在很大程度上是非结构化的、互联的和动态的，且以自然语言文本的形式出现，将此类庞大的非结构化数据转换为有用的知识是一条必由之路。目前大家普遍采用劳动密集型的方法对数据进行打标签从而提取知识，这种方法短时来看可取，但却无法进行扩展，特别是许多企业的文本数据是高度动态且领域相关。

韩家炜教授认为，大量的文本数据本身就隐含了大量的隐模式、结构和知识，因此我们可以借助domain-independent 和 domain-dependent的知识库，来探索如何将海量数据从非结构化的数据转化为结构化的知识。

如下图所示，是韩家炜教授及其学生在过去以及未来研究的主线：

免责声明：本网站部分文章和信息来源于互联网，本网转载出于传递更多信息和学习之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请立即联系管理员，我们会予以更改或删除相关文章，保证您的权利。对使用本网站信息和服务所引起的后果，本网站不作任何承诺。