
/ Study in BUPT

首页 · 学在北邮 · 学术活动 · 正文

An Introduction to Automatic Summarization

主讲人 :Marina Litvak,Natalia Vanetik 地点 :教三-912 开始时间 : 2019-09-16 09:00 结束时间 : 2019-09-16 11:30


(1)HEvaS: Headline Evaluation System

Automatic headline generation is a sub-task of one-line summarization with many reported applications. Evaluation of systems generating headlines is a very challenging and undeveloped area. We introduce the Headline Evaluation and Analysis System (HEvAS) that performs automatic evaluation of systems in terms of a quality of the generated headlines. HEvAS provides two types of metrics–one which measures the informativeness/relevancy of a headline, and another that measures its readability. The results of evaluation can be compared to the results of baseline methods which are implemented in HEvAS. The system also performs the statistical analysis of the evaluation results and provides different charts visualizing the results.

(2)Extractive summarization with MDL

We describe an approach for extractive summarization based on the Minimum Description Length (MDL) principle and relying on the Krimp dataset compression algorithm. We represent text as a transactional dataset, with sentences as transactions and normalized words as items; then describing the dataset by frequent itemsets of different types that provide the best compressed representation. The summary is compiled from sentences that best describe the document. The problem of extractive summarization is therefore reduced to the maximal coverage problem, following the assumption that a summary that best describes the original text should cover most of the itemsets describing the document.

Included: system demo



Marina Litvak,1997 年获得俄罗斯 Birobidgan 州师范大学教育数学和信息学学士学位,2004 年获得以色列 Negev Ben Gurion 大学计算机科学硕士学位,2010 年获得以色列 Negev Ben Gurion 大学信息系统工程博士学位,现任以色列沙蒙工程学院(SCE)软件工程系高级讲师(相当于副教授),开设计算机图形学、数据挖掘、信息检索高级技术、Java 网络编程、程序语言基础等 7 门课程。在ACL、EMNLP、IJCNLP等多个国际会议和Transactions on Systems, Man, and Cybernetics 、Data & Knowledge Engineering Journal 等多个期刊杂志担任审稿人和组委会成员。Marina Litvak 的研究领域包括自动摘要、信息检索、文本挖掘、社交网络分析和推荐系统。正在承担的项目主要有:美国海军研究院项目“增强文本摘要”(项目经费 60 万美元)、以色列和欧洲研发部 ISERD 与 Corrigon Ltd 合作项目(项目经费 1223 万 NIS, 舍客勒)。获得和申请专利 2 项,发表了大量期刊文章、会议论文和书籍章节。


Natalia Vanetik,1995 年获得以色列 Negev Ben Gurion 大学数学与计算机科学学士学位,2002 年获得以色列 Negev Ben Gurion 大学计算机科学硕士学位,2009 年获得以色列 Negev Ben Gurion 大学计算机科学博士学位,曾获院长奖最佳硕士论文,现任以色列沙蒙工程学院(SCE)软件工程系的高级讲师(相当于副教授)/系主任,开设算法导论、逻辑和形式化方法、高级算法、数据库等 6 门课程。在多个国际会议和期刊杂志担任审稿人和组委会成员。研究领域包括文本挖掘、文本分析、数据挖掘、组合优化和生物数据挖掘。正在承担的项目主要有:以色列和希腊合作研究项目SentIMAGi 图像和文本分析”(项目经费 40 万 NIS, 舍客勒)、美国国防部海军研究院项目“多语言文本自动摘要”(项目经费 60 万美元)。申请专利 1 项,发表了大量期刊文章、会议论文和书籍章节。
