INFORMATION explosion highlights the need for machines to better understand natural language texts. In this paper,we focus on short texts which refer to texts with limited contextext. Many applications, such as web search and microblogging services etc., need to handle a large number of short texts.  Obviously, a better
understanding of short texts will bring tremendous value. One of the most important tasks of text understanding is 
to discover hidden semantics from texts. Many efforts have been devoted to this field. For instance, named entity
recognition (NER) 1, 2 locates
named entities in a text and
classifies them into predefined categories such as persons, organizations, locations, etc. Topic models 3, 4 attempt to recognize
topics”, which are represented as probabilistic distributions on words, from a text. Entity
linking 5, 6, 7, 8
focuses on retrieving “explicit
topics” expressed as probabilistic distributions on an entire knowledge
base. However, categories, “latent topics”, as well as “explicit topics” still have a semantic gap
with humans’ mental world. As stated in Psychologist Gregory Murphy’s highly
acclaimed book 9, “concepts are the glue that holds
our mental world together”. Therefore, we define short text understanding as to detect concepts mentioned in a short text. Fig. 1 demonstrates
a typical  strategy for short text understanding which  consists of three steps: 1) text segmentation
– divide a short text into a collection of terms  contained in a vocabulary (e.g., “book dis- neyland hotel  california” is segmented as fbook  disneyland hotel 
californiag); 2) type  detection – determine the types  of terms  and  recognize instances (e.g., “disneyland”
and “california” are  recognized as 
instances, while  “book”  is a
verb and “hotel” a concept); 3) concept labeling – infer the con- cept of each instance (e.g., “disneyland” and “california” refer
to the  concept  theme  park  and  state  respectively). Overall,
three concepts are detected from short text “book Disneyland hotel California” using this strategy, namely theme park, hotel, and state in Fig. 1.

Written by

I'm Colleen!

Would you like to get a custom essay? How about receiving a customized one?

Check it out