Tecnologia
O YAKE! é um método simples e não supervisionado de extração automática de palavras-chave, baseado em recursos estatísticos de texto, extraídos de documentos únicos. O seu principal objetivo é selecionar as palavras-chave mais importantes de determinados textos. Este sistema não necessita de nenhum tipo de instruções prévias sobre determinados conjuntos de documentos, e não está dependente de dicionários, corpus, tamanho do texto, idioma ou tema abordado. Para demonstrar as vantagens e a relevância desta solução, foi efetuada uma comparação com outras 10 abordagens não supervisionadas de última geração (TF.IDF, KP-Miner, RAKE, TextRank, SingleRank, ExpandRank, TopicRank, TopicalPageRank, PositionRank e MultipartiteRank), bem como com um método supervisionado (KEA). Os resultados, provenientes de testes realizados com 20 conjuntos de dados mostram que estes métodos superam significativamente os métodos de última geração, tendo em conta um conjunto de textos com diferentes tamanhos, idiomas ou temas. Além da solução python aqui descrita, o projeto conta também com uma demonstração, uma API e uma aplicação móvel.
Para mais informação sobre o YAKE!, por favor clique aqui.
Principais Vantagens
Abordagem não supervisionada;
Independente de temas e idiomas;
Não requer corpus.
Benefícios
- Plug-and-play;
Reduz a carga de trabalho, mesmo perante um aumento significativo de informação, em complexidade e/ou em tamanho;
Suporta textos de diferentes tamanhos, idiomas e sobre temas distintos;
Adapta-se melhor a contextos onde o acesso a corpora é limitado ou restrito.
Licença
O código-fonte do YAKE! encontra-se disponível na página git do Laboratório de Inteligência Artificial e Apoio à Decisão – obedecendo aos termos da terceira versão da General Public License (GPLv3), publicada pela Free Software Foundation. Para obter uma licença comercial ou sem as limitações do contrato open source, por favor entre em contacto com o Serviço de Apoio ao Licenciamento do INESC TEC (info.sal@inesctec.pt).
-
Direitos Comerciais
Exclusivo -
Estado de desenvolvimento
-
Outras informações
Publicações
YAKE! Keyword extraction from single documents using multiple local features
A Text Feature Based Automatic Keyword Extraction Method for Single Documents
YAKE! Collection-independent Automatic Keyword Extractor
Prémio
-
Estado IPR
Direitos reservados -
Categorias industriais
Digital -
Tags
Natural Language Processing, Extração de palavras-chave, Language-Independent, Unsupervised Method