Compreender a Web semântica

Dezembro 2016


Compreender a Web semântica

A Web semântica, ou « linguagem natural » é o Santo Graal sobre o qual os pesquisadores ja trabalham depois de alguns anos.

Para um dos teóricos, Tim Berners-Lee, a idéia é a de fazer uma web inteligente, onde as informações não seriam somente estocadas, mas compreendidas pelos computadores, para trazer ao usuário aquilo que ele busca. A Web semântica permitirá, desta forma, tornar o conteúdo semântico da web interpretável pelo homem e também pela máquina.

A idéia é então de permitir uma busca inteligente na web, feita por computadores e baseada nas definições que eles possam compreender definições dadas pelo mundo inteiro. Fazendo uma solicitação em um motor propondo a busca em linguagem natural, você interroga como você fala, e ele transformará esta solicitação em linguagem compreensível e coerente para a máquina.

Do gigante catálogo que a web é atualmente, ela poderia se transformar em um guia inteligente, capaz de trazer respostas completas e imediatas a solicitações em linguagem natural, e de favorecer o desenvolvimento de novas formas de inteligência coletiva.



O princípio da web semântica


Idealmente, o sistema da web semântica deve ser capaz de dar uma resposta completa para uma pergunta tipo « Eu quero férias na Toscana, neste verão). Eu tenho um orçamento de 4 000 euros. E nós temos um filho de 8 anos ». Atualmente, responder a tais perguntas vai exigir a triagem em listas distintas de hotéis e de locação de carros.

Com a web semântica, a solicitação chamaria uma resposta coerente, meticulosamente reunida. O sistema trabalhará por você : ele classificará todos os comentários e encontrará, por dedução, o bom hotel.

Para tanto, a Web semântica repousa no modo de estocagem das definições, a linguagem descritiva RDF (Resource Definition Framework) desenvolvida por W3C (o organismo de standardização da Web), que vai permitir definir as estruturas (a definição da tag XML), e isto através de proposições ou « triplos » do tipo sujeito/verbo/complemento. Todo documento seja definido pelas ocorrências destes três dados. Por exemplo, uma definição do tipo « o filho da irmã de um indivíduo e seu sobrinho" será indispensável para buscar alguém em uma árvore genealógica. O XML é o suporte que organiza o documento. A cada baliza XML utilizada em uma página Web, corresponde um triplo no RDF.

Aliás, cada parte do triplo RDF possui um identificador chamado URI (Uniform Resource Identifier) que permite ao agente inteligente de detectá-lo. Os URL asseguram que os conceitos não são apenas palavras em um documento, mas eles são ligados à uma definição única que todo mundo pode encontrar na web.
Assim, poderemos realmente trabalhar em redes, en peer to peer, quer dizer de computador à computador, se as definições são partilhadas por todos.

Primeiros desenvolvimentos e usos


Vários programas foram lançados sobre o assunto. Assim, na França, o Instituto Nacional de Pesquisa em Ciência da Computação e Controle (INRIA) montou o programa [WebContent http://www.webcontent.fr], extendidos de 2006 a 2009, conduzido por Serge Abiteboul, em parceria com outras organizações de investigação, e as empresas EADS e Exalead. Trata-se de criar uma plataforma para gerenciamento de conteúdo, integrando tecnologias de Web Semântica que já existem. O projeto desenvolve um conjunto de serviços Web para estruturar, armazenar, analisar e compreender os dados codificados em XML. Isso permitirá que se faça a vigilância na Web, por exemplo, sobre os riscos microbiológicos e químicos nos alimentos.

Os primeiros usos da Web Semântica já estão distinguidos. Isto é particularmente promissor nos domínios verticais (comércio, viagens, habitação, emprego ...).

Por exemplo, no domínio do comércio eletrônico para um consumidor que quer comprar um carro, um agente inteligente vai procurar, no seu lugar, todos os carros que correspondem aos seus critérios, comparar preços, verificar o estoque, entrega e outros critérios, vasculhando nos documentos da Web descritos pelos padrões da Web Semântica.

Trulia


Trulia é um motor de pesquisa americano especializado no mercado imobiliário, criada por Pete Flint. Ingressou no serviço do Google Maps para localizar os imóveis indicado e bem localizados. O princípio: digitando um código postal ou o nome de uma cidade cidade, você tem uma lista de casas e um mapa do Google mostrando a sua localização. Na verdade, é um agregador de imóveis listados em outros sites. Mas ele não se contenta de apenas listá-los, ele proporciona um registro completo da propriedade em um formato padronizado, e oferece várias propriedades comparáveis exibida em fotos ou em um mapa do Google Maps.

Você pode filtrar os resultados por preço, número de quartos, área ... Os resultados também exibirão o preço médio de venda de casas no mesmo bairro, as últimas que foram vendidas , as escolas mais próximas...

Ao clicar no link de uma casa, você acessará a página detalhada com mais informações sobre a casa.



Os primeiros motores de busca em linguagem natural


A Web Semântica já está mudando a cara dos motores de busca. Assim, Yahoo anunciou em abril de 2008, que começaria a considerar alguns padrões da web semântica como RDF. Ele pode, desta forma, apresentar em seus resultados de busca elementos inéditos, porque daqui para a frente ele pode entender o significado do conteúdo indexado, e sobretudo interpretar as relações entre diferentes conteúdos.

Algumas start-ups já se lançaram neste nicho da Web semântica.

É bom saber


Se você quer testá-lo, a maior parte destes serviços estão ainda em fase de estudos, ou em versão beta : então você deverá solicitar um convite preenchendo um formulário para acessar o serviço, e ter o status privilegiado de beta-testador... E seguidamente, assim que sua solicitação for registrada, você entra na lista de espera !

Le moteur de True Knowledge


Lançado em novembro de 2007 por William Tunstall-Pedoe, o motor de busca semântica de True Knowledge Sociedade de Cambridge (Reino Unido), visa fornecer respostas relevantes para a pesquisa em linguagem natural. True Knowledge transforma a investigação em pesquisas de linguagem natural em conexão com o banco de dados, mas sem a indexação da Web: ele recupera dados de bancos de dados estruturados. Na verdade, procura desenvolver o seu próprio banco de dados, e importa dados a partir de fontes como a Wikipédia.

Para usar este motor de pesquisa, que ainda está em versão beta, é necessário preencher um formulário para requerer a abertura de uma conta (gratuita). Uma maneira de verificar a sua motivação: o formulário, bastante preciso, pergunta à você, por exemplo, de informar sua profissão, quais as razões que levaram você a desejar abrir uma conta True Knowledge, e se você já inscrito na Wikipédia, ou colaborou com outros sites de colaboração.


Em seguida, você receberá um e-mail de confirmação, onde você deve clicar no link para ativar sua conta. E então você recebe uma mensagem no site que você está na lista de espera
....

De acordo com os testes realizados por alguns usuários, por exemplo, entrando, por exemplo, a pergunta "Quem é Martin Luther King? "O motor de busca oferece uma pequena ficha do personagem, mas também de seu pai, que tinha o mesmo nome, e várias páginas de resultados, incluindo um link para a Wikipedia. Quando uma informação não for disponível, é proposto que você registre a informação, você mesmo, se você a conhece. De fato, os resultados são em parte "powered humano".


Além do aspecto da investigação, portanto, você vai encontrar uma parte sobre os contribuintes, em forma de tabela, que cataloga o número de fatos agregados, sua fiabilidade ... tudo isso complementado por um fórum, um blog e um wiki, um guia sobre a atividade recente, e as mais recentes adições no banco de dados.

Powerset


Criado por Barney Pell, start up foi lançada no início de 2007 a partir de um contrato de licenças e patentes com a Xerox, aproveitando, assim, dos trinta anos de pesquisa do Palo Alto Research Center (PARC) da Xerox. O motor beneficia, assim, da tecnologia da linguagem natural de Powerset que PARC desenvolve desde 2005, permitindo-lhe aceitar solicitações de usuários em sua linguagem cotidiana.

De fato, Powerset extrai e indexa conceitos, links, e significados ao invés de palavras. Inicialmente concentrou-se nas 3 milhões de páginas da Wikipédia.

Nisso também, somente os beta testadores puderam acessar o serviço em abril de 2008. Você deve, obrigatoriamente, criar um perfil durante o registro. Uma vez que seu perfil for criado, cada uma de suas ações no teste beta serão notificada.

Freebase


Lançada em março de 2007, a primeira realização de Metaweb, a empresa especializada em "máquinas inteligentes" de Danny Hillis e Robert Cook, pretende criar "uma base comum de conhecimentos, um banco de dados estruturado, pesquisável, organizados e modificados por uma comunidade de colaboradores "ou" um espaço público de dados "(data commons).

Freebase é um enorme banco de dados, que visa descentralizar o máximo de dados possível e permitir que os usuários adicionem outros dados livremente- os desenvolvedores podem extrair informações de Freebase usando um conjunto de APIs, e adicionar suas aplicações web. Freebase já aspirou os dados da Wikipedia e de outras fontes. Os clientes podem complementar a informação disponível e fornecer subsídios para uma melhor indexação. Eles acabarão por completar a "ontologia" (vocabulários estruturados para a descrição e classificação) proposta. Da mesma forma, se faltar um campo para associar informações
Em suma, trata-se de criar um Google Web Semântica, que lista informações organizadas, compreensíveis e utilizáveis tanto por máquinas como por seres humanos.

Este projeto de colaboração de conexão dos conhecimento da web, sob forma semântica, é distribuída sob uma Licença Creative Commons, com atribuição.

Twine, um gerenciador de informação semântica


Essa ferramenta online foi lançada em versão beta em 2008 pelo Nova Spivack, presidente da Radar Networks.

Em sua página "A respeito", "Twine se apresenta como" um serviço novo e inteligente que permite você compartilhar, organizar e encontrar suas informações com pessoas que você confia " .

Assim, ele permite reunir todo tipo de informação em um só lugar, como o seu correio, bookmarks, documentos, RSS feeds, contatos, endereços, fotos, vídeos, banco de dados diversos ... Como ele deduz sozinho a significação das informações que você adicionar, ele ajuda você a organizar tudo automaticamente.

De fato, uma vez Twine é conectado aos seus dados, ele os analisa e automaticamente os classifica de acordo com os conceitos discutidos, as pessoas, os lugares, as organizações e as sociedades que eles se relacionem, para propor uma pesquisa mais fácil. Twine tem elementos sociais que lhe dão acesso às informações coletadas pelos usuários que pertencem à sua rede social.
Ele respeita as normas da Web Semântica ", diz Nova Spivack, que faz com que seja compatível com outros aplicativos. A ferramenta utiliza uma combinação de algoritmos de linguagem natural para extrair automaticamente os conceitos-chave de um texto e transformá-los em tags.

Outros projetos, como Hakia ou BrainBoost exploram a busca em linguagem natural, sem esquecer . com AskJeeves http://www.gimpsy.com [Gimpsy], SemantiNet ...

O original deste dica pode ser acessado ["Tudo sobre web 2.0 aqui" (Capucine primo Coleção CommentCaMarche.net, Dunod , 2008)



Veja também

Artigo original publicado por . Tradução feita por ninha25. Última modificação: 2 de outubro de 2010 às 11:07 por ninha25.
Este documento, intitulado 'Compreender a Web semântica', está disponível sob a licença Creative Commons. Você pode copiar e/ou modificar o conteúdo desta página com base nas condições estipuladas pela licença. Não se esqueça de creditar o CCM (br.ccm.net) ao utilizar este artigo.