terça-feira, 6 de janeiro de 2015

ETAPAS NA CONSTRUÇÃO DE BASES DE CONHECIMENTO 3 ( final)

Representação do Conhecimento
Embora modelos conceituais possam ser criados para diferentes finalidades, o
processamento por computador requer que o conhecimento seja descrito em uma
representação formal, ou seja, uma representação não-ambígua e processável por
computador. Para isso, existem as linguagens de representação de conhecimento.
Elas disponibilizam primitivas de representação que buscam capturar e estruturar
conceitos de um determinado domínio, ao mesmo tempo em que retém a sua
representatividade semântica.
As principais linguagens de representação de conhecimento são baseadas em
dois paradigmas dominantes. O paradigma de frames, proposto originalmente por
Marvin Minsky (Minsky, 1975; Brachman e Levesque, 2004) se assemelha em parte
à modelagem orientada a objetos. Nesse paradigma, as entidades do domínio são
representadas na forma de conceitos, propriedades, restrições e instâncias, além de
incluir conceitos como herança e demons sobre propriedades. Já no paradigma de
Lógica de Descrição (DL, do inglês Description Logics) (Baader, Calvanese et al.,
2004), o conhecimento é capturado e formalizado como axiomas lógicos, onde
conceitos são representados por suas propriedades necessárias e suficientes. Em
geral, DL é mais flexível, pois permite combinar conceitos em construções mais
sofisticadas e de maior valor semântico. Uma das principais características da DL são
as suas propriedades computacionais (completude, complexidade, computabilidade)
já bastante exploradas e delimitadas pela literatura científica. Linguagens baseadas
no paradigma DL exploram essas características a fim de apresentar um arcabouço
de modelagem e inferência mais consistente e robusto.
Entre a década de 80 e o início da década de 90 diversas linguagens de
representação foram desenvolvidas tendo como base os paradigmas de frames e DL.
As linguagens CycL (Lenat e Guha, 1990), Ontolingua (Farquhar, Fikes et al., 1997)
e FLogic (Kifer, Lausen et al., 1995) se basearam em uma combinação de frames
com lógica de primeira ordem. Já as linguagens LOOM (Macgregor, 1991)e KL-
Int. J. Knowl. Eng. Manage., ISSN 2316-6517, Florianópolis, v. 2, n. 2, p. 1-35, mar./maio, 2013. 19ONE (Brachman e Schmolze, 1985) utilizavam o paradigma de DL. Embora essas
linguagens atendessem o problema de representação semântica, a sintaxe ainda era
um desafio. Por exemplo, sistemas de conhecimento de maior porte eventualmente
exigiam que se acoplassem subsistemas usando modelos formalizados em linguagens
distintas. O desafio de integrar bases de conhecimento heterogêneas levou ao
desenvolvimento de iniciativas como o protocolo OKBC (K.Chaudhri, Farquhar et
al., 1998). O protocolo OKBC (do inglês, Open Knowledge Base Connectivity)
buscava fornecer um meio eficiente de integração de bases de conhecimento
heterogêneas buscando a integração sintática e semântica dos seus formalismos de
representação. Por exemplo, as linguagens LOOM, CycL e Ontolingua eram
compatíveis com o protocolo OKBC (Gómez-Perez, 2003).
Juntamente com o surgimento da Web surgiram também as linguagens de
marcação, como HTML (Raggett, Hors et al., 1999) e XML (Bray, J. Paoli et al.,
2006). Essas linguagens representavam uma padronização na sintaxe para
representação de informações através dos diversos repositórios de dados existentes
na rede. Por outro lado, a linguagem e a marcação careciam de uma representação
que agregasse semântica aos dados. Essa necessidade deu origem ao conceito de Web
Semântica (Berners-Lee, Hendler et al., 2001) e à segunda geração de linguagens
para representação de conhecimento. Essas linguagens foram definidas com base em
sintaxes padrão (predominantemente XML) e, por isso, resolviam em grande parte o
problema de integração existente nas linguagens de primeira geração. A primeira das
novas linguagens a ter um maior destaque foi o RDF (Beckett, 2004), introduzido
pela W3C (World Wide Web Consortium) em 1999. O RDF é equivalente ao
paradigma de redes semânticas, o que lhe garante bastante flexibilidade de
representação. Em 2002, a W3C propôs a uma extensão de RDF que abarcava
também primitivas do paradigma de frames, denominada RDF Schema (Brickley e
Guha, 2004). Essas primitivas permitem a representação explicita de classes,
propriedades e restrições. A junção de RDF e RDF Schema é conhecida como
RDF(S).
Três outras linguagens foram derivaram de RDF(S): OIL, DAML+OIL e
OWL. A linguagem OIL (Fensel e Motta, 2001) estendeu a capacidade de expressão
Int. J. Knowl. Eng. Manage., ISSN 2316-6517, Florianópolis, v. 2, n. 2, p. 1-35, mar./maio, 2013. 20de RDF(S) com outras primitivas de frames e uma semântica baseada em DL.
DAML-OIL (Horrocks, 2002) incrementou a especificação de OIL com outras
primitivas de representação de conhecimento DL. As experiências com o
desenvolvimento destas duas linguagens levou a criação da linguagem OWL
(Bechhofer, Harmelen et al., 2004), recomendada pela W3C como uma extensão de
RDF(S) para representação de ontologias na Web. Atualmente, OWL é uma das
linguagens de representação de ontologias mais populares. Contribui para isso a
existência de ferramentas livres para criação de ontologias 2 , suporte para persistência
em banco de dados 3 e pacotes para manipulação de OWL por linguagens de
programação 4 ,
Grande parte do esforço por trás do desenvolvimento do OWL foi preservar
algumas propriedades computacionais da DL, como completude computacional e
decidibilidade – desejáveis em mecanismos de classificação –, sem que se perdesse
muito da expressividade semântica da linguagem. A especificação da W3C define
três subconjuntos da linguagem OWL baseado na sua capacidade de representação e
propriedades formais: OWL Lite, OWL-DL e OWL Full. OWL Lite é o subconjunto
com menor expressividade. Possui construtos para representação de taxonomias
simples e algumas restrições sobre propriedades. O OWL-DL estende ao máximo a
expressividade da OWL Lite, mantendo as suas propriedades computacionais de
complexidade e decidibilidade. O conjunto mais completo, OWL Full, permite o
maior nível de representatividade de OWL, permitindo construções de meta-
modelagem. No entanto, em OWL Full não há garantias computacionais para
máquinas de inferência.
Algumas linguagens de representação possuem primitivas para representação
também de conhecimento inferencial. A linguagem CML, por exemplo, que faz parte
da metodologia CommonKADS (Schreiber, Akkermans et al., 2000), dispõe de um
arcabouço para representação de conhecimento declarativo e também de raciocínio.
Enquanto o componente declarativo é representado em um modelo baseado em

frames, o conhecimento inferencial é modelado como métodos de raciocínio
genéricos e reutilizáveis, com uma linguagem procedural de alto nível.
Atualmente, a linguagem OWL tem sido a mais utilizada para aplicações da
WEB Semântica e para formalização de ontologias, embora tenha construtos ainda
limitados para a representação do significado dos conceitos. A consolidação de
ferramentas como PROTÉGÉ, que auxilia o processo de construção e formalização
dos modelos, tem auxiliado grandemente na sua disseminação. CommonKADS e
suas ferramentas, por sua vez, têm sido adotadas no meio empresarial como suporte
a engenharia de software de sistemas de conhecimento.
Paralelamente, os estudos sobre Ontologias de Fundamentação têm requerido
linguagens mais expressivas e com ancoramento simbólico mais restrito do que as
acima descritas. O desafio do estado da arte em representação de conhecimento é a
definição de linguagens ontológicas mais expressivas e de maior granularidade nos
seus construtos de representação, porem que garantam a computabilidade e
decidibilidade da DL e suas linguagens derivadas.
2
Protégé Ontology Editor (http://protege.stanford.edu/)
Jena (http://jena.sourceforge.net/)
4
OWL API (http://owlapi.sourceforge.net/) e LinqToRdf (http://code.google.com/p/linqtordf/)
3

Fonte:Int. J. Knowl. Eng. Manage., ISSN 2316-6517, Florianópolis, v. 2, n. 2, p. 1-35, mar./maio, 2013. 2

Nenhum comentário:

Postar um comentário