Semántica

La semántica es la parte de la lingüística que estudia el significado de las expresiones lingüísticas y que la mayoría de personas a la hora de realizar SEO no toma en cuenta.

Comencemos por algo sencillo para abrir boca como es la diferenciación de tags, categorías y entidades para entender que de qué va todo esto.

  • Los tags (Folcsonomía), son términos simples que hablan de una propiedad o característica de la información tratada, pero no la define ni la agrupa jerárquicamente. Es información sobre la información, o un metadato (con los metadatos podemos crear Ontologías que son esquemas conceptuales relacionados entre uno o varios dominios con la finalidad de facilitar la comunicación o el intercambio de información entre diferentes sistemas y entidades.

  • Una entidad es aquél elemento que puede ser perceptible por un sistema animado y tratado de forma concreta, abstracta, particular o universal.

Por ejemplo:

Entidad Barcelona -> Ciudad

Entidad Barcelona -> Equipo de fútbol

Un nodo o unidad de información puede tener uno o más tags, relacionados o no, cada uno de los cuales se refiere a una característica específica del objeto, pero que no lo categoriza. Por ejemplo:

Objeto -> Manzana

Tags-> roja, dulce, sabrosa

En este caso, cada uno de los tags habla sobre una propiedad del objeto Manzana, pero no son categorías a la que éste pertenezca. Se trata de una estructura plana de términos que lo caracterizan, en un esquema de es o tiene.

  • Las categorías (Taxonomías) son un sistema de asociación de contenido con uno o más temas. Permiten definir y agrupar la información estableciendo relaciones. Las categorías tienen estructuras planas (un nivel) o jerárquicas (múltiples niveles), estos niveles de jerarquía no es conveniente que pasen de más de tres, ya que cuanto mayor es la profundidad del site más complicado es que el robot profundice y los recorra completamente. Los niveles establecidos mediante la categorización establecen una relación de dependencia del tipo pertenece a:

Por ejemplo:

* Recetas

* Postres

* Fruta

# Manzanas -> roja, dulce, sabrosa

# Peras

# Naranjas

# Sandías

Dado que ambos esquemas son diferentes, pero no son opuestos, es posible utilizarlos simultáneamente para obtener una mayor riqueza en la organización de la información.

Los tags, permiten enriquecer al buscador pero se hace necesario la desambiguación que producen por sí mismas al no estar dentro de una estructuración jerárquica, ya que, aunque identifican los términos más relevantes de un contenido, estos por sí mismos no tienen sentido pues hemos visto cómo hablan sobre propiedades.

Las tags son particularmente importantes para contenido no textual, como fotografías, videos y audio, casos en los que no es fácil para el buscador contextualizar automáticamente.

Sin embargo una estructura de clasificación es útil, por ejemplo, para establecer un esquema de navegación jerárquico asociado a las expectativas del usuario y la findability del sitio web mejorando así la experiencia de navegación por el mismo y por tanto afectando directamente al revenue en caso de que se trate de un sitio transaccional o al engagement que se pueda producir en sitios por ejemplo informacionales.

Profundizando más en lo que sería el análisis del contenido, la desambiguación del mismo y la predicción futura de éste, se hace necesario cada vez más de la utilización de entidades incluidas dentro de N-Gramas o Cadenas de Markov que facilitan la consecución de eventos definiendo estados.

Así, anticipándonos a estados definidos mediante estas entidades que refuercen las hipótesis o estructuras definidas que ya estén preestablecidas mediantes Corpus o Tesauros, podremos crear estructuras sintácticas que sean, además, semánticamente correctas.

Sin duda, todo este tipo de análisis de contenido se puede disgregar en varias vertientes como ocurre con SyntaxNet, un analizador sintáctico de código abierto integrado con TensorFlow que aprende mediante algoritmos de machine learning como Parsey McParseface a analizar la estructura lingüística de la lengua, y que puede explicar el papel funcional de cada palabra en una frase dada. Podéis leer más si estáis interesado en el comunicado de Google sobre SyntaxNet.