2 Descrição do Problema

Primeiramente temos que analisar estrutura do ficheiro do qual vamos extrair informação. Reparamos que o ficheiro em questão tinha a seguinte estrutura:

\begin{code_xml}
<page>
...
</page>
<page>
...
</page>
<page>
...
</page>
...
\end{code_xml}

Cada tag page tem a seguinte estrutura:


\begin{code_xml}
<page>
<title>Astronomia e astrofisica</title>
<id>221</id>
...
...lemotright{} ...

Nesta parte, para cada page queremos a PalavraPT.

Fazendo um zoom à secção text reparamos que aí poderíamos encontrar a respectiva palavra em Inglês e a respectiva categoria da página em que estamos:


\begin{code_xml}
<text xml:space=''preserve\guillemotright{}...
...
[[Categor...
.....
[[Categoria:CATEGORIAn]]
...
[[en:PalavraEN]]
...
</text>
\end{code_xml}

Como reparamos que cada página pode ter várias categorias, nós lemos todas as categorias da página.

Assim, nesta parte, para cada page queremos todas as $CATEGORIA_i$, $\forall_{1 \leq i \leq n}$ e a PalavraEN.



ulisses 2008-04-13