Novas linguagens de programação são criadas o tempo todo para resolver problemas específicos ou apenas por diversão, compreender como as linguagens são pensadas e estruturadas pode nos ajudar a aprofundar mais em nossa carreira de programação.
Assim como a gramática da linguagem humana (Português, Inglês, etc), a sintaxe especifica a forma correta de organizar e estrutrar as instruções para que o computador possa entender e executar nosso código de forma desejavel. Além da sintaxe, temos a semântica que determina o comportamento da linguagem. Ela define o significado de uma instrução, como funciona e se um determinado conjunto de caracteres ‘faz sentido’. Essas duas definições são essenciais em qualquer linguagem.
Exemplo de gramática para o Português
Vamos começar vendo a gramática da língua portuguesa, nossa gramática terá artigos definidos, substantivos e verbos.
Um artigo definido pode ser: o, a, os, as.
Vamos definir nossos artigos usando o símbolo <A>
. Portanto, sempre que nos referirmos a um artigo, usaremos seu símbolo <A>
.
<A> ::= o | a | os | as
Para substantivos usaremos apenas três opções: cão, gato ou rato.
<S> ::= cão | gato | rato
Os verbos que usaremos são: ama, odeia e come.
<V> ::= ama | odeia | come
Seguindo o português, todo substantivo é precedido de um artigo. Vamos chamar a junção do artigo com o substantivo de <AS>
.
<AS> ::= <A> <S>
Uma frase precisa ser composta por um artigo, seguido de um substantivo, depois um verbo, e novamente seguido de outro artigo e substantivo. Sendo <S>
nossa sentença, podemos descrever isso da seguinte forma:
<S> ::= <AS> <V> <AS>
Ao reunir todas as definições, obtemos um pequeno subconjunto da língua portuguesa.
Bom, a partir de todas essas definições, podemos estruturá-las em forma de árvore. Como a sentença (<S>
) é a definição que agrupa todas as demais, colocaremos ela como a raiz da árvore, e as chamadas de gramáticas serão seus nós filhos, e assim sucessivamente. Essa árvore será chamada de ‘Arvore de Sintaxe’ ou ‘Syntax Tree’ em inglês.
Com este conjunto, podemos montar uma árvore da seguinte maneira:
--- config: theme: dark --- graph TD; S[< S >] --> AS[< AS >]; S --> V[< V >]; S --> AS2[< AS >]; AS --> A[< A >]; AS --> N[< N >]; AS2 --> A2[< A >]; AS2 --> N2[< N >];
Inclusive, podemos substituir e definir os valores de seus nós folhas para criarmos uma sentença, por exemplo:
--- config: theme: dark --- graph TD; S[< S >] --> AS[< AS >]; AS --> A[< A >]; AS --> N[< N >]; A --> A3["O"]; N --> N3["Cão"]; S --> V[< V >]; V --> V2["Ama"]; S --> AS2[< AS >]; AS2 --> A2[< A >]; AS2 --> N2[< N >]; A2 --> A4["O"]; N2 --> N4["Gato"];
É sempre possível manipular seus valores, verbos, substantivos e artigos. No entanto, se você seguir a definição feita e a estrutura da árvore, sempre teremos uma gramática correta.
Agora, retornando um pouco às linguagens de programação, aqui está um exemplo de gramática para uma linguagem bastante simples:
Esta gramática nos informa que uma expressão (<exp>
) pode ser:
- A soma de duas expressões
- O produto de duas expressões
- Uma expressão envolvida por parênteses
- Uma das variáveis a, b ou c.
Entao nossa gramatica inclui expressões parecidas com:
a
a+b
a+b*c
((a+b)*c)
Em forma de arvore, podemos representar da seguinte forma:
--- config: theme: dark --- graph TD; EXP[< exp >] --> LB["("]; EXP --> EXP2[< exp >]; EXP2 --> EXP3[< exp >]; EXP3 --> LB2["("]; EXP3 --> EXP5[< exp >]; EXP3 --> RB2[")"]; EXP5 --> EXP6[< exp >]; EXP6 --> A["A"]; EXP5 --> PLUS["+"]; EXP5 --> EXP7[< exp >]; EXP7 --> B["B"]; EXP2 --> MUL["*"]; EXP2 --> EXP4[< exp >]; EXP4 --> C["C"]; EXP --> RB[")"];
BNF - Backus-Naur Form
A forma BNF (Backus-Naur Form) é uma maneira eficaz de descrever o conjunto de sequências válidas em uma linguagem particular. Ela permite a definição de uma linguagem de programação de forma concisa e precisa. A forma BNF é usada na descrição da sintaxe de muitas linguagens de programação, como Java, C++ e Python.
Em BNF, uma gramática consiste em uma série de regras de produção. Cada regra de produção tem um símbolo à esquerda do símbolo ”::=”, que é o nome do símbolo não terminal, e à direita, tem uma sequência de símbolos terminais e não terminais. Essa sequência indica uma forma válida que o símbolo à esquerda pode assumir.
Os tokens são a menor unidade de uma sintaxe. Eles são strings e símbolos que escolhemos para ser a base da nossa linguagem. No nosso exemplo, a palavra ‘cat’ é um token. Em linguagens de programação, podemos escolher palavras-chave para isso, como ‘for’.
Os símbolos não terminais são strings envolvidas por <>, como <NP>
.
A linguagem escolhe um símbolo não terminal para ser o ponto de partida, a que chamaremos de símbolo inicial <S>
.
Definindo nossa gramática
Antes de começarmos a programar de fato, precisamos definir bem a gramática da nossa linguagem, neste caso, iremos fazer uma gramática bem simples para interpretar algumas expressões matemáticas.
De forma resumida,
<exp>
representa uma expressão completa. Pode ser apenas um termo, ou um termo seguido de um operador (+ ou -) e outro termo.<term>
representa um termo dentro de uma expressão. Pode ser apenas um fator, ou um termo seguido de um operador (* ou /) e outro fator.<factor>
é um elemento básico da expressão. Pode ser um número ou uma expressão entre parênteses.<number>
é um número inteiro. Pode ser um único dígito ou vários dígitos em sequência.<digit>
é um dígito de 0 a 9.
Mãos ao código
Em nossos exemplos usaremos TypeSscript, nada de especial, mas uma linguagem fácil de compreender e com uma tipagem mais forte. Bom, iniciaremos o projeto com o Bun.
Vamos começar definindo os tipos de tokens que nossa linguagem aceita, e a estrutura de um token.
Seguindo nossa gramática, aceitaremos os tokens +, -, *, /, (, ) e Número
. Adicionaremos mais dois aqui para facilitar nossa vida, o fim de arquivo (EndOfFile) e o erro (Error) que nos ajudará nos testes.
Usando o bom e velho POO, definimos nossa estrutura de um token tendo duas propriedades: kind (armazena o tipo do token) e o value (usaremos para quando o token for um número).
Lexer
O primeiro passo após definir a gramática, é criar um lexer, que vai ser responsável por receber uma entrada em forma de texto e converte-la para uma lista de tokens significativos para que o interpretador consiga de fato interpretá-los.
Bom, o lexer é bem simples, vamos montar um passo a passo do que deve ser realizado:
- Receber um texto de entrada, nosso “source”.
- Dividir em pedaçoes menores que fazem sentido individualmente, pedaços esses que chamaremos de token (que inclusive já definimos).
- Identificar cada pedaço, basicamente dar sentido ao token, o que ele significa.
- Ignorar o que não faz sentido e não tem importância, como por exemplo, no nosso caso, as quebras de linhas e espaços (em python, as quebras de linha, tabs e espaços importam).
- Criar uma lista ordenada de tokens.
- Reportar erros, caso encontrarmos algum elemento fora da grámatica, devemos gerar um erro, para que ele não passe para as próximas etapas (erro léxico).
Vamos criar uma classe responsável pelo lexing.
O método lex
será responsável por transformar a entrada em uma lista de tokens, para começar é preciso percorrer todos os caracteres do texto de entrada.
Agora temos um método que percorre todos os caracteres e imprime-os. Bom, ainda falta verificar o significado de cada caractere e convertê-lo à um token. Vamos começar pelos token Number:
O que o lexer está fazendo é bem simples, ao percorrer os caracteres, caso encontre um dígito (0, 1, 2, …, 9), chama o método number, que por sua vez, continua percorrendo o texto até que encontra um novo caractere que não seja um dígito.
--- config: theme: dark --- flowchart TD A((Início)) --> |Recebe texto de entrada| B(Seleciona o primeiro caractere) B --> C{O caractere é um dígito?} C -->|Não| D(Converta a string de dígitos concatenada para número) C -->|Sim| E(Concatene com os outros dígitos) E --> F(Vá para o próximo caractere) F --> C D --> G((Fim))
Por exemplo, vamos usar o texto de entrada '123'
.
'1'
é um dígito? sim, então armazene e vá para o próximo.'2'
é um dígito? sim, concatene com o'1'
e vá para o próximo.'3'
é um dígito? sim, concatene com o'12'
e vá para o próximo.- Não há mais caracteres, encerra o loop e converte a string
'123'
para número. - Cria um objeto de Token passando o
TokenType::Number
com o valor123
. - Adicione o token ao fim da lista de tokens.
O lexer já é capaz de identificar e converter números. Agora é necessário converter os outros tipos de token, que são bem mais simples.
Para os demais tokens não tem segredo, eles são caracteres únicos como ’+’ e ’-’, então ao encontrá-los, crie um objeto com seu respectivo tipo e adicione-o ao fim da lista de tokens. Caso o caractere passe por todos os tipos de verificação e o mesmo não seja um espaço em branco, um token do tipo erro é adicionado à lista, neste caso pode-se lançar uma exceção para interromper a execução do programa antes de seguir para as próximas etapas, mas não será implementado aqui.
Ficou faltando um token a ser analisado, o EndOfFile
, só adicioná-lo ao fim do loop.
Pronto, agora para testá-lo, vamos instanciar o lexer e passar um valor de entrada a ele.
Parser
O parser é a etapa seguinte no processo de entender uma linguagem, logo após o lexer. Se o lexer é o amigo que separa as palavras e símbolos, o parser é aquele que pega essas palavras e começa a entender o que elas significam juntas, em frases e sentenças.
O parser recebe uma lista de tokens, gerada pelo lexer, e começa a organizá-los de acordo com as regras gramaticais definidas.
É como pegar as palavras e montar sentenças que façam sentido. Por exemplo, let x = 42;
é uma instrução válida em Javascript.
O parser verifica se os tokens seguem essa estrutura.
Enquanto analisa os tokens, o parser vai gerando uma Syntax tree. Por exemplo com a expressão 2 * (2 + 1)
:
--- config: theme: dark --- graph TD; EXP["*"] --> LB["2"]; EXP --> EXP2["+"]; EXP2 --> EXP3["2"]; EXP2 --> EXP4["1"];
No final do processo, o parser gera uma representação do código que pode ser usada por outras etapas do interpretador. Essa representação é baseada na syntax Tree, que é uma forma estruturada e organizada de entender o que o código faz.
Antes de constuirmos o parser, precisamos montar uma estrutura para a syntax tree.
Esta é a estrutura de um nó da nossa árvore, que armazena um token e possui filhos.
Já com o nó definido, vamos definir o Parser:
Adicionei inicialmente as métodos auxiliares:
nextToken
: retorna o próximo token da lista, incrementando o indice atual.isAtEnd
: verifica se os tokens acabaram.match
: verifica se o token atual é de um tipo específico, especificado pelo parâmetro.
O método parse é o que iremos chamar para realizar o parse dos tokens.
Primeiro, precisamos relembrar a gramática da nossa ‘linguagem’:
Como podemos ver, a gramática começa sempre uma expressão, vamos escrever isso:
Expressão
Vamos analisar a gramática da expressão.
Ela pode ser um termo ou uma soma/subtração de uma expressão com um termo. Ou seja, uma expressão sempre vai ter um termo, caso não tenha nenhuma operação, podemos simplesmente retornar o termo, ele será nosso elemento mais à esquerda.
Após obter o termo mais à esquerda, falatm mais duas partes: obter o operador e a expressão à direita. Para isso, basta continuar percorrendo a lista e verificar se o próximo token é uma soma ou subtração, caso seja, consuma o operador e o termo seguinte.
Com o os dois termos e o operador em mãos, é necessário gerar um novo nó da arvore, de forma que os dois termos sejam nós folhas e então retornar o nó ao invés do termo.
Termo
A próxima etapa é o termo, vamos analisá-lo:
Um termo pode ser um fator ou uma multiplicação/divisão de termo com fator. Muito parecido com a expressão, vamos implementá-la de forma semelhante:
Fator
Agora o fator, que tem a seguinte gramática:
Ele pode ser um número, ou simplesmente uma expressão dentro de parênteses.
Sua implementação é ainda mais simples, basta pegar o próximo token e verificar se é uma abertura de parêntese ’(’, caso seja, consuma a expressão e procure pelo fechamento do parêntese ’)’, caso não encontrado podemos lançar um erro, na nossa gramática não pode haver parênteses sem fechamento. Caso o token consumido não seja uma abertura de parênteses, podemos simplesmente retorná-lo e seguir a vida.
O fator tem uma importância extrema, ele gera e precedência no nosso interpretador, sempre que houver parênteses, a expressão é jogada para um nó abaixo. Futuramente veremos que o nosso interpretador sempre interpretará os nós debaixo para cima, por isso que devemos ter este cuidado com a posição dos nós na syntax tree.
Vamos testar:
A impressão do console.log está de uma forma bem feia, vamos implementar nossa impressora:
Vamos testar algo mais complexo:
A impressora implementada é bem básica, existe formas melhores de implementá-la. Por enquanto estou satisfeito com ela.
Runtime
O runtime é a etapa de execução do código, não tem segredo, ele recebe syntax tree e simplesmente interpreta, executando as operações que a ‘linguagem’ foi projetada para fazer e também lidando com tratamento de erros. Numa linguagem como JS, o runtime faz uma infinidade a mais de passos, como a interação com o sistema operacional e o gerenciamento de memória. No nosso caso não há nada disso, é um tópico para outra hora.
Como de costume, iniciamos definindo a classe de Runtime, que armazenará a syntax tree (ast) e um método de execução (execute):
Vamos implementar o método ìnterpret
, mas primeiro tentaremos entender o que ele precisa fazer.
Nossa ‘linguagem’ é uma expressão matemática, correto? Logicamente, com o gramática que definimos, nosso interpretador só pode nos retornar um número nom fim das contas. Logo, se temos um nó do tipo ‘Number’, não há o que interpretar, apenas retorná-lo.
No caso em que tenha um nó com filhos, como este exemplo:
--- config: theme: dark --- graph TD; EXP["+"] --> LB["2"]; EXP --> EXP2["2"];
Neste caso, precisamos interpretar toda a subárvore à esquerda, depois a subárvore à direita para obtermos números, que é o objetivo final.
No exemplo acima, ambos as subárvores são números literais, logo o método interpret
retornará estes números e então poderemos realizar a operação entre eles.
Mas há casos como este:
--- config: theme: dark --- graph TD; EXP["*"] --> LB["2"]; EXP --> EXP2["+"]; EXP2 --> EXP3["2"]; EXP2 --> EXP4["1"];
Para isso, precisamos interpretar a árvore de forma recursiva, chamando a própria função para cada subárvore.
Com as subárvores interpretadas é só realizar a operação entre elas:
Os métodos sum, subtract, multiply e divide ainda não existem, vamos criá-los:
Nada de especial por aqui, cada método recebe dois números e realizam a operação esperada. A divisão, como sabemos, o dividor não pode ser zero, nenhum número pode ser dividido por zero. Bom, o typescript interromperia a execução desse tipo de divisão, mas vamos implementar a nossa própria exceção:
Agora só testar 😁😁
Conclusão
Esse projeto foi somente uma brincadeira para estudar e praticar um pouco de interpretadores, usei o livro ‘Modern Programming Languages: A Practical Introduction’ como base para algumas explicações, uma linguagem de programação completa é muita mais complexa e levaria muito tempo até ter uma gramática descente, se quiser estudar um pouco mais sobre, recomendo o livro ‘Crafting Interpreters’.
O código final eu realizei alguns ajustes e testes para ficar mais legível, deixei o repositório público e pode ser acessado aqui.