Beautiful Racket: Extend a data format: jsonic

Beautiful Racket / tutorials

jsonic/tokenizer.rkt

#lang br/quicklang
(require brag/support)

(define (make-tokenizer port)
  (define (next-token)
    (define jsonic-lexer
      (lexer
       ···))
    (jsonic-lexer port))
  next-token)
(provide make-tokenizer)
#lang br/quicklang
(require brag/support)

(define (make-tokenizer port)
  (define (next-token)
    (define jsonic-lexer
      (lexer
       ···))
    (jsonic-lexer port))
  next-token)
(provide make-tokenizer)


The lexer must be able to process every token that might appear in the source, including eof (which signals the end).

The lexer consists of a series of branches, each representing a lexing rule. On the left side of the branch is a pattern that works like a regular expression. On the right is a token-creating expression.

Each time next-token is called, jsonic-lexer will read as many characters from the input port as it can while still matching a rule pattern.

The lexer rule will convert the matched characters (known as the lexeme) into a token using the expression on the right.

This token will be returned as the result. The process repeats until the lexer gets the eof signal.

jsonic/tokenizer.rkt

#lang br/quicklang
(require brag/support)

(define (make-tokenizer port)
  (define (next-token)
    (define jsonic-lexer
      (lexer
       [(from/to "//" "\n") (next-token)]
       ···))
    (jsonic-lexer port))
  next-token)
(provide make-tokenizer)
#lang br/quicklang
(require brag/support)

(define (make-tokenizer port)
  (define (next-token)
    (define jsonic-lexer
      (lexer
       [(from/to "//" "\n") (next-token)]
       ···))
    (jsonic-lexer port))
  next-token)
(provide make-tokenizer)

jsonic/tokenizer.rkt

#lang br/quicklang
(require brag/support)

(define (make-tokenizer port)
  (define (next-token)
    (define jsonic-lexer
      (lexer
       [(from/to "//" "\n") (next-token)]
       [(from/to "@$" "$@")
        (token 'SEXP-TOK (trim-ends "@$" lexeme "$@"))]
       ···))
    (jsonic-lexer port))
  next-token)
(provide make-tokenizer)
#lang br/quicklang
(require brag/support)

(define (make-tokenizer port)
  (define (next-token)
    (define jsonic-lexer
      (lexer
       [(from/to "//" "\n") (next-token)]
       [(from/to "@$" "$@")
        (token 'SEXP-TOK (trim-ends "@$" lexeme "$@"))]
       ···))
    (jsonic-lexer port))
  next-token)
(provide make-tokenizer)

Finally, we package this trimmed lexeme into a token structure with the name SEXP-TOK. Named tokens can make a grammar simpler, because we can then refer to tokens within the grammar by name rather than by specific values. By convention, named tokens use CAPS names to distinguish them from names of production rules in the grammar. One notational wrinkle: though we write 'SEXP-TOK here (the ' prefix makes it a symbol rather than a variable), in the grammar we’ll write this token’s name simply as SEXP-TOK.

jsonic/tokenizer.rkt

#lang br/quicklang
(require brag/support)

(define (make-tokenizer port)
  (define (next-token)
    (define jsonic-lexer
      (lexer
       [(from/to "//" "\n") (next-token)]
       [(from/to "@$" "$@")
        (token 'SEXP-TOK (trim-ends "@$" lexeme "$@"))]
       [any-char (token 'CHAR-TOK lexeme)]))
    (jsonic-lexer port))  
  next-token)
(provide make-tokenizer)
#lang br/quicklang
(require brag/support)

(define (make-tokenizer port)
  (define (next-token)
    (define jsonic-lexer
      (lexer
       [(from/to "//" "\n") (next-token)]
       [(from/to "@$" "$@")
        (token 'SEXP-TOK (trim-ends "@$" lexeme "$@"))]
       [any-char (token 'CHAR-TOK lexeme)]))
    (jsonic-lexer port))  
  next-token)
(provide make-tokenizer)

Beautiful Racket / tutorials

Extend a data format: jsonic

The tokenizer

Testing the tokenizer

Beau­tiful Racket / tuto­rials

Extend a data format: jsonic

The tokenizer

Testing the tokenizer

Beautiful Racket / tutorials