NLP Academy · Lesson

Tokenizing for Transformer Models

Subwords, padding, and attention masks.

Tokens Come First

Before a transformer can learn anything, your text must become numbers. That conversion job belongs to the tokenizer.

Always load the tokenizer that was trained with your model. A mismatched vocabulary produces garbage ids the model never saw.

from transformers import AutoTokenizer
tok = AutoTokenizer.from_pretrained("bert-base-uncased")