Phân tích cảm xúc review Amazon bằng NLTK và Transformers: VADER vs RoBERTa

TL;DR

Dự án Python này so sánh hai trường phái phân tích cảm xúc đối lập hoàn toàn trên 568,454 review Amazon: NLTK VADER (rule-based, instant, 3 dòng code) và HuggingFace RoBERTa (deep learning, accuracy 0.88-0.92, cần GPU). Bạn sẽ xây dựng pipeline đầy đủ từ EDA đến error analysis - khoảng 30-45 phút. Kết quả: biết chính xác khi nào dùng cái nào, và tại sao con số 0.49 lại quan trọng đến vậy.

Khi nửa triệu review chờ phán quyết

Amazon Fine Food Reviews chứa 568,454 đánh giá từ tháng 10/1999 đến 10/2012, trải dài qua 256,059 người dùng và 74,258 sản phẩm. Không ai đọc tay từng review được. Câu hỏi thực sự không phải là "có phân tích tự động không" mà là: dùng công cụ gì, và đánh đổi gì?

Đây là bài toán điển hình mà mọi team data science đối mặt khi xử lý customer feedback ở scale lớn. Dự án này giải quyết nó bằng hai công cụ ở hai thái cực - rồi để dữ liệu tự nói.

Hai trường phái, một dataset

VADER (Valence Aware Dictionary and sEntiment Reasoner) ra đời tại Georgia Institute of Technology. Nó hoạt động theo kiểu Bag of Words: mỗi từ có điểm cảm xúc cố định trong lexicon, cộng dồn lại thành compound score từ -1 (tiêu cực nhất) đến +1 (tích cực nhất). Xử lý được viết hoa, dấu chấm than, phủ định đơn giản, emoticon. Nhược điểm: không có ngữ cảnh. Câu sarcasm như "Oh great, another broken product!" bị đánh dấu tích cực vì từ "great" có điểm cao trong lexicon.

RoBERTa là transformer model từ HuggingFace - cụ thể là cardiffnlp/twitter-roberta-base-sentiment, pre-train trên 58 triệu tweet và corpus 160GB văn bản (gấp 10 lần BERT gốc). Cơ chế self-attention cho phép nó hiểu quan hệ giữa các từ theo cả hai chiều, xử lý tốt negation và sarcasm. Đổi lại: download ~500MB, cần GPU, inference chậm - tutorial chỉ chạy trên 500 dòng đầu do chi phí tính toán.

Triển khai trong 30 phút

Toàn bộ workflow nằm trong một Jupyter Notebook với 10 bước:

Load Reviews.csv từ Kaggle, inspect shape và null values
EDA: biểu đồ phân phối rating 1-5, word cloud từ review text
NLTK fundamentals: tokenization (word_tokenize), FreqDist, stopwords, POS tagging, Named Entity Recognition
VADER scoring: SentimentIntensityAnalyzer().polarity_scores(text) - áp dụng toàn bộ dataset, lưu 4 score: neg, neu, pos, compound
RoBERTa scoring: load AutoTokenizer + AutoModelForSequenceClassification, inference 500 dòng, normalize qua scipy.special.softmax
HuggingFace pipeline (bonus): 2 dòng code thay thế toàn bộ bước RoBERTa phức tạp ở trên
Merge DataFrame: gộp VADER score và RoBERTa score vào cùng bảng với rating gốc
Pairplot seaborn: so sánh phân phối điểm giữa 2 model theo từng mức rating
Error analysis: tìm trường hợp 2 model bất đồng, xem review sarcasm thực tế

Thư viện cần: pandas, numpy, matplotlib, seaborn, nltk, transformers, scipy, tqdm.

Con số không biết nói dối

Điểm mấu chốt: VADER compound score chỉ có tương quan 0.49 với star rating thực tế của Amazon - tức là sai gần nửa số trường hợp khó. Ngay cả trong ML pipeline có feature engineering thêm, accuracy của VADER không vượt quá 89%.

Dữ liệu từ nghiên cứu so sánh trên 20,000 Amazon Magazine Reviews (PMC 2025):

Model	Test Accuracy	Precision	Recall	Fine-tune Time
DistilBERT	0.92	0.92	0.90	31.5 phút (2 epochs)
BERT base cased	0.90	0.92	0.89	70.5 phút
RoBERTa	0.88	0.83	0.94	65.8 phút
TF-IDF + Logistic Reg.	~0.89	-	-	Vài giây
VADER (rule-based)	~0.63-0.70*	-	-	0 phút

*Trên các trường hợp khó (sarcasm, negation). Correlation với ground truth: 0.49.

VADER hay Transformer - chọn cái nào?

Tiêu chí	VADER	RoBERTa / Transformers
Tốc độ	Rất nhanh (CPU, instant)	Chậm (GPU khuyến nghị)
Độ chính xác	Trung bình (0.63-0.70)	Cao (0.88-0.92)
Setup	3 dòng code	Tokenizer + model + softmax
Xử lý sarcasm	Thất bại	Tốt hơn đáng kể
GPU	Không cần	Cần cho production
Model size	Nhỏ (vài MB)	~500MB+

Nguyên tắc chọn: nếu bạn cần prototype nhanh, dữ liệu đơn giản, hoặc chạy real-time trên CPU - VADER là đủ. Khi accuracy quan trọng hơn tốc độ, text phức tạp (sarcasm, phủ định, đa nghĩa), hoặc production scale - chuyển sang Transformers.

HuggingFace pipeline giúp việc này đơn giản hơn nhiều: sentiment analysis với 2 dòng code, chỉ đánh đổi là mất đi khả năng giải thích từng prediction.

Tài nguyên và đọc thêm

Project gốc do Rob Mulla trình bày trên YouTube - tutorial NLP thực chiến được xem nhiều nhất trong ngành. Toàn bộ code tại github.com/ishDan/Sentiment-Analysis. Dataset Amazon Fine Food Reviews trên Kaggle - miễn phí, không cần đăng ký API.

Nguồn: Analytics Vidhya, PMC Research Paper (2025), GeeksforGeeks.