Triple Barrier Labeling Algorithm: Gán nhãn thông minh cho dữ liệu tài chính bằng học máy

Trong học máy tài chính (Financial Machine Learning), một trong những bước quan trọng nhất nhưng ít được chú ý là gán nhãn dữ liệu (labeling). Nếu nhãn không chính xác hoặc thiếu phản ánh thực tế, mô hình học máy dù mạnh mẽ đến đâu cũng sẽ cho ra kết quả sai lệch.

Để khắc phục điều này, Marcos López de Prado đã giới thiệu Triple Barrier Labeling Algorithm trong cuốn sách Advances in Financial Machine Learning (2018). Thuật toán này được xem là tiêu chuẩn vàng trong việc tạo nhãn cho dữ liệu giá tài chính.

Bài viết này sẽ giúp bạn hiểu rõ Triple Barrier là gì, tại sao nó cần thiết, cách hoạt động và ứng dụng trong thực tế. Cuối cùng, bạn sẽ nhận được mã nguồn Python hoàn chỉnh để thử nghiệm ngay.

Labeling là gì trong học máy tài chính?

Labeling là quá trình gắn nhãn cho dữ liệu quá khứ để mô hình học máy có thể học và dự đoán. Ví dụ, nếu bạn muốn dự đoán giá cổ phiếu tăng hay giảm, bạn cần gắn nhãn "1" cho tăng và "-1" cho giảm tại mỗi thời điểm.

Tuy nhiên, với dữ liệu tài chính đầy nhiễu, nhãn kiểu đơn giản như “giá ngày mai cao hơn hôm nay” thường không phản ánh đúng bản chất thị trường và hành vi giao dịch.

Triple Barrier Labeling là gì?

Triple Barrier là một kỹ thuật gán nhãn sử dụng ba rào cản để xác định kết quả của một giao dịch giả định:

Upper Barrier (Take Profit): Nếu giá tăng vượt một ngưỡng lợi nhuận, ta giả định giao dịch thành công → gán nhãn 1
Lower Barrier (Stop Loss): Nếu giá giảm vượt ngưỡng lỗ, ta giả định giao dịch thất bại → gán nhãn -1
Vertical Barrier (Thời gian): Nếu sau một khoảng thời gian nhất định mà giá không chạm TP hoặc SL, ta gán nhãn 0 (trung lập)

Tại sao không dùng các phương pháp gán nhãn truyền thống?

1. Future Return Labeling

Ví dụ:

label = 1 if price[t+1] > price[t] else -1

Không xét đến rủi ro (volatility)
Không phản ánh thời gian hoặc logic giao dịch thực tế

2. Threshold Return Labeling

Gán nhãn khi giá biến động vượt một ngưỡng nhất định (ví dụ ±1%).

Không xét được khi nào sự kiện xảy ra
Có thể bỏ qua các thông tin quan trọng về thời gian giao dịch

3. Triple Barrier Labeling

Triple Barrier giải quyết được cả ba yếu tố: tỷ lệ lợi nhuận/kỳ vọng, rủi ro, và thời gian. Đây là cách gắn nhãn sát thực tế và phù hợp với tư duy nhà đầu tư.

Cách hoạt động của Triple Barrie

1. Tại thời điểm `t`, lấy giá `price[t]`

2. Thiết lập các rào cản:

Upper = price[t] * (1 + pt_sl)
Lower = price[t] * (1 - pt_sl)

3. Quan sát giá trong n phiên tiếp theo:

Nếu giá vượt upper trước → nhãn 1
Nếu giá xuống lower trước → nhãn -1
Nếu hết thời gian mà không chạm → nhãn 0

Mã nguồn Python: Triple Barrier Labeling

import numpy as np
import pandas as pd

def triple_barrier_labeling(prices, pt_sl=0.02, vertical_barrier=10):
"""
Gán nhãn theo thuật toán Triple Barrier.

prices: pandas Series - Giá đóng cửa
pt_sl: float - Ngưỡng lợi nhuận/cắt lỗ (%)
vertical_barrier: int - Số phiên giao dịch quan sát

Returns:
    labels: pandas Series (1 = TP, -1 = SL, 0 = trung lập)
"""
labels = pd.Series(index=prices.index, dtype='int')

for t in range(len(prices) - vertical_barrier):
    start_price = prices.iloc[t]
    upper = start_price * (1 + pt_sl)
    lower = start_price * (1 - pt_sl)
    window = prices.iloc[t+1:t+vertical_barrier+1]

    label = 0
    for price in window:
        if price >= upper:
            label = 1
            break
        elif price <= lower:
            label = -1
            break

    labels.iloc[t] = label

return labels

Cách sử dụng với dữ liệu thực:

import yfinance as yf

Lấy dữ liệu cổ phiếu Apple

data = yf.download("AAPL", start="2023-01-01", end="2023-06-01")
prices = data["Close"]

Gán nhãn

labels = triple_barrier_labeling(prices)

Xem thống kê

print(labels.value_counts())

So sánh giữa các phương pháp

Phương pháp	Ưu điểm	Nhược điểm
Future Return	Đơn giản, nhanh	Không phản ánh rủi ro hoặc thời gian
Threshold Labeling	Có xét biên độ	Thiếu yếu tố thời gian
Triple Barrier Labeling	Cân bằng lợi nhuận, rủi ro và thời gian	Cần nhiều tính toán hơn

Ứng dụng thực tế của Triple Barrier Labeling

Machine Learning cho giao dịch tài chính

Khi xây dựng mô hình học máy (supervised learning) để dự đoán thị trường tài chính, bạn cần tập dữ liệu đầu vào gồm đặc trưng và nhãn. Nếu sử dụng các nhãn đơn giản như giá tăng hay giảm, mô hình có thể học sai, vì không xét đến bối cảnh rủi ro và thời gian.

Triple Barrier giúp tạo ra tập nhãn phản ánh chính xác hành vi giao dịch thực tế: bạn sẽ chỉ mua nếu kỳ vọng lời đủ lớn, sẽ bán khi lỗ vượt giới hạn, hoặc thoát lệnh nếu không có biến động đáng kể sau một thời gian.

Mô hình học được logic giao dịch thật, từ đó cho ra quyết định chất lượng hơn trong môi trường thị trường có biến động cao.

Xây dựng chiến lược giao dịch tự động (Algorithmic Trading)

Trong các hệ thống giao dịch thuật toán, việc xác định thời điểm mua vào, bán ra, đặt TP/SL là rất quan trọng. Triple Barrier cung cấp một framework gán nhãn dữ liệu quá khứ theo logic như một giao dịch thật.

Khi mô hình được huấn luyện trên tập dữ liệu có nhãn từ Triple Barrier, bạn có thể dễ dàng triển khai bot giao dịch mà:

Tự động nhận biết thời điểm vào lệnh
Đánh giá xác suất thành công dựa trên mô hình đã học
Áp dụng các điều kiện TP/SL giống như mô phỏng

Triple Barrier giúp loại bỏ bias (thiên lệch) trong dữ liệu, giảm overfitting, đồng thời tạo điều kiện cho các chiến lược ra quyết định hợp lý hơn.

Portfolio Management và Risk Control

Triple Barrier còn giúp các nhà quản lý danh mục đầu tư kiểm soát rủi ro tốt hơn, bằng cách:

Phân tích kết quả giao dịch giả định qua các chỉ số TP/SL
Tính toán xác suất thắng thua để quyết định phân bổ vốn
Thử nghiệm các chiến lược risk-adjusted return thông qua mô phỏng nhãn

Ví dụ, bạn có thể thử gán nhãn bằng Triple Barrier với SL = 3%, TP = 6%, thời gian = 10 phiên, và kiểm tra tỷ lệ giao dịch thành công là bao nhiêu. Dựa vào đó, bạn điều chỉnh chiến lược đầu tư để tối ưu hóa hiệu quả.

Tài liệu tham khảo

Marcos López de Prado, Advances in Financial Machine Learning, Wiley, 2018. https://www.wiley.com/en-us/Advances+in+Financial+Machine+Learning-p-9781119482086
William Santos (2022), Triple Barrier Labelling Algorithm https://williamsantos.me/posts/2022/triple-barrier-labelling-algorithm/
Hudson & Thames Research https://hudsonthames.org
GitHub Notebook: https://github.com/hudson-and-thames/mlfinlab

Kết luận

Triple Barrier Labeling không chỉ là một kỹ thuật gán nhãn, mà là một công cụ mô phỏng hành vi giao dịch thực tế – nơi lợi nhuận kỳ vọng, rủi ro và yếu tố thời gian đều được xem xét.

Việc sử dụng Triple Barrier giúp mô hình học máy hiểu rõ hơn về logic thị trường, cải thiện khả năng dự đoán và ra quyết định trong môi trường đầu tư. Nếu bạn đang xây dựng hệ thống giao dịch tự động, nghiên cứu định lượng hoặc quản lý danh mục, Triple Barrier là công cụ không thể thiếu.

Nếu bạn muốn triển khai Triple Barrier nâng cao như dynamic barrier, kết hợp với meta-labeling hoặc mô phỏng dữ liệu Việt Nam (như VN30, HPG, SSI…), hãy để lại bình luận. Mình sẽ hỗ trợ thêm.