Beta

Statsmodels: Phân tích hồi quy kiểu R ngay trong Python

Khám phá thư viện Statsmodels, công cụ cho phép các nhà khoa học dữ liệu thực hiện phân tích hồi quy tuyến tính và ANOVA với cú pháp kiểu R quen thuộc, mạnh mẽ và chính xác.

04/11/2025Gốc

Python đã trở thành ngôn ngữ thống trị trong lĩnh vực khoa học dữ liệu nhờ hệ sinh thái thư viện phong phú. Tuy nhiên, nhiều nhà phân tích vẫn ưa thích cú pháp công thức trực quan của R khi xây dựng các mô hình thống kê. Thư viện Statsmodels ra đời để giải quyết vấn đề này, mang sức mạnh của phân tích hồi quy kiểu R vào môi trường Python một cách liền mạch.

Statsmodels là gì và tại sao đáng tin cậy?

Statsmodels là một thư viện Python chuyên dụng cho việc thực thi các mô hình thống kê và kiểm định giả thuyết. Điểm mạnh lớn nhất của nó là khả năng xây dựng mô hình phức tạp thông qua các công thức ngắn gọn, tương tự như trong ngôn ngữ R, giúp mã nguồn trở nên dễ đọc và dễ bảo trì hơn.

Một yếu tố quan trọng tạo nên uy tín cho Statsmodels là độ chính xác. Thư viện này được kiểm tra chéo (cross-validated) cẩn thận với các phần mềm thống kê hàng đầu khác như R, Stata và SAS. Điều này đảm bảo rằng kết quả bạn nhận được từ Statsmodels có độ tin cậy cao, phù hợp cho cả nghiên cứu học thuật và phân tích chuyên nghiệp trong doanh nghiệp.

Hồi quy tuyến tính đơn giản với cú pháp R

Hồi quy tuyến tính đơn giản nhằm mục đích tìm ra mối quan hệ giữa một biến phụ thuộc (y) và một biến độc lập (x). Với Statsmodels, việc này trở nên cực kỳ đơn giản nhờ API công thức.

Đầu tiên, chúng ta cần nhập các thư viện cần thiết và tải dữ liệu. Ví dụ này sử dụng bộ dữ liệu 'tips' có sẵn trong thư viện Seaborn.

import statsmodels.formula.api as smf
import seaborn as sns
tips = sns.load_dataset('tips')

Để xây dựng mô hình dự đoán số tiền boa (tip) dựa trên tổng hóa đơn (total_bill), chúng ta sử dụng cú pháp công thức 'tip ~ total_bill'. Ở đây, dấu ngã (~) đóng vai trò tương tự dấu bằng, thể hiện sự phụ thuộc. Sau đó, chúng ta khớp mô hình với dữ liệu bằng phương thức .fit().

results = smf.ols('tip ~ total_bill', data=tips).fit()

Để xem kết quả chi tiết của mô hình, chỉ cần gọi phương thức .summary().

print(results.summary())

Mở rộng mô hình: Hồi quy đa biến và quan hệ phi tuyến

Vẻ đẹp của Statsmodels nằm ở khả năng mở rộng mô hình một cách dễ dàng. Khi muốn xem xét ảnh hưởng của nhiều biến độc lập cùng lúc, chúng ta chỉ cần thêm chúng vào công thức bằng dấu cộng (+).

Ví dụ, để xem xét cả tổng hóa đơn và kích thước bữa tiệc (size) ảnh hưởng đến tiền boa, công thức sẽ là:

results = smf.ols('tip ~ total_bill + size', data=tips).fit()

Statsmodels cũng có thể mô hình hóa các mối quan hệ phi tuyến tính, chẳng hạn như phương trình bậc hai. Bằng cách sử dụng hàm I(), chúng ta có thể thực hiện các phép toán trực tiếp trong công thức. Ví dụ, để khớp một mô hình parabol, công thức sẽ là:

results = smf.ols('y ~ x + I(x**2)', data=df).fit()

Giải mã bảng kết quả hồi quy

Kết quả từ phương thức .summary() cung cấp một bảng thông tin chi tiết về mô hình. Dưới đây là cách diễn giải một số chỉ số quan trọng:

R-squared (Hệ số xác định): Cho biết mức độ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập. Giá trị càng gần 1, mô hình càng phù hợp với dữ liệu.
Adj. R-squared: Phiên bản điều chỉnh của R-squared, hữu ích hơn trong hồi quy đa biến vì nó hiệu chỉnh cho việc thêm các biến không cần thiết.
coef (Hệ số): Cho biết mức độ thay đổi của biến phụ thuộc khi biến độc lập tương ứng thay đổi một đơn vị, trong khi các biến khác giữ nguyên. Intercept là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
std err (Sai số chuẩn): Đo lường độ chính xác của hệ số. Giá trị càng nhỏ càng tốt.
P>|t| (p-value): Cho biết ý nghĩa thống kê của từng biến. Một giá trị p-value thấp (thường < 0.05) cho thấy biến đó có ảnh hưởng đáng kể đến biến phụ thuộc.

Phân tích phương sai (ANOVA) khi biến là phân loại

Khi bạn muốn so sánh giá trị trung bình của một biến số trên nhiều nhóm của một biến phân loại, Phân tích phương sai (ANOVA) là công cụ thích hợp. Statsmodels cũng hỗ trợ ANOVA một cách trực quan.

Ví dụ, để kiểm tra xem loài chim cánh cụt (species) có phải là yếu tố dự đoán đáng kể về chiều dài mỏ (bill_length_mm) hay không, chúng ta cũng xây dựng một mô hình tuyến tính:

penguin_lm = smf.ols('bill_length_mm ~ species', data=penguins).fit()

Sau đó, đưa mô hình này vào hàm anova_lm để nhận bảng kết quả ANOVA.

results = sm.stats.anova_lm(penguin_lm)

Tương tự, ANOVA đa chiều (ví dụ, xem xét cả loài và hòn đảo sinh sống) cũng có thể được thực hiện bằng cách sử dụng dấu sao (*) trong công thức để bao gồm cả các hiệu ứng tương tác.

penguin_multi_lm = smf.ols('bill_length_mm ~ species * island', data=penguins).fit()

Sức mạnh tích hợp trong một môi trường

Với Statsmodels, các nhà khoa học dữ liệu không còn phải chuyển đổi giữa Python và R để tận dụng thế mạnh của từng ngôn ngữ. Thư viện này cung cấp một bộ công cụ mạnh mẽ, chính xác và dễ sử dụng để thực hiện các phân tích thống kê phức tạp ngay trong hệ sinh thái Python, giúp biến dữ liệu thô thành những hiểu biết sâu sắc và các quyết định kinh doanh thông minh.

CTVX

Nguồn Lâm Đồng: https://baolamdong.vn/statsmodels-phan-tich-hoi-quy-kieu-r-ngay-trong-python-399830.html

Thảm họa với người dùng Gmail

17 phút

VNeID là 'chìa khóa số'

33 phút

Cuốn sách Elon Musk khuyên đọc giữa chuyến thăm Bắc Kinh

2 giờ

Tin nóng

Italy: Thủ đô Rome khởi công siêu dự án điện rác 1 tỷ euro

5 giờ

Italy chính thức khởi công xây dựng nhà máy điện rác tại Santa Palomba, với tổng vốn đầu tư lên tới 1 tỷ euro, dự kiến sẽ đi vào hoạt động từ tháng 9/2029 và sẽ đạt công suất tối đa vào năm 2030.

Galaxy S24 phát nổ trên tay người dùng

3 giờ

Một người dùng trên mạng xã hội Reddit chia sẻ câu chuyện chiếc điện thoại Samsung Galaxy S24 của mình vừa phát nổ ở điều kiện sử dụng bình thường.

Máy bay MS-21-310 tiếp tục trễ hẹn với hàng không Nga

Chuyên trang An Ninh Thủ Đô - Báo Công an nhân dân

1 giờ

Thời hạn bàn giao máy bay MS-21-310 cho các hãng hàng không Nga lại bị đẩy lùi cho đến năm 2027.

'Người khổng lồ' C-5M Galaxy tiếp tục phục vụ đến năm 2050

2 giờ

Không quân Mỹ cho biết họ có kế hoạch duy trì hoạt động của máy bay vận tải hạng nặng C-5M Galaxy cho đến năm tài chính 2050.

Chúng ta đã biết gì về iPhone 18

3 giờ

Tin đồn về dòng iPhone 18 xuất hiện ngày càng nhiều khi một số model sẽ ra mắt trong 4 tháng tới.

Nutifood được USPTO Hoa Kỳ cấp bằng sáng chế cho Công thức FDI

2 giờ

Ngày 15/5, Nutifood chính thức công bố Công thức dinh dưỡng độc quyền FDI hỗ trợ tiêu hóa và miễn dịch đã được Văn phòng Sáng chế và Thương hiệu Hoa Kỳ (USPTO) cấp bằng sáng chế.

Tin mới

TP Hồ Chí Minh ra mắt mô hình 'Khu phố số' tại phường Bình Hưng Hòa

8 phút

Sáng 16/5, UBND phường Bình Hưng Hòa (TP Hồ Chí Minh) ra mắt mô hình 'Khu phố số' tại các khu phố 11, 12, 13, 14, 15 nhân Ngày Khoa học, Công nghệ và Đổi mới sáng tạo Việt Nam. Đây là hoạt động nhằm thúc đẩy chuyển đổi số ở cơ sở, đưa công nghệ đến gần hơn với đời sống người dân.()

Vòng đời mới của pin điện

13 phút

Trung Quốc hiện là thị trường xe điện lớn nhất thế giới, đồng thời giữ vai trò trung tâm trong sản xuất pin toàn cầu.

Ngành than chăm lo cho thợ lò, bảo đảm an toàn lao động

23 phút

Hơn 30 năm qua, từ khi Tổng Công ty Than Việt Nam, nay là Tập đoàn Công nghiệp Than-Khoáng sản Việt Nam-TKV (năm 1994) thành lập, ngành than không chỉ khẳng định vai trò trụ cột trong bảo đảm an ninh năng lượng quốc gia, mà còn vững vàng với phương châm nền tảng, lấy con người làm trung tâm, an toàn làm điểm tựa.

Apple chưa thể hoàn thiện công nghệ màn hình được kỳ vọng nhất trên iPhone

28 phút

Việc ra mắt iPhone 18 Pro vào cuối năm nay dường như chỉ là một phần trong chuỗi sản phẩm iPhone mà không mang lại nhiều điều mới mẻ.

Amazon mua đồng trực tiếp từ mỏ khai thác nhằm giải quyết cơn khát hạ tầng AI

30 phút

Lượng kim loại thu mua sẽ được sử dụng để sản xuất các linh kiện trung tâm dữ liệu từ cáp điện, máy biến áp cho đến các bảng mạch điện tử.

Tên lửa săn tiêm kích tàng hình AIM-260 Mỹ lần đầu lộ diện

37 phút

Hình ảnh đầu tiên của tên lửa không đối không AIM-260 JATM của Mỹ cuối cùng cũng xuất hiện, sau nhiều năm giữ kín.

Lễ hội mua sắm 618 tại Trung Quốc: AI thay đổi cách người Trung Quốc mua sắm

1 giờ

Lễ hội mua sắm 618 năm nay tại Trung Quốc không còn đơn thuần là cuộc đua giảm giá giữa các nền tảng thương mại điện tử. Phía sau hàng triệu đơn hàng được chốt mỗi giờ là một cuộc cạnh tranh công nghệ khốc liệt chưa từng có, nơi AI đang dần thay thế nhiều khâu từng phụ thuộc hoàn toàn vào con người.

Đẩy mạnh cơ giới hóa, nâng cao hiệu quả thu gom rác

1 giờ

Mỗi ngày, thành phố Hà Nội phát sinh khoảng 8.500 tấn rác thải sinh hoạt, tạo áp lực lớn lên hệ thống thu gom, vận chuyển và xử lý. Trước yêu cầu xây dựng đô thị xanh, phát thải thấp, thành phố đang đẩy mạnh cơ giới hóa, từng bước thay thế phương thức thu gom rác thủ công bằng công nghệ và phương tiện hiện đại. Đây được xem là bước đi quan trọng nhằm nâng cao chất lượng môi trường sống, hướng tới phát triển đô thị bền vững.

Statsmodels: Phân tích hồi quy kiểu R ngay trong Python

Khám phá thư viện Statsmodels, công cụ cho phép các nhà khoa học dữ liệu thực hiện phân tích hồi quy tuyến tính và ANOVA với cú pháp kiểu R quen thuộc, mạnh mẽ và chính xác.

Nhóm người chửi bới, tấn công hai cô gái sau khi trêu ghẹo bất thành

Tử hình đối tượng phóng hỏa quán cà phê khiến 11 người tử vong

Tổng thống Mỹ Donald Trump rời Bắc Kinh

CLIP: Mưa gió kinh hoàng, nhiều nhà dân tốc mái, cây xanh gãy đổ la liệt

Dẫn giải trùm' ma túy Bùi Đình Khánh cùng 3 đồng phạm bị tuyên án tử hình rời tòa