Phân tích hồi quy là một phân tích thống kê để xác định xem các biến độc lập (biến thuyết minh) quy định các biến phụ thuộc (biến được thuyết minh) như thế nào.
Giới thiệu
Đây là một phương pháp thống kê mà giá trị kỳ vọng của một hay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu nhiên (đã tính toán) khác. Cụ thể, có hồi qui tuyến tính, hồi qui lôgic, hồi qui Poisson và học có giám sát. Phân tích hồi qui không chỉ là trùng khớp đường cong (lựa chọn một đường cong mà vừa khớp nhất với một tập điểm dữ liệu); nó còn phải trùng khớp với một mô hình với các thành phần ngẫu nhiên và xác định (deterministic and stochastic components). Thành phần xác định được gọi là bộ dự đoán (predictor) và thành phần ngẫu nhiên được gọi là phần sai số (error term).
Dạng đơn giản nhất của một mô hình hồi qui chứa một biến phụ thuộc (còn gọi là "biến đầu ra," "biến nội sinh," "biến được thuyết minh", hay "biến-Y") và một biến độc lập đơn (còn gọi là "hệ số," "biến ngoại sinh", "biến thuyết minh", hay "biến-X").
Ví dụ thường dùng là sự phụ thuộc của huyết áp Y theo tuổi tác X của một người, hay sự phụ thuộc của trọng lượng Y của một con thú nào đó theo khẩu phần thức ăn hằng ngày X. Sự phụ thuộc này được gọi là hồi qui của Y lên X.
Xem thêm: phân phối chuẩn đa biến (multivariate normal distribution), các ẩn bản quan trọng trong phân tích hồi qui.
Hồi qui thường được xếp vào loại bài toán tối ưu vì chúng ta nỗ lực để tìm kiếm một giải pháp để cho sai số và phần dư là tốt nhất. Phương pháp sai số chung nhất được sử dụng là phương pháp bình phương cực tiểu: phương pháp này tương ứng với một hàm hợp lý dạng Gauss của các dữ liệu quan sát khi biết biến ngẫu nhiên (ẩn). Về một mặt nào đó, bình phương cực tiểu là một phương pháp ước lượng tối ưu: xem định lý Gauss-Markov.
Để giải quyết bài toán tối ưu trong hồi qui thường dùng các giải thuật như giải thuật hạ bậc gradient gradient descent, giải thuật Gauss-Newton, và giải thuật Levenberg-Marquardt. Các giải thuật xác suất như RANSAC có thể được dùng để tìm một phù hợp tốt cho tập mẫu, khi cho trước một mô hình tham số hóa của hàm đường cong.
Hồi qui có thể được biểu diễn bằng phương pháp hàm hợp lý ước lượng các tham số của một mô hình nào đó. Tuy nhiên, với một lượng nhỏ dữ liệu, ước lượng này có thể có phương sai lớn (high variance). Các phương pháp Bayesian có thể được sử dụng để ước lượng các mô hình hồi qui. Các tham số có một phân phối điều kiện được giả định trước, nó bao gồm mọi thông tin thống kê đã biết trước về các biến. (Ví dụ, nếu một tham số được biết là không âm thì một phân phối không âm sẽ được gán cho nó.) Phân phối được giả định trước này sau đó được áp dụng cho vector tham số. Phương pháp Bayes có ưu điểm là khai thác được toàn bộ các thông tin đã có và nó là ước lượng chính xác, không phải ước lượng chệch và do đó rất tốt cho các tập số liệu nhỏ. Trong thực hành, người ta sử dụng phương pháp MAP maximum a posteriori, phương pháp này đơn giản hơn phân tích Bayes đầy đủ, trong đó các tham số được chọn sao cho cực đại hóa phân phối giả định trước posterior. Các phương pháp MAP có liên hệ với Occam's Razor: ở chỗ có sự ưu tiên cho sự đơn giản, khi có nhiều mô hình hồi qui (đường cong) cũng như khi có nhiều lý thuyết thì chọn cái đơn giản.
Công thức tổng quát
Chúng ta muốn dự báo giá trị của một biến ngẫu nhiên Y có điều kiện dựa trên một biến ngẫu nhiên khác gọi là nhân tố. Đặt là số nhân tố được sử dụng cho dự đoán này.
xác định một không gian xác suất và
là một không gian đo được trong đó
là
và
với
). Bây giờ chúng ta có thể xác định biến phụ thuộc
và
. Bây giờ, đặt
là tập các hàm được xác định bởi
nhận các giá trị trong
mà
và
là một metric (độ đo) sao cho
là một không gian metric đầy đủ complete metric space.
Chúng ta đang tìm một hàm đo được sao cho là nhỏ nhất.
Hồi qui tuyến tính
Hồi quy tuyến tính là một trường hợp rất phổ biến trong thực tế. Ta giả thiết rằng hàm phụ thuộc tuyến tính vào bộ như vậy ta chỉ cần tìm kiếm các hệ số phù hợp.
Đặt là tập các hệ số. Đối thuyết của hồi quy tuyến tính là:
:
:
và matric được sử dụng ở đây là:
:
Chúng ta muốn cực tiểu hóa , có nghĩa là
:.
Như vậy chỉ cần tìm .
Để giải quyết bài toán này một cách hiệu quả, một số phương pháp đã được đưa ra. Phương pháp phổ biến nhất là phương pháp Gauss-Markov, nhưng nó đòi hỏi thêm một số đối thuyết nữa.
Mô hình tuyến tính Gauss-Markov
Ước lượng bình phương cực tiểu của các hệ số
:Xem thêm bình phương cực tiểu
Ví dụ
Ví dụ đơn giản nhất của hồi qui là trong trường hợp 1 chiều. Chúng ta được cấp một vec-tơ của các giá trị x và một vec-tơ khác của các giá trị y và chúng ta đang cố gắng tìm kiếm một hàm mà .
:giả sử
\vec{y} = \begin{pmatrix}
5 \
2 \
1 \
2 \
5 \ \end{pmatrix}
Giả thiết rằng giải pháp (hàm) của chúng ta là thuộc họ các hàm được định bởi chuỗi Fourier mở rộng cấp 3 (3rd degree Fourier expansion) được viết dưới dạng:
:
với là các số thực. Bài toán này có thể được biểu diễn theo dạng ma trận như sau:
:
điền vào dạng này các giá trị của chúng ta sẽ cho ta bài toán với dạng Xw = y
:
Bài toán này bây giờ có thể chuyển thành bài toán tối ưu để tìm ra tổng cực tiểu của bình phương sai số.
hàm Fourier bậc 3
:
:
giải bằng phương pháp bình phương cực tiểu cho ra:
:
vì thế hàm Fourier bậc 3 mà trùng khớp nhất với dữ liệu có công thức cụ thể:
:
👁️
0 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Phân tích hồi quy** là một phân tích thống kê để xác định xem các biến độc lập (biến thuyết minh) quy định các biến phụ thuộc (biến được thuyết minh) như thế nào. ##
Phân tích **hồi quy tuyến tính** là một phương pháp phân tích quan hệ giữa biến phụ thuộc Y với một hay nhiều biến độc lập X. Mô hình hóa sử dụng hàm tuyến tính
thumb|300 px| Xem chi tiết ở bài [[động học Michaelis–Menten]] Trong thống kê, **hồi quy phi tuyến tính** là một dạng phân tích hồi quy trong đó dữ liệu quan sát được mô hình hóa
**Phân tích hội thoại** (tiếng Anh là **Conversation analysis**, thường được viết tắt là **CA**) là một hướng tiếp cận nghiên cứu tương tác trong xã hội, quan tâm đến các tình huống giao tiếp
**Phân tích tính toán** (Analytics) là phân tích tính toán có hệ thống của dữ liệu hoặc thống kê. Đây là quá trình phát hiện, giải thích và truyền đạt các mô hình có ý
Trong tài chính, **phân tích kỹ thuật** là một phương pháp phân tích chứng khoán dự báo hướng của giá cả thông qua việc nghiên cứu các dữ liệu thị trường quá khứ, chủ yếu
Phân tích dữ liệu kinh doanh không còn là lựa chọn phụ trợ mà đã trở thành yếu tố cốt lõi trong vận hành và ra quyết định của doanh nghiệp hiện đại. Khi thông
Phương pháp AAS được viết tắt từ phương pháp phổ hấp thu nguyên tử (Atomic Absorption Spectrophotometric). Các nguyên tử ở trạng thái bình thường thì chúng không hấp thu hay bức xạ năng lượng
**Phân tích cơ bản** một doanh nghiệp liên quan đến việc phân tích các báo cáo tài chính và sức khỏe của nó, các lợi thế quản lý và cạnh tranh của nó, và các
**Phân tích website (Website analytics)** là việc đo lường, thu thập, phân tích và báo cáo dữ liệu web nhằm mục đích hiểu và tối ưu hóa việc sử dụng web. Tuy nhiên, phân tích
**Chủ tịch Hội đồng nhân dân thành phố Hà Nội** là người đứng đầu Hội đồng nhân dân thành phố Hà Nội, cơ quan lập pháp của thành phố. Chủ tịch Hội đồng nhân dân
Trong đại số tuyến tính, **ma trận lũy đẳng** là ma trận mà khi nhân với chính nó, sẽ cho ra chính nó. Có nghĩa là, ma trận là lũy đẳng khi và chỉ
**Phân tích độ nhạy (SA)** là kỹ thuật làm thế nào để phân chia _sự không chắc chắn_ trong kết quả đầu ra của một _mô hình toán học_ hoặc _một hệ thống_ (hệ thống
thumb|Đồ thị của một dữ liệu có tính hiệp phương sai không đồng nhất. Ta thấy các điểm phân bố rời rạc Trong thống kê và kinh tế lượng, một tập hợp các biến ngẫu
Trong phân tích hồi quy, **biến giả** là biến chỉ lấy giá trị 0 hoặc 1 (vì thế còn được gọi là **biến nhị nguyên**) để chỉ ra sự tồn tại hay không tồn tại
**Hội Quy hoạch Phát triển đô thị Việt Nam** (tên tiếng Anh: **Vietnam Urban Planning and Development Association**), tên viết tắt là **VUPDA** là một tổ chức xã hội – nghề nghiệp được thành lập
thumb|Một phân tích thời tiết bề mặt cho Hoa Kỳ vào ngày 21 tháng 10 năm 2006. Vào thời điểm đó, bão Paul (2006) đã hoạt động (Paul sau đó trở thành một hurricane). **Phân
nhỏ|Cài đặt máy tính để bàn tạo mẫu nhanh bằng quy trình SLA Trong thiết kế cho sản xuất đắp dần (DFAM), có cả hai chủ đề rộng (áp dụng cho nhiều quy trình sản
Phân tích phương trình vi phân từng phần bằng phương pháp số là một nhánh nghiên cứu của phân tích số, hay còn gọi là giải tích số, một lĩnh vực nghiên cứu về lời
**Chủ tịch Hội đồng Trị Sự Giáo hội Phật giáo Việt Nam** là người đứng đầu Hội đồng Trị sự thuộc Giáo hội Phật giáo Việt Nam, thay mặt Giáo hội Phật giáo Việt Nam
Trong các ngành kỹ thuật hệ thống và kỹ nghệ phần mềm, **phân tích yêu cầu** là công việc bao gồm các tác vụ xác định các yêu cầu cho một hệ thống mới hoặc
Câu Hỏi - Bài Tập - Trắc Nghiệm Kinh Tế Vi Mô Kinh tế vi mô là một trong những môn học cơ sở ngành đối với sinh viên thuộc khối ngành kinh tế ở
nhỏ|Phân Tích Tổng Hợp Trong thống kê, **phân tích tổng hợp** (tiếng Anh: _meta-analysis_) kết hợp kết quả của một vài nghiên cứu để giải quyết một chuỗi các giả thuyết liên quan đến nghiên
Số/ Ký hiệu: 518/QĐ-TTg Ngày ban hành: 27/03/2013 Ngày hiệu lực: 27/03/2013 Hình thức văn bản: Quyết định Đơn vị ban hành/ Người ký/ Chức vụ: Thủ tướng Chín phủ | Nguyễn Thiện Nhân |
**Phân tích chi phí - lợi ích** (CBA, viết tắt của **Cost-Benefit Analysis**), đôi khi được gọi là **Phân tích lợi ích - chi phí** (BCA), là một quá trình có hệ thống để tính
**Phan Bích Thiện** (sinh ngày 31 tháng 8 năm 1968) là một doanh nhân, nhà hoạt động xã hội người Việt Nam, hiện đang sống tại Hungary. Bà tốt nghiệp tiến sĩ kinh tế tại
**Quy trình** (tiếng Hán: 規程- tiếng Anh: Procedure) là _trình tự_ (thứ tự, cách thức) thực hiện một hoạt động đã được _quy định_, mang tính chất bắt buộc, đáp ứng những mục tiêu cụ
nhỏ|phải|Một tài liệu về phân tích thị trường **Phân tích thị trường** (_Market analysis_) là một quá trình nghiên cứu và đánh giá sâu rộng về một thị trường, nghiên cứu sức hấp dẫn và
**Phân tích mẫu vết máu (tiếng Anh: Bloodstain pattern analysis** - **BPA**), một trong những tiến bộ trong lĩnh vực khoa học pháp y, liên quan đến việc nghiên cứu và phân tích vết máu
**Chủ tịch Hội đồng Bộ trưởng** là chức danh của người đứng đầu cơ quan hành chính Nhà nước cao nhất của một số nước thuộc khối xã hội chủ nghĩa là Hội đồng Bộ
**Phân tích tìm kiếm** (Search analytics) là việc phân tích các truy vấn tìm kiếm được nhập bởi người dùng của một công cụ tìm kiếm (Search tool) cụ thể (Ví dụ: Google, Bing, Wolfram
liên_kết=https://en.wikipedia.org/wiki/File:%22Colored%22_drinking_fountain_from_mid-20th_century_with_african-american_drinking.jpg|thế=|nhỏ|272x272px|Một người Mỹ gốc Phi uống nước từ một bình nước tách riêng theo chủng tộc dán nhãn "[cho người] Da màu", ở [[Thành phố Oklahoma, .]] **Phân biệt đối xử** là quá trình tạo
**Máy phân tích tự động** là một thiết bị xét nghiệm y học được thiết kế để đo nhanh chóng nhiều chất và các đặc điểm khác ở một số mẫu sinh học với hỗ
alt=Các mức hồi quy Fibonacci chỉ ra cho cặp tiền tệ USD/CAD| Các mức hồi quy Fibonacci chỉ ra cho [[thị trường ngoại hối|cặp tiền tệ USD/CAD. Trong trường hợp này, giá giảm (thoái lui)
**Mạng thần kinh hồi quy** (hay còn gọi là **mạng thần kinh/nơ-ron tái phát**, **mạng thần kinh tái phát**, tiếng Anh: **recurrent neural network**, viết tắt **RNN**) là một lớp của mạng thần kinh nhân
thumb|Sơ đồ minh hoạ của **Phân tích SWOT** **Phân tích SWOT** là một trong 5 bước tạo thành chiến lược sản xuất kinh doanh của một doanh nghiệp, bao gồm: _xác lập tôn chỉ của
MÁY SOI DA MINI, SOI DA THÔNG MINH CF685 Máy soi da thông minh CF685 có thể phóng đại 50-200 trên bề mặt da, giúp nhận biết được tình trạng da dưới lớp biểu bì.
MÁY SOI DA MINI, SOI DA THÔNG MINH CF685 Máy soi da thông minh CF685 có thể phóng đại 50-200 trên bề mặt da, giúp nhận biết được tình trạng da dưới lớp biểu bì.
Phân Tích Dữ Liệu Với R Hỏi Và Đáp Phân tích dữ liệu đã và đang trở thành một bộ môn khoa học được rất nhiều người trong giới nghiên cứu khoa học quan tâm.
Phân Tích Dữ Liệu Với R - Hỏi Và Đáp Tái Bản 2018 Phân tích dữ liệu đã và đang trở thành một bộ môn khoa học được rất nhiều người trong giới nghiên cứu
nhỏ|phải|Một biểu đồ tài chính **Phân tích báo cáo tài chính** (_Financial statement analysis_) hay còn gọi là **Phân tích tài chính** (_Financial analysis_) là quá trình xem xét và phân tích một báo cáo
Chuyện thật như đùa, trong thời gian dài làm cố vấn doanh nghiệp cuối cùng tôi lại gặp lời than khổ từ một chị chủ tịch đại gia. Chị đầy ấm ức và điện thoại
Hình minh họa Kết quả của việc khớp một tập hợp các điểm dữ liệu với hàm bậc hai Trong toán học, **phương pháp bình phương tối thiểu (Ordinary least square)**, còn gọi là **bình
thumb|Blauer Hof Palace ở [[Laxenburg]] **Viện Phân tích Hệ thống Ứng dụng Quốc tế** hay **Viện Quốc tế về Phân tích Hệ thống Ứng dụng**, viết tắt theo tiếng Anh là **IIASA** (International Institute for
Trong thời đại công nghệ 4.0, Big Data và Blockchain là hai "người khổng lồ" đang thay đổi cách con người xử lý và sử dụng dữ liệu. Big Data phân tích khối lượng dữ
Trong đại số tuyến tính, **phân tích LU** (LU decomposition, LU factorization) là phương pháp phân tích ma trận thành tích của một ma trận tam giác dưới và một ma trận tam giác trên.
Đây là danh sách **Phần mềm mã nguồn mở**: là phần mềm máy tính được cấp phép giấy phép mã nguồn mở. Bài viết này không có tham vọng liệt kê tất cả những phần
Trong mô hình toán học, mô hình thống kê và khoa học thực nghiệm, các giá trị của **các biến phụ thuộc** phụ thuộc vào các giá trị của **các biến độc lập**. Các biến
Sản phẩm Đông Trùng Hạ Thảo - Sấy Thăng Hoa đã được kiểm nghiệm bởi viện thực phẩm chức năng - Trung tâm nghiên cứu VIDS cấp phiếu phân tích. VIDS một tổ chức khoa
Trong thống kê, **kiểm định White** (tiếng Anh: White test) là một kiểm định thống kê kiểm tra xem phương sai thặng dư có bất biến hay không. Nếu bất biến thì tốt. Lúc đó