Thống kê là gì? (What Is Statistics?)
Thống kê là một nhánh của toán học ứng dụng liên quan đến việc thu thập, mô tả, phân tích và suy luận các kết luận từ dữ liệu định lượng. Các lý thuyết toán học đằng sau thống kê chủ yếu dựa vào phép tính vi phân và tích phân (differential and integral calculus), đại số tuyến tính (linear algebra) và lý thuyết xác suất (probability theory).
Những người làm thống kê được gọi là nhà thống kê. Họ đặc biệt quan tâm đến việc xác định cách đưa ra kết luận đáng tin cậy về các nhóm lớn và các sự kiện chung từ hành vi và các đặc điểm có thể quan sát được khác của các mẫu nhỏ. Những mẫu nhỏ này đại diện cho một phần của nhóm lớn hoặc một số ít trường hợp của một hiện tượng chung.
Điểm chính
- Thống kê là nghiên cứu và thao tác dữ liệu (Statistics is the study and manipulation of data), bao gồm các cách thu thập, xem xét, phân tích và rút ra kết luận từ dữ liệu.
- Hai lĩnh vực chính của thống kê là thống kê mô tả và thống kê suy luận (descriptive and inferential statistics).
- Thống kê có thể được truyền đạt ở các cấp độ khác nhau, từ mô tả phi số (cấp danh nghĩa) đến số liên quan đến điểm 0 (cấp tỷ lệ) (from non-numerical descriptor (nominal-level) to numerical in reference to a zero-point (ratio-level)).
- Một số kỹ thuật lấy mẫu có thể được sử dụng để tổng hợp dữ liệu thống kê, bao gồm lấy mẫu ngẫu nhiên đơn giản, hệ thống, phân tầng hoặc cụm (including simple random, systematic, stratified, or cluster sampling).
- Số liệu thống kê có mặt ở hầu hết mọi bộ phận của mọi công ty và cũng là một phần không thể thiếu trong đầu tư (an integral part of investing as well).
:max_bytes(150000):strip_icc():format(webp)/statistics-ae8f1320de174c279eeeee49c4087917.jpg)
Investopedia / Dennis Madamba
Hiểu thống kê (Understanding Statistics)
Thống kê được sử dụng trong hầu hết các ngành khoa học, chẳng hạn như khoa học vật lý và xã hội cũng như trong kinh doanh, nhân văn, chính phủ và sản xuất. Thống kê về cơ bản là một nhánh của toán học ứng dụng được phát triển từ việc áp dụng các công cụ toán học, bao gồm phép tính và đại số tuyến tính đến lý thuyết xác suất.
Trong thực tế, thống kê là ý tưởng mà chúng ta có thể tìm hiểu về các thuộc tính của một tập hợp lớn các đối tượng hoặc sự kiện (tổng thể, a population) bằng cách nghiên cứu các đặc điểm của một số lượng nhỏ hơn các đối tượng hoặc sự kiện tương tự (một mẫu, a sample). Trong nhiều trường hợp, việc thu thập dữ liệu toàn diện về toàn bộ tổng thể là quá tốn kém, khó khăn hoặc không thể thực hiện được, vì vậy, số liệu thống kê bắt đầu bằng một mẫu có thể được quan sát một cách thuận tiện hoặc hợp lý.
Các nhà thống kê đo lường và thu thập dữ liệu về các cá nhân hoặc thành phần của một mẫu, sau đó họ phân tích dữ liệu này để tạo ra số liệu thống kê mô tả. Sau đó, họ có thể sử dụng các đặc điểm được quan sát này của dữ liệu mẫu, được gọi chính xác là "thống kê", để đưa ra suy luận hoặc phỏng đoán có căn cứ về các đặc điểm không được đo lường (hoặc không được đo lường) của tổng thể rộng hơn, được gọi là các tham số.
Thống kê không chính thức có từ nhiều thế kỷ trước. Một ghi chép ban đầu về sự trao đổi thư từ giữa các nhà toán học người Pháp Pierre de Fermat và Blaise Pascal vào năm 1654 thường được coi là một ví dụ ban đầu về phân tích xác suất thống kê.
Thống kê mô tả và suy luận (Descriptive and Inferential Statistics)
Hai lĩnh vực thống kê chính được gọi là thống kê mô tả , mô tả các thuộc tính của dữ liệu mẫu và tổng thể, và thống kê suy luận, sử dụng các thuộc tính đó để kiểm tra các giả thuyết và đưa ra kết luận. Thống kê mô tả bao gồm giá trị trung bình (trung bình, average), phương sai (variance), độ lệch (skewness) và độ nhọn (kurtosis). Thống kê suy luận bao gồm phân tích hồi quy tuyến tính (linear regression analysis), phân tích phương sai (analysis of variance, ANOVA), mô hình logit/Probit (logit/Probit models) và kiểm tra giả thuyết khống (null hypothesis testing).
Thống kê mô tả (Descriptive Statistics)
Thống kê mô tả chủ yếu tập trung vào xu hướng trung tâm, tính biến đổi và phân phối dữ liệu mẫu. Xu hướng trung tâm có nghĩa là ước tính các đặc điểm, yếu tố điển hình của một mẫu hoặc tổng thể. Nó bao gồm các số liệu thống kê mô tả như giá trị trung bình , trung vị và mốt (mean, median, and mode).
Tính biến thiên đề cập đến một tập hợp số liệu thống kê cho thấy mức độ khác biệt giữa các yếu tố của một mẫu hoặc tổng thể dọc theo các đặc điểm được đo. Nó bao gồm các số liệu như phạm vi, phương sai và độ lệch chuẩn (range, variance, and standard deviation).
Phân phối đề cập đến "hình dạng" tổng thể của dữ liệu, có thể được mô tả trên biểu đồ như biểu đồ hoặc biểu đồ chấm và bao gồm các thuộc tính như hàm phân phối xác suất, độ lệch và độ nhọn. Thống kê mô tả cũng có thể mô tả sự khác biệt giữa các đặc điểm được quan sát của các phần tử trong tập dữ liệu. Chúng có thể giúp chúng ta hiểu các thuộc tính chung của các phần tử của mẫu dữ liệu và tạo cơ sở để kiểm tra các giả thuyết và đưa ra dự đoán bằng cách sử dụng thống kê suy luận.
Thống kê suy luận (Inferential Statistics)
Thống kê suy luận là công cụ mà các nhà thống kê sử dụng để đưa ra kết luận về các đặc điểm của dân số, được rút ra từ các đặc điểm của mẫu và để xác định mức độ tin cậy của các kết luận đó. Dựa trên cỡ mẫu và sự phân bố, các nhà thống kê có thể tính toán xác suất mà số liệu thống kê đo lường xu hướng trung tâm, tính biến thiên, sự phân bố và mối quan hệ giữa các đặc điểm trong một mẫu dữ liệu, cung cấp một bức tranh chính xác về các tham số tương ứng của toàn bộ tổng thể mà từ đó mẫu dữ liệu được lấy mẫu được rút ra.
Thống kê suy luận được sử dụng để đưa ra những khái quát hóa về các nhóm lớn, chẳng hạn như ước tính nhu cầu trung bình cho một sản phẩm bằng cách khảo sát một mẫu thói quen mua hàng của người tiêu dùng hoặc cố gắng dự đoán các sự kiện trong tương lai. Điều này có thể có nghĩa là dự đoán lợi nhuận trong tương lai của một loại chứng khoán hoặc loại tài sản dựa trên lợi nhuận trong một khoảng thời gian mẫu.
Phân tích hồi quy (Regression analysis) là một kỹ thuật suy luận thống kê được sử dụng rộng rãi để xác định cường độ và bản chất của mối quan hệ (mối tương quan) giữa một biến phụ thuộc và một hoặc nhiều biến giải thích (độc lập). Đầu ra của mô hình hồi quy (regression model) thường được phân tích về ý nghĩa thống kê, trong đó đề cập đến tuyên bố rằng kết quả từ những phát hiện được tạo ra bằng thử nghiệm hoặc thử nghiệm không có khả năng xảy ra ngẫu nhiên hoặc tình cờ. Nó có thể là do một nguyên nhân cụ thể được dữ liệu làm sáng tỏ.
Ý nghĩa thống kê rất quan trọng đối với các ngành học thuật hoặc những người thực hành phụ thuộc nhiều vào việc phân tích dữ liệu và nghiên cứu.
Giá trị trung bình, trung vị và mốt (Mean, Median, and Mode)
Các thuật ngữ trung bình, trung vị và mốt thuộc về xu hướng trung tâm. Chúng mô tả một phần tử điển hình trong một nhóm mẫu nhất định. Bạn có thể tìm thấy bộ mô tả trung bình bằng cách cộng các số trong nhóm và chia kết quả cho số lượng quan sát tập dữ liệu.
Số ở giữa trong tập hợp là số trung vị. Một nửa số được bao gồm cao hơn số trung vị và một nửa nhỏ hơn. Giá trị căn nhà trung bình trong một khu phố sẽ là $350.000 nếu có năm ngôi nhà ở đó và có giá trị lần lượt là $500.000, $400.000, $350.000, $325.000 và $300.000. Hai giá trị cao hơn và hai giá trị thấp hơn.
Chế độ xác định số nằm giữa giá trị cao nhất và thấp nhất. Nó xuất hiện thường xuyên nhất trong tập dữ liệu.
Hiểu dữ liệu thống kê (Understanding Statistical Data)
Nguồn gốc của số liệu thống kê được điều khiển bởi các biến (The root of statistics is driven by variables). Biến là một tập dữ liệu có thể đếm được để đánh dấu một đặc tính hoặc thuộc tính của một mục. Ví dụ: một chiếc ô tô có thể có các biến như nhãn hiệu, kiểu dáng, năm sản xuất, quãng đường đã đi, màu sắc hoặc tình trạng. Bằng cách kết hợp các biến trên một tập hợp dữ liệu, chẳng hạn như màu sắc của tất cả ô tô trong một bãi đậu xe nhất định, số liệu thống kê cho phép chúng tôi hiểu rõ hơn về xu hướng và kết quả.
Có hai loại biến chính. Đầu tiên, các biến định tính là những thuộc tính cụ thể thường không phải là số. Nhiều ví dụ được đưa ra trong ví dụ về ô tô là định tính. Các ví dụ khác về các biến định tính trong thống kê là giới tính, màu mắt hoặc thành phố sinh. Dữ liệu định tính thường được sử dụng nhiều nhất để xác định tỷ lệ phần trăm kết quả xảy ra đối với bất kỳ biến định tính nhất định nào. Phân tích định tính (Qualitative analysis) thường không dựa vào con số. Ví dụ: cố gắng xác định bao nhiêu phần trăm phụ nữ sở hữu một doanh nghiệp sẽ phân tích dữ liệu định tính.
Loại biến thứ hai trong thống kê là biến định lượng (quantitative variables). Các biến định lượng được nghiên cứu bằng số và chỉ có trọng số khi chúng là một bộ mô tả phi số. Tương tự như phân tích định lượng, thông tin này bắt nguồn từ các con số. Trong ví dụ về ô tô ở trên, quãng đường đã đi là một biến định lượng, nhưng con số 60.000 không có giá trị trừ khi được hiểu đó là tổng số dặm đã đi.
Các biến định lượng có thể được chia thành hai loại. Đầu tiên, các biến rời rạc có những hạn chế trong thống kê và suy ra rằng có những khoảng cách giữa các giá trị biến rời rạc tiềm năng. Số điểm ghi được trong một trận bóng đá là một biến rời rạc vì:
- Không thể có số thập phân và
- Một đội không thể chỉ ghi được một điểm
Thống kê cũng sử dụng các biến định lượng liên tục. Các giá trị này chạy dọc theo một thang đo. Các giá trị rời rạc có những hạn chế, nhưng các biến liên tục thường được đo bằng số thập phân. Có thể đạt được bất kỳ giá trị nào trong giới hạn có thể khi đo chiều cao của các cầu thủ bóng đá và chiều cao có thể được đo xuống đến 1/16 inch, nếu không muốn nói là xa hơn.
Các nhà thống kê có thể nắm giữ nhiều chức danh và vị trí khác nhau trong một công ty. Tổng mức lương trung bình cho một nhà thống kê có kinh nghiệm từ một đến ba năm tính đến tháng 12 năm 2021 là 84.958 USD tính đến tháng 5 năm 2022. Con số này tăng lên 111.846 USD với 15 năm kinh nghiệm.
Mức độ thống kê của đo lường (Statistical Levels of Measurement)
Có một số mức độ đo lường sau khi phân tích các biến số và kết quả. Thống kê có thể định lượng kết quả theo bốn cách.
Đo lường mức danh nghĩa (Nominal-level Measurement)
Không có giá trị bằng số hoặc định lượng và chất lượng không được xếp hạng. Thay vào đó, các phép đo ở mức danh nghĩa chỉ đơn giản là nhãn hoặc danh mục được gán cho các biến khác. Dễ dàng nhất coi các phép đo ở mức danh nghĩa là những sự kiện phi số về một biến (nominal-level measurements as non-numerical facts about a variable).
Ví dụ: Tên của Tổng thống được bầu vào năm 2020 là Joseph Robinette Biden, Jr.
Đo lường cấp thứ tự (Ordinal-level Measurement)
Kết quả có thể được sắp xếp theo thứ tự nhưng tất cả các giá trị dữ liệu đều có cùng giá trị hoặc trọng số (all data values have the same value or weight). Mặc dù các phép đo ở cấp độ số, thứ tự không thể được trừ với nhau trong thống kê vì chỉ có vị trí của điểm dữ liệu mới quan trọng. Các cấp độ thứ tự thường được đưa vào số liệu thống kê phi tham số và được so sánh với nhóm biến tổng.
Ví dụ: Fred Kerley người Mỹ là người nhanh thứ 2 tại Thế vận hội Tokyo 2020 tính theo thời gian chạy nước rút 100 mét.
Đo lường mức độ khoảng thời gian (Interval-level Measurement)
Các kết quả có thể được sắp xếp theo thứ tự nhưng sự khác biệt giữa các giá trị dữ liệu giờ đây có thể có ý nghĩa. Hai điểm dữ liệu thường được sử dụng để so sánh thời gian trôi qua hoặc các điều kiện thay đổi trong một tập dữ liệu. Thường không có "điểm bắt đầu" cho phạm vi giá trị dữ liệu và ngày hoặc nhiệt độ theo lịch có thể không có giá trị 0 nội tại có ý nghĩa.
Ví dụ: Lạm phát đạt 8,6% vào tháng 5 năm 2022. Lần cuối cùng lạm phát cao như vậy là vào tháng 12 năm 1981.
Đo lường mức tỷ lệ (Ratio-level Measurement)
Kết quả có thể được sắp xếp theo thứ tự và sự khác biệt giữa các giá trị dữ liệu giờ đây có ý nghĩa. Nhưng có một điểm bắt đầu hoặc "giá trị 0" có thể được sử dụng để cung cấp thêm giá trị cho giá trị thống kê. Tỷ lệ giữa các giá trị dữ liệu có ý nghĩa, bao gồm cả khoảng cách của nó với số 0.
Ví dụ: Nhiệt độ khí tượng thấp nhất được ghi nhận là -128,6 độ F ở Nam Cực.
Kỹ thuật lấy mẫu thống kê (Statistics Sampling Techniques)
Thường không thể thu thập dữ liệu từ mọi điểm dữ liệu trong quần thể để thu thập thông tin thống kê. Thay vào đó, số liệu thống kê dựa vào các kỹ thuật lấy mẫu khác nhau để tạo ra một tập hợp con đại diện của tổng thể dễ phân tích hơn. Trong thống kê, có một số loại lấy mẫu chính trong thống kê.
Phương pháp lấy mẫu ngẫu nhiên đơn giản (Simple Random Sampling)
Lấy mẫu ngẫu nhiên đơn giản đòi hỏi mọi thành viên trong quần thể đều có cơ hội được chọn để phân tích như nhau. Toàn bộ tổng thể được sử dụng làm cơ sở để lấy mẫu và bất kỳ trình tạo ngẫu nhiên nào dựa trên cơ hội đều có thể chọn các mục mẫu. Ví dụ: 100 người được xếp hàng và 10 người được chọn ngẫu nhiên.
Lấy mẫu hệ thống (Systemic Sampling)
Lấy mẫu có hệ thống cũng yêu cầu lấy mẫu ngẫu nhiên, nhưng kỹ thuật của nó được sửa đổi một chút để dễ tiến hành hơn. Một số ngẫu nhiên duy nhất được tạo ra và các cá nhân sau đó được chọn theo một khoảng thời gian đều đặn được chỉ định cho đến khi hoàn thành cỡ mẫu. Ví dụ: 100 cá nhân được xếp hàng và đánh số. Cá nhân thứ 7 được chọn vào mẫu, tiếp theo là từng cá nhân thứ 9 tiếp theo cho đến khi chọn được 10 mẫu.
Lấy mẫu phân tầng (Stratified Sampling)
Lấy mẫu phân tầng yêu cầu kiểm soát nhiều hơn đối với mẫu của bạn. Dân số được chia thành các nhóm nhỏ dựa trên các đặc điểm tương tự. Sau đó, bạn tính toán xem có bao nhiêu người từ mỗi nhóm nhỏ sẽ đại diện cho toàn bộ dân số. Ví dụ: 100 cá nhân được nhóm theo giới tính và chủng tộc. Sau đó, một mẫu từ mỗi nhóm nhỏ được lấy theo tỷ lệ tương ứng với mức độ đại diện của nhóm đó đối với dân số.
Lấy mẫu cụm (Cluster Sampling)
Lấy mẫu theo cụm cũng yêu cầu các nhóm nhỏ, nhưng mỗi nhóm nhỏ phải đại diện cho tổng thể. Toàn bộ nhóm con được chọn ngẫu nhiên thay vì chọn ngẫu nhiên các cá nhân trong một nhóm con.
Bạn không chắc chắn cầu thủ bóng chày Major League nào sẽ giành được Cầu thủ giá trị nhất năm ngoái? Số liệu thống kê, thường được sử dụng để xác định giá trị, thường được trích dẫn khi trao giải thưởng cho cầu thủ xuất sắc nhất. Số liệu thống kê có thể bao gồm số lần đánh bóng trung bình, số lần đánh trúng đích và căn cứ bị đánh cắp.
Công dụng của số liệu thống kê (Uses of Statistics)
Thống kê nổi bật trong lĩnh vực tài chính, đầu tư, kinh doanh và trên thế giới. Phần lớn thông tin bạn nhìn thấy và dữ liệu bạn cung cấp đều được lấy từ số liệu thống kê, được sử dụng trong tất cả các khía cạnh của doanh nghiệp.
- Thống kê về đầu tư bao gồm khối lượng giao dịch trung bình, mức thấp nhất trong 52 tuần, mức cao nhất trong 52 tuần, hệ số beta và mối tương quan giữa các loại tài sản hoặc chứng khoán (Statistics in investing include average trading volume, 52-week low, 52-week high, beta, and correlation between asset classes or securities.)
- Thống kê về kinh tế bao gồm GDP, thất nghiệp, giá tiêu dùng, lạm phát và các số liệu tăng trưởng kinh tế khác (Statistics in economics include GDP, unemployment, consumer pricing, inflation, and other economic growth metrics).
- Thống kê trong tiếp thị bao gồm tỷ lệ chuyển đổi, tỷ lệ nhấp, số lượng tìm kiếm và số liệu truyền thông xã hội (Statistics in marketing include conversion rates, click-through rates, search quantities, and social media metrics).
- Thống kê trong kế toán bao gồm các số liệu về tính thanh khoản, khả năng thanh toán và lợi nhuận theo thời gian (Statistics in accounting include liquidity, solvency, and profitability metrics across time).
- Thống kê trong công nghệ thông tin bao gồm băng thông, khả năng mạng và hậu cần phần cứng (Statistics in information technology include bandwidth, network capabilities, and hardware logistics).
- Thống kê về nguồn nhân lực bao gồm doanh thu của nhân viên, sự hài lòng của nhân viên và mức lương trung bình so với thị trường (Statistics in human resources include employee turnover, employee satisfaction, and average compensation relative to the market).
Tại sao số liệu thống kê lại quan trọng? (Why Is Statistics Important?)
Thống kê cung cấp thông tin để giáo dục cách mọi thứ hoạt động. Chúng được sử dụng để tiến hành nghiên cứu, đánh giá kết quả, phát triển tư duy phê phán và đưa ra quyết định sáng suốt. Thống kê có thể được sử dụng để tìm hiểu về hầu hết mọi lĩnh vực nghiên cứu nhằm điều tra lý do tại sao sự việc xảy ra, thời điểm chúng xảy ra và liệu việc tái diễn có thể dự đoán được hay không.
Sự khác biệt giữa thống kê mô tả và suy luận là gì? (What's the Difference Between Descriptive and Inferential Statistics?)
Thống kê mô tả được sử dụng để mô tả hoặc tóm tắt các đặc điểm của mẫu hoặc tập dữ liệu, chẳng hạn như giá trị trung bình, độ lệch chuẩn hoặc tần số của một biến. Thống kê suy luận sử dụng bất kỳ số lượng kỹ thuật nào để liên kết các biến trong một tập dữ liệu với nhau. Một ví dụ sẽ sử dụng phân tích tương quan hoặc hồi quy. Sau đó, chúng có thể được sử dụng để ước tính dự báo hoặc suy ra quan hệ nhân quả.
Ai sử dụng số liệu thống kê? (Who Uses Statistics?)
Thống kê được sử dụng rộng rãi trên một loạt các ứng dụng và ngành nghề. Thống kê được thực hiện bất cứ khi nào dữ liệu được thu thập và phân tích. Điều này có thể bao gồm từ các cơ quan chính phủ, nghiên cứu học thuật đến phân tích đầu tư.
Thống kê được sử dụng như thế nào trong kinh tế và tài chính? (How Are Statistics Used in Economics and Finance?)
Các nhà kinh tế thu thập và xem xét tất cả các loại dữ liệu, từ chi tiêu tiêu dùng đến nhà ở, lạm phát đến tăng trưởng GDP. Trong tài chính, các nhà phân tích và nhà đầu tư thu thập dữ liệu về các công ty, ngành, tâm lý và dữ liệu thị trường về giá cả và khối lượng. Việc sử dụng số liệu thống kê suy luận trong các lĩnh vực này được gọi là kinh tế lượng. Một số mô hình tài chính quan trọng, từ CAPM đến Lý thuyết danh mục đầu tư hiện đại (MPT) và mô hình định giá quyền chọn Black-Scholes , đều dựa vào suy luận thống kê.
Điểm mấu chốt
Thống kê là phương pháp phân tích các mẩu thông tin có vẻ mâu thuẫn hoặc không liên quan ngay từ cái nhìn đầu tiên và bề ngoài. Nó có thể dẫn đến một sự nghiệp vững chắc với tư cách là một nhà thống kê, nhưng nó cũng có thể là một thước đo hữu ích trong cuộc sống hàng ngày, có lẽ khi bạn đang phân tích tỷ lệ cược rằng đội bạn yêu thích sẽ vô địch Super Bowl trước khi bạn đặt cược, đánh giá khả năng tồn tại của một khoản đầu tư hoặc xác định xem bạn có đang bị tính phí tương đối quá cao cho một sản phẩm hoặc dịch vụ hay không.
Nguồn từ https://www.investopedia.com/terms/s/statistics.asp I Hiệu đính bởi Alex 13Oct2023


