Biểu đồ phân tán (Scatter Plot) là gì? Phân loại và cách vẽ

Biểu đồ phân tán được tạo ra với mục đích trực quan hóa dữ liệu giữa hai biến liên tục. Biểu đồ được sử dụng nhiều trong kinh doanh, thống kê và nhiều lĩnh vực khác. Mặc dù được sử dụng phổ biến, nhưng thực tế không phải doanh nghiệp nào cũng hiểu chính xác biểu đồ phân tán và cách vẽ biểu đồ này. Hãy cùng tìm hiểu chi tiết về công cụ này tại bài viết dưới đây nhé!

biểu đồ phân tán

Biểu đồ phân tán là gì?

Biểu đồ phân tán (tên tiếng Anh là Scatter Diagram/Scatter Plot) còn gọi là biểu đồ tán xạ, được sử dụng để kiểm tra mối quan hệ giữa cả hai trục (X và Y) với một biến. Trong đồ thị, nếu các biến có tương quan, thì điểm sẽ giảm dọc theo đường cong hoặc đường thẳng, sẽ cho biết bản chất của mối quan hệ. Công cụ phân tích nguyên nhân này là một trong 7 công cụ quản lý chất lượng cơ bản.

Trong sơ đồ phân tán, nếu tất cả các điểm kéo dài trên một đường thẳng, thì tương quan là hoàn hảo và thống nhất. Tuy nhiên, nếu các điểm phân tán nằm rải rác trên toàn bộ đường thẳng, thì tương quan được cho là thấp. Nếu các điểm phân tán nằm gần một đường thẳng hoặc trên một đường thẳng, thì tương quan được cho là tuyến tính.

Biểu đồ tán xạ có sự tương quan dương âm hoàn hảo
Biểu đồ tán xạ có sự tương quan dương âm hoàn hảo
biểu đồ phân tán có sự tương quan dương âm cao
Biểu đồ phân tán có sự tương quan dương âm cao
Biểu đồ tán xạ có sự tương quan dương âm thấp
Biểu đồ tán xạ có sự tương quan dương âm thấp
Biểu đồ phân tán không có sự tương quan
Biểu đồ phân tán không có sự tương quan

Khi nào nên sử dụng biểu đồ phân tán?

Biểu đồ phân tán để biểu diễn mối tương quan giữa hai biến
Biểu đồ phân tán để biểu diễn mối tương quan giữa hai biến
  • Khi bạn đã ghép nối dữ liệu số.
  • Khi biến phụ thuộc của bạn có nhiều giá trị cho mỗi giá trị của biến độc lập của bạn.
  • Khi xác định xem hai biến có liên quan hay không, chẳng hạn như:
    • Khi xác định nguyên nhân gốc rễ tiềm ẩn của các vấn đề
    • Sau khi động não về nguyên nhân và kết quả bằng cách sử dụng biểu đồ xương cá để xác định một cách khách quan liệu một nguyên nhân và kết quả cụ thể có liên quan hay không?
    • Khi xác định xem hai hiệu ứng có liên quan hay có xảy ra do cùng một nguyên nhân hay không?
    • Khi kiểm tra sự tương quan trước khi xây dựng biểu đồ kiểm soát.

Các bước xây dựng biểu đồ phân tán (Scatter Plot)

Bước 1: Lựa chọn và thu thập dữ liệu

Đầu tiên, bắt đầu xác định các biến độc lập và phụ thuộc mà bạn muốn trực quan hóa. Các biến này xác định mối quan hệ mà bạn muốn khám phá. Thu thập các cặp điểm dữ liệu nghi ngờ có mối quan hệ với nhau, đảm bảo dữ liệu đầy đủ, chính xác và nhất quán.

Bước 2: Tỷ lệ trục và phạm vi

Việc lựa chọn tỷ lệ thích hợp cho trục X và Y rất quan trọng để biểu diễn chính xác các mối quan hệ của dữ liệu. Việc lựa chọn tỷ lệ tuyến tính, logarit hoặc phân loại phụ thuộc vào bản chất của các biến và phạm vi giá trị mà chúng bao hàm. Tỷ lệ đảm bảo các điểm dữ liệu được phân bổ tối ưu, ngăn ngừa tình trạng phân cụm hoặc bóp méo dữ liệu.

Đồng thời phải xác định phạm vi cho mỗi trục, phạm vi được chọn phải bao gồm toàn bộ phạm vi giá trị dữ liệu cho cả hai biến. Phạm vi được chọn cẩn thận đảm bảo rằng các điểm dữ liệu được phân bổ tốt trong lưu đồ (Flowchart), tránh tình huống dữ liệu tập trung xung quanh các cạnh.

Bước 3: Trực quan hóa và diễn giải dữ liệu

Trực quan hóa dữ liệu bao gồm việc chuyển đổi các điểm dữ liệu thành biểu đồ phân tán. Mỗi điểm dữ liệu được vẽ trên biểu đồ tại giao điểm của các giá trị X và Y tương ứng. Sử dụng các điểm đánh dấu như hình tròn để phân biệt giữa các điểm dữ liệu trong khi vẫn duy trì tính mạch lạc trực quan. (Nếu hai dấu chấm rơi vào nhau, hãy đặt chúng cạnh nhau để bạn có thể nhìn thấy cả hai)

Sau khi hoàn thành, hãy xem xét mô hình các điểm để xem mối quan hệ có rõ ràng không. Nếu dữ liệu rõ ràng tạo thành một đường thẳng hoặc đường cong, bạn có thể dừng lại vì các biến có tương quan. Bạn có thể muốn sử dụng phân tích hồi quy hoặc tương quan ngay bây giờ. Nếu không, hãy hoàn thành các bước từ 5 đến 6.

Bước 4: Chia các điểm trên đồ thị

Tiến hành chia các điểm trên đồ thị thành 4/4. Nếu có X điểm trên đồ thị:

  • Đếm X/2 điểm từ trên xuống dưới và vẽ một đường ngang.
  • Đếm X/2 điểm từ trái sang phải và vẽ một đường thẳng đứng.
  • Nếu số điểm là số lẻ, hãy vẽ đường thẳng đi qua điểm giữa.

Sau đó, đếm các điểm trong mỗi góc phần tư. Không đếm các điểm trên một đường thẳng.

Bước 5: Tìm tổng các điểm

Cộng các góc phần tư đối diện theo đường chéo, tìm tổng nhỏ hơn và tổng các điểm trong tất cả các góc phần tư.

  • A = Các điểm ở góc trên bên trái + các điểm ở góc dưới bên phải
  • B = Các điểm ở góc trên bên phải + các điểm ở góc dưới bên trái
  • Q = Góc nhỏ hơn trong A và B

N = A + B

Bước 6: Tra cứu giới hạn N

Tra cứu giới hạn của N trên bảng kiểm tra xu hướng.

  • Nếu Q < N: hai biến X, Y có tương quan với nhau.
  • Nếu Q N: hai biến X,Y không tương quan với nhau hoặc có thể xảy ra do ngẫu nhiên.
Bảng tra cứu giới hạn N trong Scatter Plot
Bảng tra cứu giới hạn N trong Scatter Plot

► Xem thêm: Phiếu kiểm tra chất lượng: Phân loại và cách sử dụng

Ví dụ minh họa về biểu đồ phân tán

Nhóm sản xuất nghi ngờ có mối quan hệ giữa độ tinh khiết của sản phẩm (% độ tinh khiết) và lượng sắt (được đo bằng phần triệu hoặc ppm). Độ tinh khiết và sắt được biểu diễn trên biểu đồ phân tán, như thể hiện trong hình bên dưới.

ảnh ví dụ về biểu đồ phân tán
Ví dụ về biểu đồ phân tán giữa độ tinh khiết và sắt

Có 24 điểm dữ liệu, các đường trung bình được vẽ sao cho 12 điểm nằm ở mỗi bên đối với cả phần trăm độ tinh khiết và ppm sắt.

Để kiểm tra mối quan hệ, họ tính toán:

A = điểm ở góc trên bên trái + điểm ở góc dưới bên phải = 9 + 9 = 18

B = điểm ở góc trên bên phải + điểm ở góc dưới bên trái = 3 + 3 = 6

Q = số nhỏ hơn trong A và B = số nhỏ hơn trong 18 và 6 = 6

N = A + B = 18 + 6 = 24

Từ kết quả tính ở trên, thì Q < N (6 < 24), do đó kết luận rằng mô hình có thể xảy ra do ngẫu nhiên và không có mối quan hệ nào được chứng minh.

Cách vẽ biểu đồ phân tán trong Excel

Lấy một tình huống cụ thể: Có một tập dữ liệu như hình bên dưới và tôi muốn tạo một biểu đồ phân tán bằng cách sử dụng nguồn dữ liệu này.

Cách vẽ biểu đồ phân tán trong Excel

Mục đích của công việc này là để xét xét có sự tương quan giữa ngân sách marketing (Mktng Exp) và doanh thu (Revenue) hay không.

Như đã trình bày, điều quan trọng để tạo biểu đồ phân tán là phải có cả hai giá trị (2 biến số) trong hai cột riêng biệt. Cột bên trái (Mktng Exp) sẽ được biểu diễn trên Trục hoành và (Revenue) sẽ được biểu diễn trên Trục tung.

Các bước vẽ biểu đồ phân tán trong Excel

Bước 1: Chọn các cột có chữa dữ liệu (trừ cột A)

Chọn các cột có chữa dữ liệu (trừ cột A)

Bước 2: Nhấp vào Insert

Nhấp vào Insert

Bước 3: Trong nhóm Chart, nhấp vào biểu tượng Insert Scatter Chart

nhấp vào biểu tượng Insert Scatter Chart

Bước 4: Nhấp vào tùy chọn Scatter chart trong các biểu đồ xuất hiện

Nhấp vào tùy chọn Scatter chart

Các bước trên sẽ chèn một biểu đồ phân tán như được hiển thị bên dưới trong Excel:

Hình biểu đồ phân tán như được hiển thị bên dưới trong Excel

Thêm đường xu hướng vào biểu đồ phân tán

Để biểu đồ được thể hiện trực quan hơn, việc cần làm tiếp theo sau khi xây dựng Scatter plot là thêm đường xu hướng. Điều này giúp bạn dễ dàng xác định nguồn 2 biến số có mối quan hệ tỷ lệ thuận hay đối nghịch nhau…

Dưới đây là các bước để thêm đường xu hướng vào biểu đồ phân tán trong Excel:

Bước 1: Chọn biểu đồ phân tán mà bạn muốn thêm đường xu hướng vào.

Bước 2: Nhấp vào thể Chart Design. (Đây là thể ngữ cảnh chỉ xuất hiện khi bạn chọn biểu đồ).

Nhấp vào thể Chart Design

Bước 3: Trong nhóm Chart Layouts, nhấp vào tùy chọn Add Chart Element

Trong nhóm Chart Layouts, nhấp vào tùy chọn Add Chart Element

Bước 4: Chuyển đến tùy chọn Trendline rồi nhấp vào Linear

Chuyển đến tùy chọn Trendline rồi nhấp vào Linear

Sau đó, một đường xu hướng sẽ xuất hiện vào biểu đồ phân tán của bạn.

Biểu đồ phân tán với đường xu hướng tuyến tính (đường chấm)
Biểu đồ phân tán với đường xu hướng tuyến tính (đường chấm)

Khi nhìn vào đường xu hướng và các điểm dữ liệu được phân bổ trong biểu đồ, ta có thể hình dung được sự tương quan.

Đọc kết quả biểu đồ

  • Ta có thể thấy chiều hướng đi lên trong đường xu hướng, điều này chỉ ra rằng dữ liệu có tương quan đồng thuận. Tức là khi Mktng Exp tăng lên thì Revenue cũng tăng lên và ngược lại.
  • Nếu chiều của đường xu hướng đi xuống khi đó 2 biến sẽ có mối quan hệ nghịch đảo. Điều này thể hiện nếu chi phí tăng lên thì doanh thu sẽ giảm và ngược lại.
  • Sẽ có trường hợp 2 biến này không có mối tương quan. Tức là nếu chi phí tiếp thị tăng lên, doanh thu của họ có thể tăng hoặc không tăng.

Lưu ý rằng đường xu hướng chỉ cho chúng ta biết dữ liệu có tương quan thuận hay nghịch. Nó không thể hiện được con số tỷ lệ chính xác là bao nhiêu phần trăm. Như trong ví dụ, khi quan sát đường xu hướng, chúng tôi không thể kết luận Revenue sẽ tăng bao nhiêu khi chi phí tiếp thị tăng 50%.

Tuy nhiên, trong trường hợp cụ thể, con số này có thể được tính toán bằng cách sử dụng hệ số tương quan. Bằng cách sử dụng công thức sau:

=CORREL(B2:B11,C2:C11)

Hệ số tương quan nằm trong khoảng từ -1 đến 1, trong đó 1 biểu thị mối tương quan cao nhất và -1 biểu thị mối tương quan thấp nhất. Ở trường hợp trên con số đó là 0,945, nó thể hiện rằng hai biến này có mối tương quan đồng thuận cao.

Trên đây là toàn bộ thông tin về biểu đồ phân tán mà chúng tôi cung cấp cho bạn, hy vọng những kiến thức hữu ích này sẽ giúp bạn hiểu và sử dụng công cụ này hiệu quả vào trong công việc của mình.

Nếu bạn muốn biết hiểu rõ hơn và có cơ hội sử dụng công cụ này vào thực tế, hãy tham khảo khóa học 7 công cụ thống kê sản xuất tại PMS. Đây là chương trình được biên soạn bởi các Chuyên gia giàu kinh nghiệm trong lĩnh vực sản xuất, liên hệ với chúng tôi để được hỗ trợ tư vấn.

Xem thêm các công cụ liên quan:

Đăng ký nhận bản tin

Hãy gửi thông tin để không bỏ sót bất kỳ tin tức hoặc chương trình khuyến mãi từ Học Viện PMS

    Trả lời

    Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *