Wikimedia Site Reliability Engineering/vi

Nhóm Kỹ thuật viên Đảm bảo Độ tin cậy Hệ thống (viết tắt là SRE) là đội ngũ chịu trách nhiệm phát triển và duy trì hạ tầng vận hành của Wikimedia. Trước đây được biết đến với tên gọi "Technical Operations" (Đội Vận hành Kỹ thuật), họ đảm bảo rằng tất cả các trang web và dịch vụ của Wikimedia mà công chúng sử dụng (bao gồm MediaWiki và các dịch vụ liên quan) hoạt động một cách ổn định, an toàn và hiệu suất cao.

Thông báo chúng tôi về những sự cố khẩn cấp với Klaxon.

#wikimedia-sre connect

Bạn có thể tìm hiểu thêm về tài liệu bổ sung liên quan đến hạ tầng và công việc của nhóm tại Wikitech.

Cấu trúc của nhóm

Collaboration Services

We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-MediaWiki websites and other collaboration services.

Vận hành Trung tâm Dữ liệu

Nhóm Vận hành Trung tâm Dữ liệu chịu trách nhiệm cho tất cả các hoạt động triển khai và hậu cần liên quan đến trung tâm dữ liệu của Wikimedia, cũng như duy trì sự hiện diện của Wikimedia tại các địa điểm trên toàn thế giới. Họ thực hiện công việc trực tiếp tại chỗ và quản lý toàn bộ vòng đời 5 năm của phần cứng (bao gồm: thông số kỹ thuật, mua sắm, lắp đặt vật lý, sửa chữa khi hỏng hóc và ngừng sử dụng).

#wikimedia-dcops connect

Nền tảng Hạ tầng

Nhóm này tập trung vào việc xây dựng và duy trì nền tảng cơ bản của chúng tôi (“đám mây kim loại” – metal cloud), vốn là nền móng mà hầu như toàn bộ hạ tầng khác được xây dựng dựa trên đó. Trên cơ sở các triển khai phần cứng vật lý (bare metal), trách nhiệm của họ bao gồm (nhưng không giới hạn ở) các hệ thống quản lý cấu hình, tự động hóa hạ tầng, công cụ điều phối, bảo mật hạ tầng và vận hành mạng.

#wikimedia-sre-foundations connect

Khả năng quan sát

Nhóm Khả năng quan sát hệ thống (Observability, viết tắt là "o11y") làm việc phối hợp giữa các nhóm SRE và Công nghệ nhằm cung cấp cho các nhóm công cụ chẩn đoán, nền tảng giám sát và cái nhìn sâu sắc về cách các hệ thống và dịch vụ vận hành. Nhóm sử dụng nhiều công nghệ như Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager và các công cụ khác.

#wikimedia-observability connect

Tải trọng

Nhóm Tải trọng chịu trách nhiệm cho lớp hạ tầng quan trọng đầu tiên xử lý lưu lượng truy cập cao, hiện đã phủ rộng phần lớn toàn cầu. Công việc của họ bao gồm quản lý các lớp kết thúc TLS và bộ nhớ đệm (ATS, Varnish), cân bằng tải, hệ thống DNS và mạng riêng của Wikimedia.

#wikimedia-traffic connect

Lưu trữ Dữ liệu

Nhóm Lưu trữ Dữ liệu tập trung vào các hệ thống lưu trữ và truy xuất dữ liệu lâu dài của Wikimedia, bao gồm cơ sở dữ liệu (No)SQL, hệ thống lưu trữ đối tượng (phân tán), lưu trữ tệp và các hệ thống sao lưu.

#wikimedia-data-persistence connect

Vận hành Dịch vụ

Nhóm Vận hành Dịch vụ phụ trách các dịch vụ công khai và "trực quan với người dùng", phối hợp chặt chẽ với cả nhóm Công nghệ và nhóm Sản phẩm. Công việc của họ bao gồm quản lý nền tảng MediaWiki, hạ tầng dịch vụ dạng kiến trúc hướng dịch vụ (SOA) dựa trên Kubernetes, cũng như các dịch vụ dành cho cộng đồng và nhà phát triển như GitLab, Gerrit, Phabricator và VRTS.

#wikimedia-serviceops connect

Liên hệ với đội ngũ

Nếu bạn muốn liên hệ với đội ngũ SRE, xem hướng dẫn tại wikitech:SRE Team requests.

Category:WMF Projects/vi
Category:WMF Projects/vi