
A new coding tutorial demonstrates how to build a complete markerless 3D human kinematics pipeline using Pose2Sim, RTMPose, and OpenSim entirely within Google Colab. The guide walks through calibration, pose estimation, triangulation, and inverse kinematics, making research-grade biomechanical analysis accessible to anyone with a browser.
Một bài hướng dẫn lập trình mới được công bố đang thu hút sự chú ý trong cộng đồng cơ sinh học và thị giác máy tính bằng cách chứng minh cách bất kỳ ai có tài khoản Google đều có thể xây dựng một quy trình động học 3D cơ thể người hoàn chỉnh không cần điểm đánh dấu—hoàn toàn trong trình duyệt. Bài hướng dẫn sử dụng Pose2Sim , RTMPose và OpenSim chạy trên Google Colab , loại bỏ nhu cầu về các phòng thí nghiệm ghi hình chuyển động dựa trên điểm đánh dấu đắt tiền và giúp phân tích cơ sinh học cấp độ nghiên cứu trở nên dễ tiếp cận hơn đối với sinh viên, bác sĩ lâm sàng và các nhà phát triển độc lập.
Hướng dẫn này sẽ hướng dẫn người dùng qua từng giai đoạn của quy trình Pose2Sim, từ thiết lập môi trường ban đầu đến việc tạo ra các đường cong góc khớp cuối cùng. Vì Colab chạy trong môi trường không có màn hình (không có giao diện đồ họa), nên cần thực hiện các bước cấu hình đặc biệt ngay từ đầu — một chi tiết thường bị bỏ qua và gây khó khăn cho người dùng lần đầu. Sau khi môi trường chạy đã sẵn sàng, quy trình sẽ diễn ra theo trình tự logic:
Ở mỗi giai đoạn, hướng dẫn khuyến khích người dùng kiểm tra các kết quả trung gian—quan sát quỹ đạo, kiểm tra lỗi tái chiếu và vẽ biểu đồ góc khớp—để đảm bảo tính minh bạch trong đóng góp của từng thành phần vào kết quả cuối cùng.
Hệ thống ghi hình chuyển động quang học truyền thống (như Vicon hoặc OptiTrack) vẫn là tiêu chuẩn vàng trong nhiều phòng nghiên cứu, nhưng nó đi kèm với những rào cản đáng kể. Các hệ thống này có giá hàng chục nghìn đô la, yêu cầu phải đặt cẩn thận các điểm đánh dấu phản quang trên cơ thể và đòi hỏi môi trường phòng thí nghiệm được kiểm soát chặt chẽ. Đối với phân tích dáng đi lâm sàng, huấn luyện thể thao ngoài trời hoặc các nghiên cứu quy mô lớn trên dân số, những hạn chế này thường là trở ngại lớn.
Các phương pháp không dùng điểm đánh dấu đã đảo ngược hoàn toàn cục diện. Hệ thống camera đa điểm trên điện thoại thông minh hoặc camera hành động giá rẻ thay thế các mảng hồng ngoại, và học sâu thay thế các điểm đánh dấu dán. Khoảng cách về độ chính xác giữa các phương pháp dựa trên điểm đánh dấu và không dựa trên điểm đánh dấu đã thu hẹp đáng kể trong những năm gần đây, với các nghiên cứu được bình duyệt cho thấy sai số góc khớp trung bình dưới năm độ đối với nhiều chuyển động—nằm trong ngưỡng có ý nghĩa lâm sàng.
Nếu bạn chưa quen với cách học sâu hỗ trợ ước tính tư thế con người, bài tổng quan của chúng tôi về OSGym: Khung cơ sở hạ tầng hệ điều hành dành cho các tác nhân sử dụng máy tính sẽ cung cấp những thông tin nền tảng hữu ích.
Được phát triển bởi các nhà nghiên cứu do David Pagnon dẫn đầu tại Đại học Lyon, Pose2Sim là một gói phần mềm Python mã nguồn mở giúp thu hẹp khoảng cách giữa các thư viện ước tính tư thế 2D và phần mềm mô phỏng hệ cơ xương. Nó xử lý các công đoạn trung gian phức tạp—hiệu chuẩn, tam giác hóa, lọc và tăng cường điểm đánh dấu—mà trước đây đòi hỏi các tập lệnh tùy chỉnh hoặc các công cụ độc quyền.
RTMPose là một công cụ ước tính tư thế thời gian thực, độ chính xác cao từ OpenMMLab, đạt được sự cân bằng hấp dẫn giữa tốc độ và độ chính xác. Kiến trúc gọn nhẹ của nó làm cho nó đặc biệt phù hợp với các runtime hỗ trợ GPU của Colab, nơi người dùng thường chỉ có quyền truy cập vào một card T4 hoặc A100 duy nhất cho các phiên làm việc giới hạn.
Ban đầu được phát triển tại Phòng thí nghiệm Cơ sinh học Thần kinh cơ của Đại học Stanford, OpenSim là nền tảng mã nguồn mở tiêu chuẩn cho mô hình hóa và mô phỏng hệ cơ xương. Bộ giải động học nghịch đảo của nó lấy vị trí các điểm đánh dấu 3D và khớp chúng với mô hình xương được thu nhỏ, xuất ra các góc khớp mô tả cách mỗi đoạn cơ thể di chuyển trong không gian.
Việc đóng gói toàn bộ quy trình này vào một sổ tay Colab duy nhất sẽ loại bỏ rào cản lớn cuối cùng trong quá trình áp dụng: quản lý môi trường cục bộ. Việc cài đặt Pose2Sim, các thư viện phụ thuộc của RTMPose và các liên kết Python của OpenSim trên máy tính cá nhân có thể là một quá trình kéo dài nhiều giờ, liên quan đến các phiên bản thư viện xung đột và những đặc điểm riêng của từng nền tảng.
Với Colab, mọi sự phụ thuộc đều được ghi rõ trong chính sổ tay Jupyter. Một nhà nghiên cứu ở Nairobi và một sinh viên đại học ở São Paulo bắt đầu từ cùng một điểm xuất phát. Khả năng tái tạo kết quả—vấn đề nan giải muôn thuở của nghiên cứu tính toán—trở nên gần như dễ dàng.
Để tìm hiểu thêm về cách sổ tay điện tử dựa trên đám mây đang định hình lại quy trình nghiên cứu AI, hãy xem bài viết của chúng tôi về Hướng dẫn triển khai ModelScope: Tìm kiếm, tinh chỉnh và xuất khẩu .
Xu hướng hướng tới động học không cần điểm đánh dấu phù hợp với các xu hướng rộng hơn trong việc dân chủ hóa các công cụ AI. Các công ty như Theia Markerless và Kinatrax đã cung cấp các giải pháp không cần điểm đánh dấu thương mại cho các đội thể thao chuyên nghiệp, nhưng các giải pháp mã nguồn mở đang bắt kịp nhanh chóng. Sự kết hợp giữa Pose2Sim và OpenSim cung cấp cho bất kỳ nhà nghiên cứu nào một quy trình sẵn sàng xuất bản miễn phí.
Các chuyên gia về cơ sinh học đã lưu ý rằng thách thức còn lại là việc xác thực trên quy mô lớn. Mặc dù việc so sánh giữa các phòng thí nghiệm riêng lẻ với dữ liệu đánh dấu tiêu chuẩn vàng rất đáng khích lệ, cộng đồng cần các bộ dữ liệu chuẩn lớn và đa dạng—bao gồm các loại hình cơ thể, tốc độ chuyển động và cấu hình camera khác nhau—trước khi động học không cần đánh dấu có thể hoàn toàn thay thế các phương pháp truyền thống trong bối cảnh quản lý hoặc lâm sàng.
Có một số diễn biến đáng chú ý. Thứ nhất, động học không cần điểm đánh dấu theo thời gian thực đang tiến gần hơn đến giai đoạn sẵn sàng sản xuất, điều này có thể cho phép phản hồi sinh học trực tiếp trong quá trình phục hồi chức năng hoặc huấn luyện thể thao. Thứ hai, việc tích hợp với các mô phỏng dựa trên vật lý—sử dụng động lực học nghịch đảo và ước tính lực cơ của OpenSim—sẽ mở rộng quy trình vượt ra ngoài động học thuần túy sang động lực học. Thứ ba, khi các mô hình tư thế mới hơn như RTMPose3D cải thiện khả năng dự đoán 3D trực tiếp từ video đơn sắc, yêu cầu sử dụng nhiều camera cuối cùng có thể trở thành tùy chọn đối với nhiều trường hợp sử dụng.
Bài hướng dẫn này không chỉ đơn thuần là một hướng dẫn kỹ thuật. Nó đánh dấu một bước ngoặt, nơi mà việc phân tích cơ sinh học phức tạp—trước đây chỉ có thể thực hiện được bằng phần cứng đắt tiền và chuyên môn cao—giờ đây đã trở nên khả thi đối với bất kỳ ai chỉ cần mở một tab trình duyệt. Cho dù bạn đang nghiên cứu các rối loạn dáng đi, tối ưu hóa cú đánh golf hay xây dựng thế hệ hình đại diện AR tiếp theo, các công cụ để trích xuất động học của con người có ý nghĩa từ video thông thường giờ đây đã miễn phí, mã nguồn mở và chỉ cách bạn một sổ tay Colab.