
Google's LangExtract library enables developers to build advanced document intelligence pipelines that transform unstructured text into structured, source-grounded data using OpenAI models. This guide covers the full workflow from schema design and extraction to interactive visualization and tabular output.
Một quy trình lập trình mới đã xuất hiện, kết hợp thư viện LangExtract của Google với các mô hình ngôn ngữ lớn của OpenAI để chuyển đổi văn bản lộn xộn, không có cấu trúc thành các tập dữ liệu sạch, có thể đọc được bằng máy. Phương pháp này, được mô tả chi tiết trong một hướng dẫn kỹ thuật gần đây, cho thấy cách các nhà phát triển có thể xây dựng các quy trình có thể tái sử dụng, có khả năng phân tích hợp đồng, ghi chú cuộc họp, thông báo sản phẩm và nhật ký hoạt động — đồng thời đảm bảo dữ liệu được trích xuất khớp với các đoạn văn bản gốc chính xác trong tài liệu ban đầu.
Đối với các nhóm đang phải xử lý lượng thông tin không có cấu trúc, đây là một bước tiến đáng kể. Thay vì xây dựng các trình phân tích cú pháp riêng biệt cho từng loại tài liệu, LangExtract cung cấp một khung thống nhất, nơi các lời nhắc được thiết kế cẩn thận và các chú thích ví dụ hướng dẫn mô hình tạo ra đầu ra nhất quán và có cấu trúc.
Quy trình bắt đầu bằng việc thiết lập môi trường — cài đặt LangExtract và các thành phần phụ thuộc của nó, sau đó cấu hình an toàn khóa API của OpenAI . Cấu hình này cho phép quy trình sử dụng các mô hình thuộc lớp GPT để thực hiện các tác vụ phức tạp trong hiểu ngôn ngữ tự nhiên.
Từ đó, các nhà phát triển định nghĩa các lược đồ trích xuất cho hệ thống biết chính xác cần tìm kiếm gì. Ưu điểm của phương pháp này là tính linh hoạt. Một quy trình duy nhất có thể được điều chỉnh cho nhiều loại tài liệu khác nhau bằng cách thay đổi các mẫu gợi ý và ví dụ chú thích. Đây là quy trình làm việc cốt lõi trông như thế nào:
Bước cuối cùng này đặc biệt đáng chú ý. Bằng cách chuyển đổi kết quả trích xuất thành định dạng bảng, các nhóm có thể ngay lập tức đưa dữ liệu vào các công cụ phân tích kinh doanh, bảng điều khiển tuân thủ hoặc hệ thống cảnh báo tự động.
Các nhà phân tích ngành ước tính rằng khoảng 80% dữ liệu doanh nghiệp là dữ liệu phi cấu trúc — bị mắc kẹt trong các tệp PDF, email, tin nhắn Slack và tài liệu được quét. Các phương pháp truyền thống để xử lý sự hỗn loạn này dựa vào các trình phân tích cú pháp dựa trên quy tắc hoặc các mô hình nhận dạng thực thể có tên (NER) được huấn luyện tùy chỉnh, cả hai đều dễ bị lỗi và tốn kém chi phí bảo trì.
Quyết định của Google phát hành LangExtract như một thư viện mã nguồn mở báo hiệu một xu hướng rộng hơn trong ngành: chuẩn hóa lớp trích xuất dữ liệu để các nhà phát triển có thể tập trung vào việc họ làm gì với dữ liệu thay vì cách họ trích xuất dữ liệu. Nếu bạn đã theo dõi các bài viết của chúng tôi về Falcon Perception: Mô hình thị giác hợp nhất sớm trị giá 0,6 tỷ đô la của TII , bạn sẽ nhận ra đây là một phần của sự chuyển dịch lớn hơn hướng tới các công cụ dựa trên LLM giúp trừu tượng hóa sự phức tạp của xử lý ngôn ngữ tự nhiên truyền thống.
Việc tích hợp với các mô hình của OpenAI cũng mang tính chiến lược. Mặc dù bộ phận AI của Google cũng cung cấp các mô hình cạnh tranh như Gemini, việc làm cho LangExtract không phụ thuộc vào mô hình cụ thể nào (hoặc ít nhất là tương thích với hệ sinh thái của OpenAI) sẽ mở rộng đáng kể cơ sở người dùng tiềm năng của nó.
LangExtract không phải là thư viện đầu tiên giải quyết vấn đề trích xuất cấu trúc từ văn bản. Các công cụ như spaCy, Hugging Face Transformers, và thậm chí cả các tiện ích trích xuất của chính LangChain đã hoạt động trong lĩnh vực này từ nhiều năm nay. Điều làm nên sự khác biệt của LangExtract là sự nhấn mạnh vào việc liên kết nguồn gốc — mọi thực thể hoặc thuộc tính được trích xuất đều được liên kết trở lại đoạn ký tự chính xác trong tài liệu gốc nơi nó được tìm thấy.
Việc theo dõi nguồn gốc này rất quan trọng đối với các ứng dụng có tính rủi ro cao. Ví dụ, trong việc xem xét tài liệu pháp lý, việc biết rằng thời hạn được trích xuất từ đoạn 14, câu 3 của hợp đồng không chỉ hữu ích mà còn là một yêu cầu tuân thủ. Tương tự, trong xử lý hồ sơ y tế, các kiểm toán viên cần xác minh rằng các chẩn đoán được trích xuất có liên hệ trực tiếp với ghi chú lâm sàng.
Đối với những độc giả quan tâm đến bức tranh tổng quan về các công cụ xử lý tài liệu, bài viết của chúng tôi về Xây dựng Hệ thống Tác nhân Sẵn sàng cho Sản xuất với Z.AI GLM-5 sẽ cung cấp thêm bối cảnh để so sánh các công nghệ này.
Cộng đồng lập trình viên đã phản hồi với sự nhiệt tình thận trọng. Trên các diễn đàn và nền tảng mạng xã hội, các kỹ sư đã ca ngợi thiết kế API gọn gàng của LangExtract và sự đơn giản của phương pháp tiếp cận dựa trên lời nhắc và lược đồ. Tuy nhiên, một số người cũng lưu ý rằng chất lượng trích xuất về cơ bản vẫn bị giới hạn bởi khả năng của mô hình ngôn ngữ cơ bản.
Đây là một lưu ý quan trọng. Ảo giác — xu hướng của các mô hình ngôn ngữ tuyến tính (LLM) tạo ra thông tin nghe có vẻ hợp lý nhưng không chính xác — vẫn là một rủi ro trong bất kỳ quy trình trích xuất nào. Tính năng xác thực nguồn trong LangExtract giảm thiểu điều này ở một mức độ nào đó, vì các đoạn văn được trích xuất có thể được xác minh bằng lập trình so với văn bản gốc. Nhưng các nhà phát triển vẫn nên xây dựng các lớp xác thực trên đầu ra trích xuất thô, đặc biệt là trong các ngành công nghiệp được quản lý chặt chẽ.
Như MIT Technology Review đã nhiều lần đưa tin, khoảng cách giữa các bản demo ấn tượng và các hệ thống AI sẵn sàng cho sản xuất thường nằm ở chính sự tỉ mỉ trong khâu xử lý hậu kỳ này.
Nhìn về phía trước, các quy trình xử lý dữ liệu như ví dụ được trình bày với LangExtract có lẽ chỉ là bước khởi đầu. Một số xu hướng cho thấy công nghệ này sẽ hướng đến đâu:
Thị trường trí tuệ tài liệu, được định giá hơn 5 tỷ đô la vào năm 2024 theo nhiều báo cáo ngành, đang sẵn sàng cho sự tăng trưởng nhanh chóng khi các khả năng này ngày càng hoàn thiện. Việc Google đầu tư vào các công cụ mã nguồn mở như LangExtract giúp họ chiếm lĩnh thị phần của nhà phát triển ngay cả khi sự cạnh tranh ngày càng gay gắt từ Microsoft, Amazon và làn sóng các công ty khởi nghiệp được đầu tư mạnh.
Đối với các nhà phát triển và nhóm dữ liệu đang tìm cách xây dựng khả năng phân tích tài liệu mạnh mẽ, LangExtract cung cấp một điểm khởi đầu đầy hứa hẹn. Sự kết hợp giữa tính linh hoạt dựa trên yêu cầu, khả năng trích xuất dựa trên nguồn gốc và tích hợp liền mạch với các mô hình OpenAI khiến nó trở thành một trong những công cụ thiết thực nhất xuất hiện trong lĩnh vực trích xuất dữ liệu có cấu trúc năm nay. Tuy nhiên, giá trị thực sự sẽ đến từ các quy trình mà các nhóm xây dựng xung quanh nó — các lớp xác thực, bảng điều khiển trực quan hóa và tự động hóa tiếp theo giúp biến dữ liệu trích xuất thô thành thông tin kinh doanh thực sự.