TL;DR: Tập dữ liệu của Pinax đơn giản hóa việc truy cập dữ liệu blockchain bằng cách sử dụng tệp Parquet và S3. Sự kết hợp này cung cấp khả năng lưu trữ hiệu quả, tăng tốc hiệu suất truy vấn và tích hợp liền mạch với nhiều công cụ phân tích. Dữ liệu blockchain thô được cấu trúc bằng lược đồ SQL, giúp dễ dàng phân tích. Tập dữ liệu của chúng tôi cung cấp giải pháp thân thiện với người dùng để truy cập và phân tích nhiều thông tin blockchain phức tạp.
Trong bài đăng trên blog trước đây, chúng tôi đã giới thiệu bộ dữ liệu của Pinpoint và cách chúng đơn giản hóa việc truy cập vào dữ liệu blockchain. Trong bài viết này, chúng ta sẽ đi sâu vào các công cụ và cấu trúc giúp bộ dữ liệu của chúng ta trở nên mạnh mẽ, chẳng hạn như tệp Parquet và lược đồ SQL. Chúng ta sẽ thảo luận về cách Pinax sử dụng tệp Parquet để lưu trữ dữ liệu hiệu quả, cũng như kiến trúc SQL toàn diện làm nền tảng cho tập dữ liệu chuỗi khối ban đầu của chúng tôi. Tìm hiểu cách chúng tôi dự định cung cấp cho các nhà phân tích dữ liệu công nghệ tiên tiến, thân thiện với người dùng.
Bộ dữ liệu Pinax giúp dữ liệu blockchain có thể truy cập dễ dàng, loại bỏ các rào cản đối với những người muốn phân tích thông tin blockchain nhưng có thể không có các công cụ hoặc cơ sở hạ tầng chuyên nghiệp. Chúng tôi tận dụng các tệp Parquet được lưu trữ trên S3 để hỗ trợ các chuyên gia trong nhiều lĩnh vực khác nhau - từ phân tích vĩ mô đến chatbot AI và phân tích tài chính - tập trung vào phân tích chứ không phải xáo trộn dữ liệu.
Chúng tôi đã thiết kế bộ dữ liệu của mình để tương thích với các công cụ phân tích hiện có, cho phép các nhà phân tích dễ dàng cắm và chạy với thiết lập hiện tại của họ. Điều này có nghĩa là bạn có thể sử dụng Amazon S3 làm bảng bên ngoài để tích hợp liền mạch tập dữ liệu của chúng tôi vào quy trình làm việc hiện tại của bạn. Các bảng bên ngoài được hỗ trợ rộng rãi trên nhiều cơ sở dữ liệu khác nhau, do đó bạn có thể truy vấn dữ liệu trực tiếp từ S3 mà không cần thiết lập rộng rãi hoặc cơ sở hạ tầng tùy chỉnh, đơn giản hóa việc quản lý dữ liệu.
Hãy dùng thử tập dữ liệu Ethereum của chúng tôi: Dùng thử miễn phí trên Snowflake trong 30 ngày.
Việc truy cập, xử lý và phân tích dữ liệu blockchain có thể là một thách thức, đặc biệt khi công nghệ này tiếp tục phát triển trong các ngành và tăng khối lượng cũng như độ phức tạp của dữ liệu. Pinax hỗ trợ các bộ dữ liệu dễ sử dụng giúp đơn giản hóa việc truy cập và được thiết kế dành cho cả người dùng kỹ thuật và người dùng không chuyên về kỹ thuật. Trọng tâm của phương pháp đơn giản hóa của chúng tôi là các tệp Parquet, một định dạng lưu trữ cột mạnh mẽ giúp cải thiện hiệu quả và khả năng mở rộng, đặc biệt là đối với các tập dữ liệu lớn.
Nhưng chính xác thì tệp Parquet là gì và tại sao chúng lại quan trọng trong việc truy cập dữ liệu blockchain?
Parquet là định dạng tệp lưu trữ dạng cột được sử dụng rộng rãi để xử lý dữ liệu do khả năng nén và hiệu suất hiệu quả của nó. Không giống như các định dạng lưu trữ theo hàng lưu trữ dữ liệu một cách tuần tự, Parquet tối ưu hóa hiệu suất lưu trữ và truy vấn bằng cách tổ chức dữ liệu thành các cột, khiến dữ liệu này đặc biệt hiệu quả đối với việc phân tích.
---Hình này so sánh bố cục hàng (mỗi hàng được lưu tuần tự) và bố cục cột (mỗi cột được lưu trữ hoàn toàn (nguồn))
Định dạng cột của tệp Parquet khiến chúng trở nên lý tưởng để quản lý các tập dữ liệu phức tạp, khối lượng lớn trong chuỗi khối. Bằng cách cho phép truy vấn cột chọn lọc, Parquet tăng tốc độ truy vấn và giảm chi phí lưu trữ, cung cấp giải pháp thiết thực để xử lý hàng terabyte dữ liệu blockchain.
Những ưu điểm chính bao gồm:
Định dạng cột của tệp Parquet khiến chúng trở nên lý tưởng để quản lý các tập dữ liệu phức tạp, khối lượng lớn trong chuỗi khối. Bằng cách cho phép truy vấn cột chọn lọc, Parquet tăng tốc độ truy vấn và giảm chi phí lưu trữ, cung cấp giải pháp thiết thực để xử lý hàng terabyte dữ liệu blockchain.
Những ưu điểm chính bao gồm:
- Lưu trữ hiệu quả: Parquet giảm chi phí lưu trữ bằng cách nén dữ liệu mà không làm giảm chất lượng, điều này đặc biệt có lợi cho các bộ dữ liệu blockchain lớn.
- Truy vấn nhanh hơn: Lưu trữ dựa trên cột cho phép các nhà phân tích chỉ truy cập dữ liệu họ cần, cải thiện hiệu suất của các công cụ như Messari.
- Khả năng tương thích rộng: Parquet tích hợp hoàn hảo với nhiều công cụ phân tích, hỗ trợ quy trình công việc trên SQL, Python, R, v.v.
Pinax cung cấp dữ liệu blockchain ở định dạng dễ sử dụng:
- Tích hợp liền mạch: Chúng tôi cung cấp dữ liệu blockchain thô ở định dạng Parquet, cho phép người dùng tích hợp dữ liệu một cách trơn tru vào các quy trình hiện có.
- Thông tin chi tiết mới nhất: Bộ dữ liệu được cập nhật hàng ngày, đảm bảo người dùng có quyền truy cập vào dữ liệu blockchain mới nhất.
- Khả năng sử dụng nâng cao: Định dạng quen thuộc của Parquet giúp đơn giản hóa quá trình phân tích, cho phép các nhà phân tích tập trung vào phân tích thay vì cơ sở hạ tầng.
Chương trình thí điểm tập dữ liệu của chúng tôi đang diễn ra tốt đẹp và đạt được tiến bộ mới nhằm cải thiện hiệu suất và khả năng truy cập dữ liệu. Đây là thông tin mới nhất về thiết lập của chúng tôi:
- Tùy chọn truy cập và cách ly dữ liệu: Cài đặt bảng bên ngoài S3 cho phép các nhà phân tích quản lý quyền truy cập dữ liệu một cách độc lập. Các tùy chọn bao gồm sao chép dữ liệu S3 vào bảng tùy chỉnh, kết nối trực tiếp với bảng bên ngoài S3 hoặc sử dụng chế độ xem Bông tuyết được cấu hình sẵn của chúng tôi. Ngoài ra, dữ liệu có thể được tải xuống để xử lý đĩa cục bộ, mang lại sự linh hoạt trong xử lý dữ liệu.
- Tham gia tối thiểu vào các yêu cầu tùy chỉnh: Thiết lập này giúp cho vai trò của Pinex trở nên nhẹ nhàng; chúng tôi tập trung chủ yếu vào việc đảm bảo tính toàn vẹn của dữ liệu và định nghĩa lược đồ chính xác, trong khi các nhà phân tích vẫn giữ quyền kiểm soát các nhu cầu dữ liệu cụ thể.
- Đồng bộ hóa và định dạng dữ liệu: Tải lên đồng bộ hóa S3 tự động đảm bảo khả năng đọc các định dạng dữ liệu, cho phép tạo các chế độ xem tùy chỉnh trên tập dữ liệu để đáp ứng tốt hơn nhu cầu phân tích.
- Tối ưu hóa hiệu suất: Chúng tôi sẽ tiếp tục thử nghiệm cấu hình để cải thiện hiệu suất truy vấn trên các tập dữ liệu lớn, bao gồm cả việc sắp xếp lại các phân vùng để cải thiện tốc độ.
Bộ dữ liệu Pinax có tiềm năng phục vụ nhiều ứng dụng:
- Phân tích vĩ mô: Các nền tảng như Messari và Snowflake được hưởng lợi từ bộ dữ liệu của chúng tôi bằng cách tích hợp liền mạch những hiểu biết sâu sắc về blockchain vào phân tích thị trường rộng hơn.
- Kế toán: Các bản ghi blockchain cung cấp một sổ cái minh bạch và bất biến, làm cho nó có giá trị cho mục đích kế toán và kiểm toán.
- Pháp y Blockchain: Bộ dữ liệu có thể giúp các nhà điều tra pháp y theo dõi các giao dịch, phát hiện gian lận và giám sát hoạt động đáng ngờ trên blockchain.
- Chatbot AI và LLM: Quyền truy cập vào dữ liệu blockchain có cấu trúc đóng vai trò là dữ liệu đào tạo chất lượng cao cho các mô hình AI, đặc biệt là các mô hình ngôn ngữ lớn (LLM) được thiết kế để hiểu các truy vấn liên quan đến blockchain hoặc thực hiện phân tích.
- Phân tích tài chính: Các ứng dụng DeFi có thể tích hợp dữ liệu Pinax để hiển thị số liệu thống kê giao dịch lịch sử, cung cấp thông tin chuyên sâu để đưa ra các quyết định tài chính thông minh hơn.
Dữ liệu chuỗi khối xuất hiện ở dạng thô, nắm bắt tất cả các giao dịch và tương tác quan trọng trên mạng. Pinax cung cấp quyền truy cập vào các bảng dữ liệu Ethereum cơ sở mở rộng như khối, giao dịch, theo dõi mở rộng và nhật ký. Tập dữ liệu của chúng tôi cho phép phân tích chi tiết, từ theo dõi các giao dịch riêng lẻ đến hiểu xu hướng trên các khối, khiến nó trở nên lý tưởng cho các ứng dụng trong nhiều lĩnh vực khác nhau.
---Dữ liệu chuỗi khối EVM toàn diện bao gồm các khối, giao dịch, nhật ký và theo dõi mở rộng để phân tích chuyên sâu.
Để đạt được quyền truy cập hiệu quả, Pinax sử dụng kiến trúc SQL để cấu trúc dữ liệu chuỗi khối. Lược đồ này xác định cấu trúc dữ liệu trong tệp Parquet, đơn giản hóa việc truy cập và phân tích dữ liệu trên nhiều ứng dụng. Lược đồ SQL EVM cung cấp các bảng chi tiết để theo dõi dữ liệu EVM, bao gồm các khối, giao dịch, nhật ký và thay đổi trạng thái. Mỗi bảng ghi lại dữ liệu chi tiết để phân tích chuyên sâu, giúp người dùng khám phá các tương tác blockchain một cách hiệu quả.
Để khám phá lược đồ SQL để xây dựng dữ liệu Ethereum, hãy xem lược đồ EVM SQL của Pinpoint trên GitHub.
Để khám phá lược đồ SQL để xây dựng dữ liệu Ethereum, hãy xem lược đồ EVM SQL của Pinpoint trên GitHub.
Để minh họa cách áp dụng lược đồ SQL này trong phân tích trong thế giới thực, dưới đây là một số truy vấn mẫu minh họa cách truy xuất dữ liệu cụ thể từ dữ liệu chuỗi khối.
-- This query calculates the number of unique active users per minute on a specific date.
SELECT
date_trunc('minute', block_time) AS minute,
count(distinct "from") AS user
FROM ethereum.transactions
WHERE block_date = '2024-10-01'
GROUP BY minute
ORDER BY minute ASC;
-- This query retrieves the top 10 contracts with the most transactions on a specific date, ordered by transaction count.
SELECT
"to" AS contract,
count(*) AS transactions
FROM ethereum.transactions
WHERE block_date = '2024-10-01'
GROUP BY contract
ORDER BY transactions DESC
LIMIT 10;
-- This query counts the total number of successful ERC-20 token transfers (using Transfer and TransferFrom functions) per day within a specified date range.
SELECT
block_date,
count(*) as total
FROM ethereum.traces
WHERE
tx_success = true AND
SUBSTR(input, 1, 10) IN ('0xa9059cbb', '0x23b872dd') -- Transfer and TransferFrom
AND block_date >= '2024-09-01' AND block_date <= '2024-09-07'
GROUP BY block_date
ORDER BY block_date;
Pinax 数据集可在 Snowflake 上使用,Snowflake 是一个基于云的数据平台,以其易用性和强大的集成功能而闻名。S nowflake Marketplace Bạn có thể tìm thấy trên thị trường Nowflake Marketplace.
Chợ bông tuyết 将向更广泛的受众提供我们的数据集,从而促进跨行业更大的数据可访问性。
Bạn có thể làm điều đó bằng cách sử dụng Pinax. Một công ty có tiềm năng phát triển AI là một công ty có tiềm năng phát triển AI
Công ty có thể cung cấp dịch vụ hỗ trợ tốt nhất Bạn có thể làm điều đó bằng cách sử dụng nó.
Nếu bạn muốn khám phá cách chúng tôi có thể đơn giản hóa việc truy cập dữ liệu blockchain dựa trên nhu cầu của bạn, vui lòng truy cập trang web của chúng tôi hoặc liên hệ với chúng tôi để tìm hiểu thêm. Yêu cầu bản demo để xem cách chúng tôi có thể chuyển đổi thông tin chi tiết về dữ liệu blockchain của bạn.
Hãy nhớ rằng bộ dữ liệu ETH của chúng tôi có sẵn miễn phí trên Snowflake trong 30 ngày!
(Vui lòng theo dõi blog để biết các thuật ngữ chuyên môn liên quan, nhận xét, thư viện mã, siêu liên kết, v.v.)
💡 Bài viết này trả lời các câu hỏi sau:
- Pinax xây dựng bộ dữ liệu blockchain như thế nào để dễ sử dụng và đạt hiệu suất tối ưu?
- Những loại ngành và trường hợp sử dụng nào sẽ được hưởng lợi từ bộ dữ liệu của Pinax?
- Tập tin Parquet là gì?
- Tại sao các tệp Parquet phù hợp với dữ liệu blockchain?
- Điều gì được ghi lại trong dữ liệu blockchain thô?
- Vai trò của lược đồ SQL trong việc cấu trúc dữ liệu blockchain là gì?
- Làm cách nào để dùng thử bộ dữ liệu Pinax miễn phí?
#phân tích dữ liệu blockchain#bộ dữ liệu#dữ liệu web3#phát triển blockchain
Tất cả bình luận