Cointime

Download App
iOS & Android

Bộ dữ liệu Pinax đơn giản hơn với Parquet và S3

Validated Project

TL;DR: Tập dữ liệu của Pinax đơn giản hóa việc truy cập dữ liệu blockchain bằng cách sử dụng tệp Parquet và S3. Sự kết hợp này cung cấp khả năng lưu trữ hiệu quả, tăng tốc hiệu suất truy vấn và tích hợp liền mạch với nhiều công cụ phân tích. Dữ liệu blockchain thô được cấu trúc bằng lược đồ SQL, giúp dễ dàng phân tích. Tập dữ liệu của chúng tôi cung cấp giải pháp thân thiện với người dùng để truy cập và phân tích nhiều thông tin blockchain phức tạp.

Trong bài đăng trên blog trước đây, chúng tôi đã giới thiệu bộ dữ liệu của Pinpoint và cách chúng đơn giản hóa việc truy cập vào dữ liệu blockchain. Trong bài viết này, chúng ta sẽ đi sâu vào các công cụ và cấu trúc giúp bộ dữ liệu của chúng ta trở nên mạnh mẽ, chẳng hạn như tệp Parquet và lược đồ SQL. Chúng ta sẽ thảo luận về cách Pinax sử dụng tệp Parquet để lưu trữ dữ liệu hiệu quả, cũng như kiến ​​trúc SQL toàn diện làm nền tảng cho tập dữ liệu chuỗi khối ban đầu của chúng tôi. Tìm hiểu cách chúng tôi dự định cung cấp cho các nhà phân tích dữ liệu công nghệ tiên tiến, thân thiện với người dùng.

Bộ dữ liệu Pinax giúp dữ liệu blockchain có thể truy cập dễ dàng, loại bỏ các rào cản đối với những người muốn phân tích thông tin blockchain nhưng có thể không có các công cụ hoặc cơ sở hạ tầng chuyên nghiệp. Chúng tôi tận dụng các tệp Parquet được lưu trữ trên S3 để hỗ trợ các chuyên gia trong nhiều lĩnh vực khác nhau - từ phân tích vĩ mô đến chatbot AI và phân tích tài chính - tập trung vào phân tích chứ không phải xáo trộn dữ liệu.

Chúng tôi đã thiết kế bộ dữ liệu của mình để tương thích với các công cụ phân tích hiện có, cho phép các nhà phân tích dễ dàng cắm và chạy với thiết lập hiện tại của họ. Điều này có nghĩa là bạn có thể sử dụng Amazon S3 làm bảng bên ngoài để tích hợp liền mạch tập dữ liệu của chúng tôi vào quy trình làm việc hiện tại của bạn. Các bảng bên ngoài được hỗ trợ rộng rãi trên nhiều cơ sở dữ liệu khác nhau, do đó bạn có thể truy vấn dữ liệu trực tiếp từ S3 mà không cần thiết lập rộng rãi hoặc cơ sở hạ tầng tùy chỉnh, đơn giản hóa việc quản lý dữ liệu.

Hãy dùng thử tập dữ liệu Ethereum của chúng tôi: Dùng thử miễn phí trên Snowflake trong 30 ngày.

Việc truy cập, xử lý và phân tích dữ liệu blockchain có thể là một thách thức, đặc biệt khi công nghệ này tiếp tục phát triển trong các ngành và tăng khối lượng cũng như độ phức tạp của dữ liệu. Pinax hỗ trợ các bộ dữ liệu dễ sử dụng giúp đơn giản hóa việc truy cập và được thiết kế dành cho cả người dùng kỹ thuật và người dùng không chuyên về kỹ thuật. Trọng tâm của phương pháp đơn giản hóa của chúng tôi là các tệp Parquet, một định dạng lưu trữ cột mạnh mẽ giúp cải thiện hiệu quả và khả năng mở rộng, đặc biệt là đối với các tập dữ liệu lớn.

Nhưng chính xác thì tệp Parquet là gì và tại sao chúng lại quan trọng trong việc truy cập dữ liệu blockchain?

Parquet là định dạng tệp lưu trữ dạng cột được sử dụng rộng rãi để xử lý dữ liệu do khả năng nén và hiệu suất hiệu quả của nó. Không giống như các định dạng lưu trữ theo hàng lưu trữ dữ liệu một cách tuần tự, Parquet tối ưu hóa hiệu suất lưu trữ và truy vấn bằng cách tổ chức dữ liệu thành các cột, khiến dữ liệu này đặc biệt hiệu quả đối với việc phân tích.

---Hình này so sánh bố cục hàng (mỗi hàng được lưu tuần tự) và bố cục cột (mỗi cột được lưu trữ hoàn toàn (nguồn))

Định dạng cột của tệp Parquet khiến chúng trở nên lý tưởng để quản lý các tập dữ liệu phức tạp, khối lượng lớn trong chuỗi khối. Bằng cách cho phép truy vấn cột chọn lọc, Parquet tăng tốc độ truy vấn và giảm chi phí lưu trữ, cung cấp giải pháp thiết thực để xử lý hàng terabyte dữ liệu blockchain.

Những ưu điểm chính bao gồm:

Định dạng cột của tệp Parquet khiến chúng trở nên lý tưởng để quản lý các tập dữ liệu phức tạp, khối lượng lớn trong chuỗi khối. Bằng cách cho phép truy vấn cột chọn lọc, Parquet tăng tốc độ truy vấn và giảm chi phí lưu trữ, cung cấp giải pháp thiết thực để xử lý hàng terabyte dữ liệu blockchain.

Những ưu điểm chính bao gồm:

  1. Lưu trữ hiệu quả: Parquet giảm chi phí lưu trữ bằng cách nén dữ liệu mà không làm giảm chất lượng, điều này đặc biệt có lợi cho các bộ dữ liệu blockchain lớn.
  2. Truy vấn nhanh hơn: Lưu trữ dựa trên cột cho phép các nhà phân tích chỉ truy cập dữ liệu họ cần, cải thiện hiệu suất của các công cụ như Messari.
  3. Khả năng tương thích rộng: Parquet tích hợp hoàn hảo với nhiều công cụ phân tích, hỗ trợ quy trình công việc trên SQL, Python, R, v.v.

Pinax cung cấp dữ liệu blockchain ở định dạng dễ sử dụng:

  • Tích hợp liền mạch: Chúng tôi cung cấp dữ liệu blockchain thô ở định dạng Parquet, cho phép người dùng tích hợp dữ liệu một cách trơn tru vào các quy trình hiện có.
  • Thông tin chi tiết mới nhất: Bộ dữ liệu được cập nhật hàng ngày, đảm bảo người dùng có quyền truy cập vào dữ liệu blockchain mới nhất.
  • Khả năng sử dụng nâng cao: Định dạng quen thuộc của Parquet giúp đơn giản hóa quá trình phân tích, cho phép các nhà phân tích tập trung vào phân tích thay vì cơ sở hạ tầng.

Chương trình thí điểm tập dữ liệu của chúng tôi đang diễn ra tốt đẹp và đạt được tiến bộ mới nhằm cải thiện hiệu suất và khả năng truy cập dữ liệu. Đây là thông tin mới nhất về thiết lập của chúng tôi:

  • Tùy chọn truy cập và cách ly dữ liệu: Cài đặt bảng bên ngoài S3 cho phép các nhà phân tích quản lý quyền truy cập dữ liệu một cách độc lập. Các tùy chọn bao gồm sao chép dữ liệu S3 vào bảng tùy chỉnh, kết nối trực tiếp với bảng bên ngoài S3 hoặc sử dụng chế độ xem Bông tuyết được cấu hình sẵn của chúng tôi. Ngoài ra, dữ liệu có thể được tải xuống để xử lý đĩa cục bộ, mang lại sự linh hoạt trong xử lý dữ liệu.
  • Tham gia tối thiểu vào các yêu cầu tùy chỉnh: Thiết lập này giúp cho vai trò của Pinex trở nên nhẹ nhàng; chúng tôi tập trung chủ yếu vào việc đảm bảo tính toàn vẹn của dữ liệu và định nghĩa lược đồ chính xác, trong khi các nhà phân tích vẫn giữ quyền kiểm soát các nhu cầu dữ liệu cụ thể.
  • Đồng bộ hóa và định dạng dữ liệu: Tải lên đồng bộ hóa S3 tự động đảm bảo khả năng đọc các định dạng dữ liệu, cho phép tạo các chế độ xem tùy chỉnh trên tập dữ liệu để đáp ứng tốt hơn nhu cầu phân tích.
  • Tối ưu hóa hiệu suất: Chúng tôi sẽ tiếp tục thử nghiệm cấu hình để cải thiện hiệu suất truy vấn trên các tập dữ liệu lớn, bao gồm cả việc sắp xếp lại các phân vùng để cải thiện tốc độ.

Bộ dữ liệu Pinax có tiềm năng phục vụ nhiều ứng dụng:

  • Phân tích vĩ mô: Các nền tảng như Messari và Snowflake được hưởng lợi từ bộ dữ liệu của chúng tôi bằng cách tích hợp liền mạch những hiểu biết sâu sắc về blockchain vào phân tích thị trường rộng hơn.
  • Kế toán: Các bản ghi blockchain cung cấp một sổ cái minh bạch và bất biến, làm cho nó có giá trị cho mục đích kế toán và kiểm toán.
  • Pháp y Blockchain: Bộ dữ liệu có thể giúp các nhà điều tra pháp y theo dõi các giao dịch, phát hiện gian lận và giám sát hoạt động đáng ngờ trên blockchain.
  • Chatbot AI và LLM: Quyền truy cập vào dữ liệu blockchain có cấu trúc đóng vai trò là dữ liệu đào tạo chất lượng cao cho các mô hình AI, đặc biệt là các mô hình ngôn ngữ lớn (LLM) được thiết kế để hiểu các truy vấn liên quan đến blockchain hoặc thực hiện phân tích.
  • Phân tích tài chính: Các ứng dụng DeFi có thể tích hợp dữ liệu Pinax để hiển thị số liệu thống kê giao dịch lịch sử, cung cấp thông tin chuyên sâu để đưa ra các quyết định tài chính thông minh hơn.

Dữ liệu chuỗi khối xuất hiện ở dạng thô, nắm bắt tất cả các giao dịch và tương tác quan trọng trên mạng. Pinax cung cấp quyền truy cập vào các bảng dữ liệu Ethereum cơ sở mở rộng như khối, giao dịch, theo dõi mở rộng và nhật ký. Tập dữ liệu của chúng tôi cho phép phân tích chi tiết, từ theo dõi các giao dịch riêng lẻ đến hiểu xu hướng trên các khối, khiến nó trở nên lý tưởng cho các ứng dụng trong nhiều lĩnh vực khác nhau.

---Dữ liệu chuỗi khối EVM toàn diện bao gồm các khối, giao dịch, nhật ký và theo dõi mở rộng để phân tích chuyên sâu.

Để đạt được quyền truy cập hiệu quả, Pinax sử dụng kiến ​​trúc SQL để cấu trúc dữ liệu chuỗi khối. Lược đồ này xác định cấu trúc dữ liệu trong tệp Parquet, đơn giản hóa việc truy cập và phân tích dữ liệu trên nhiều ứng dụng. Lược đồ SQL EVM cung cấp các bảng chi tiết để theo dõi dữ liệu EVM, bao gồm các khối, giao dịch, nhật ký và thay đổi trạng thái. Mỗi bảng ghi lại dữ liệu chi tiết để phân tích chuyên sâu, giúp người dùng khám phá các tương tác blockchain một cách hiệu quả.

Để khám phá lược đồ SQL để xây dựng dữ liệu Ethereum, hãy xem lược đồ EVM SQL của Pinpoint trên GitHub.

Để khám phá lược đồ SQL để xây dựng dữ liệu Ethereum, hãy xem lược đồ EVM SQL của Pinpoint trên GitHub.

Để minh họa cách áp dụng lược đồ SQL này trong phân tích trong thế giới thực, dưới đây là một số truy vấn mẫu minh họa cách truy xuất dữ liệu cụ thể từ dữ liệu chuỗi khối.

-- This query calculates the number of unique active users per minute on a specific date. SELECT date_trunc('minute', block_time) AS minute, count(distinct "from") AS user FROM ethereum.transactions WHERE block_date = '2024-10-01' GROUP BY minute ORDER BY minute ASC;

-- This query retrieves the top 10 contracts with the most transactions on a specific date, ordered by transaction count. SELECT "to" AS contract, count(*) AS transactions FROM ethereum.transactions WHERE block_date = '2024-10-01' GROUP BY contract ORDER BY transactions DESC LIMIT 10;

-- This query counts the total number of successful ERC-20 token transfers (using Transfer and TransferFrom functions) per day within a specified date range. SELECT block_date, count(*) as total FROM ethereum.traces WHERE tx_success = true AND SUBSTR(input, 1, 10) IN ('0xa9059cbb', '0x23b872dd') -- Transfer and TransferFrom AND block_date >= '2024-09-01' AND block_date <= '2024-09-07' GROUP BY block_date ORDER BY block_date;

Pinax 数据集可在 Snowflake 上使用,Snowflake 是一个基于云的数据平台,以其易用性和强大的集成功能而闻名。S nowflake Marketplace Bạn có thể tìm thấy trên thị trường Nowflake Marketplace.

Chợ bông tuyết 将向更广泛的受众提供我们的数据集,从而促进跨行业更大的数据可访问性。

Bạn có thể làm điều đó bằng cách sử dụng Pinax. Một công ty có tiềm năng phát triển AI là một công ty có tiềm năng phát triển AI

Công ty có thể cung cấp dịch vụ hỗ trợ tốt nhất Bạn có thể làm điều đó bằng cách sử dụng nó.

Nếu bạn muốn khám phá cách chúng tôi có thể đơn giản hóa việc truy cập dữ liệu blockchain dựa trên nhu cầu của bạn, vui lòng truy cập trang web của chúng tôi hoặc liên hệ với chúng tôi để tìm hiểu thêm. Yêu cầu bản demo để xem cách chúng tôi có thể chuyển đổi thông tin chi tiết về dữ liệu blockchain của bạn.

Hãy nhớ rằng bộ dữ liệu ETH của chúng tôi có sẵn miễn phí trên Snowflake trong 30 ngày!

(Vui lòng theo dõi blog để biết các thuật ngữ chuyên môn liên quan, nhận xét, thư viện mã, siêu liên kết, v.v.)

💡 Bài viết này trả lời các câu hỏi sau:

- Pinax xây dựng bộ dữ liệu blockchain như thế nào để dễ sử dụng và đạt hiệu suất tối ưu?

- Những loại ngành và trường hợp sử dụng nào sẽ được hưởng lợi từ bộ dữ liệu của Pinax?

- Tập tin Parquet là gì?

- Tại sao các tệp Parquet phù hợp với dữ liệu blockchain?

- Điều gì được ghi lại trong dữ liệu blockchain thô?

- Vai trò của lược đồ SQL trong việc cấu trúc dữ liệu blockchain là gì?

- Làm cách nào để dùng thử bộ dữ liệu Pinax miễn phí?

#phân tích dữ liệu blockchain#bộ dữ liệu#dữ liệu web3#phát triển blockchain

Các bình luận

Tất cả bình luận

Recommended for you

  • Trưởng bộ phận Chiến lược tài sản kỹ thuật số tại Fundstrat: Phí bảo hiểm kim chi hiện tại là khoảng 0%, điều này có thể cho thấy BTC vẫn còn dư địa để tăng

    Sean, Trưởng phòng Chiến lược tài sản kỹ thuật số tại Fundstra Farrell cho biết trong lưu ý khách hàng mới nhất của mình rằng "bạn bè và gia đình" đang bắt đầu hỏi lại về tiền điện tử và dựa trên các chỉ số thị trường có thể định lượng, tình hình hiện tại dường như không giống như bong bóng như cuộc biểu tình tháng 3 hay đỉnh chu kỳ cuối năm 2021, chẳng hạn như Dữ liệu chỉ số giá trị kimchi cao cấp hiện tại ở thị trường Hàn Quốc là khoảng 0%, cho thấy sự thiếu hào hứng quá mức của các thương nhân Hàn Quốc. Thông thường nếu thị trường đạt đỉnh, giá trị kim chi cao cấp sẽ tăng lên hơn 10% và mức tăng giá sẽ tăng lên. Tuần vừa qua không nên được coi là sự thịnh vượng tình dục thuần túy, Bitcoin có thể vẫn còn chỗ để tăng giá.

  • Solana Lianchuang nói Solana luôn nhanh hơn ZK, CEO Matter Labs bác bỏ

    Người đồng sáng lập Solana toly đã trả lời cư dân mạng tại Replyed: "ZK luôn tốt hơn Solana Nhanh hơn vì nó được bảo mật bằng toán học thay vì trình xác thực, nghĩa là một hoặc một vài trình xác thực (để dự phòng) là đủ và bạn không cần phải chờ sự đồng thuận giữa hàng nghìn nút.”

  • Đại diện Hoa Kỳ Mike Flood: Mong được làm việc với Chủ tịch SEC tiếp theo để thu hồi chính sách chống ngân hàng tiền điện tử SAB 121

    Đại diện Mike Flood của Hạ viện Hoa Kỳ gần đây cho biết: "Bất chấp sự phản đối rộng rãi, SAB 121 vẫn tiếp tục hoạt động hiệu quả như một đạo luật mặc dù nó chưa bao giờ trải qua quy trình Đạo luật Thủ tục Hành chính thông thường". ông hợp tác với Chủ tịch SEC tiếp theo để hủy bỏ SAB 121. Cho dù Chủ tịch Gary Gensler tự mình từ chức hay Tổng thống Trump thực hiện đúng lời hứa của mình (sa thải Gensler), chính quyền mới có cơ hội tuyệt vời để mở ra một kỷ nguyên mới sau Gensler rời văn phòng." Nó nói thêm: “Không có gì ngạc nhiên khi Gensler phản đối khuôn khổ quản lý tài sản kỹ thuật số đã được Hạ viện thông qua trên cơ sở lưỡng đảng vào đầu năm nay. 71 đảng viên Đảng Dân chủ đã cùng với Đảng Cộng hòa tại Hạ viện thông qua khuôn khổ thông thường này. chấp nhận nó, nhưng nó đại diện cho một thời điểm đột phá đối với tiền điện tử và có thể thông báo về công việc của một chính quyền thống nhất của Đảng Cộng hòa khi Quốc hội tiếp theo bắt đầu vào tháng 1 tới.”

  • Tỷ phú Ấn Độ Adani bị SEC Hoa Kỳ triệu tập để giải thích quan điểm trong vụ hối lộ

    Tỷ phú Ấn Độ Gautam Adani và cháu trai Sagar Adani đã bị Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) triệu tập để giải thích các cáo buộc rằng họ đã hối lộ hơn 250 triệu USD để giành được các hợp đồng năng lượng mặt trời. Theo Press Trust of India (PTI), một lệnh triệu tập đã được gửi đến nơi ở của gia đình Adani ở Ahmedabad, một thành phố ở phía tây Ấn Độ, yêu cầu họ phải trả lời trong vòng 21 ngày. PTI dẫn thông báo được đưa ra thông qua Tòa án quận phía Đông New York vào ngày 21/11 cho biết, nếu gia đình Adani không trả lời đúng hạn thì phán quyết khuyết tịch sẽ được đưa ra đối với họ.

  • SEC Hoa Kỳ: Tổng cộng có 583 hành động thực thi đã được thực hiện trong năm tài chính 2024 và khoản cứu trợ tài chính cao nhất trong lịch sử đã đạt được là 8,2 tỷ USD.

    SEC Hoa Kỳ gần đây đã thông báo rằng các nỗ lực thực thi trong năm tài chính 2024 đã đạt mức cao kỷ lục, nêu bật nỗ lực duy trì tính toàn vẹn của thị trường và bảo vệ nhà đầu tư. Cơ quan này tiết lộ: “Tổng cộng có 583 hành động cưỡng chế đã được đệ trình trong năm tài chính 2024, trong khi đã thu được 8,2 tỷ USD tiền bồi thường tài chính, đây là số tiền cao nhất trong lịch sử SEC”. %. Chủ tịch SEC Gary Gensler bày tỏ sự đánh giá cao về vai trò của cơ quan thực thi pháp luật: "Cơ quan thực thi pháp luật là một lực lượng cảnh sát quyết tâm bám theo sự thật và luật pháp để buộc những kẻ vi phạm pháp luật phải chịu trách nhiệm dù họ đi bất cứ đâu. Như kết quả năm nay chứng minh, bộ giúp thúc đẩy tính liêm chính của thị trường vốn của chúng tôi mang lại lợi ích cho cả nhà đầu tư và nhà phát hành."

  • Tính thẩm mỹ về bạo lực của AI, Cách đối trọng của Arweave

    Sự phổ biến của AI đã tăng cường khả năng che giấu thao túng thông tin, đồng thời nguy cơ tập trung hóa và sai lệch thuật toán ngày càng trở nên rõ ràng hơn. Bài viết này phân tích việc nâng cấp thông tin một cách bạo lực và thảo luận cách Arweave sử dụng các tính năng lưu trữ phi tập trung (vĩnh viễn) và không giả mạo để xây dựng lại niềm tin và đảm bảo tính minh bạch của thông tin.

  • IOST đã đạt được quan hệ đối tác với PetPals và trò chơi Meme thú cưng đầu tiên trên chuỗi IOST sẽ ra mắt vào Q4

    Vào ngày 22 tháng 11 năm 2024, IOST đã thiết lập quan hệ đối tác chiến lược với nhóm phát triển trò chơi blockchain PetPals. PetPals đã chính thức trở thành đối tác nút sinh thái IOST và sẽ ra mắt trò chơi meme thú cưng sáng tạo đầu tiên trên chuỗi IOST - PetPals vào quý 4 năm nay.

  • Hội thảo trực tuyến về Graph Indexer #184

    Thời hạn di chuyển TAP của Graph là ngày 3 tháng 12 năm 2024 và khoảng 34% người lập chỉ mục đã được nâng cấp, chiếm 81,6% khối lượng truy vấn. Cuộc thảo luận Hỏi & Đáp tập trung vào cài đặt cấu hình của TAP, đặc biệt liên quan đến các yêu cầu RAV (Phiếu tổng hợp biên nhận) và quản lý các khoản phí không tổng hợp, với đề xuất bắt đầu với các giá trị mặc định và điều chỉnh dựa trên khối lượng truy vấn.

  • DeSci (khoa học phi tập trung) gây ra cơn sốt meme

    Mặc dù vẫn còn phải xem liệu hỗ trợ dữ liệu có đúng sự thật, đáng tin cậy và có ý nghĩa hay không, nhưng ít nhất nó cũng "hợp lý" hơn một chút và không phải là một canh bạc thuần túy.

  • MIGA là gì? Sự phát triển sắp tới của hệ sinh thái IOST là gì?

    Quỹ IOST chính thức công bố phát động chiến dịch “Make IOST Great Again” (MIGA)! Đây là một sáng kiến ​​chiến lược nhằm mục đích hồi sinh hệ sinh thái IOST thông qua một loạt các hợp tác và phát triển quan trọng. (Lưu ý: Hoạt động này sẽ chính thức ra mắt vào ngày 20 tháng 11 năm 2024. Nó sẽ được thực hiện theo từng giai đoạn và giai đoạn đầu tiên sẽ sớm được triển khai.)