出典: ファイルコインネットワーク*この記事は、2023 年 5 月のボストン サミットでのサイモン ワーシントンによる **プレゼンテーション**に基づいています。 *Bacalhau は、データネイティブな計算を可能にすることでデータ処理環境に革命をもたらします。つまり、データをコードに移動するのではなく、データが存在する場所でコードを送信して分析を実行します。データを保存し、計算のためにデータを承認、監査、制御できるようにすることで、悪用のリスクを軽減しながらより多くのデータを使用できるようになり、これがデータ ガバナンスの問題への答えとなります。データ量はネットワーク帯域幅よりも 45% 速く増加しており、データの 57% はクラウドまたは従来のデータセンターの外部に保存されており、大規模に運営する組織にとってデータの移動は遅すぎてコストがかかりすぎます。データをローカルに保持するもう 1 つの正当な理由があります。それは、制御です。医療保険の相互運用性と責任に関する法律 (HIPAA) や一般データ保護規則 (GDPR) などの強制的な規制を通じて、あるいは機密の財務秘密や企業秘密に対するネイティブの保護を通じて、ほぼ 100% のすべてのデータが何らかの形のガバナンスの下に置かれています。データをコンピューティングに移動すると、データが通常の安全地帯から外れ、悪用のリスクが高まります。ほとんどのデータは厳密にオープンまたはクローズではなく、特定の範囲内に存在します。この範囲内で、特定の人に特定の目的でアクセスを許可することができます。出典: ODI2008 年以来、世界のデータ ガバナンスに関する罰金は総額 2,500 億ドル近くに達しています。したがって、ほとんどの企業がデータ共有を恐れており、その結果、企業データの 68% が活用されていないのは当然のことです。実際、管理されたデータのほとんどは原則として、より効果的な意思決定のために共有および使用できますが、それは適切な人材と適切な目的に限られます。## データ共有には技術的な実施が必要ですほとんどの組織は、厳格なデータ共有協定や契約によってこのニーズに応えようとしています。これらのプロトコルはセットアップに費用と時間がかかり、中央政府や金融機関などの企業の場合、内部チーム間でのデータ共有を可能にするデータ ガバナンスを通過するのに数か月かかる場合があります。さらに悪いことに、これらの契約はまったく機能しません。ほとんどのデータ共有契約は完全に法的強制力がなく、誤った安全感を提供するだけです。データが信頼境界を越えると、悪用を防ぐことができるのはソフト メカニズム (全員が合意に従うことを信頼するなど) だけです。データ共有の実際の運用は誰にも見えず、監督するのが困難です。> 「データプロバイダーとデータユーザー間の契約や協定は、多くの場合、効果がないことが判明します。>> ケンブリッジ・アナリティカのスキャンダルでは、契約条件が完全に無視され、個人データが悪用されました。>> 強力な技術的証拠が欠如していると、法廷が有効な情報にアクセスできなくなり、規制当局、政治家、ジャーナリスト、一般の人々が何が起こったのかを理解することが困難になる可能性があります。 」>> ——データの信頼性を信頼する、Register Dynamics、2019 年>>明らかに、必要とされているのは、信頼境界を越えてデータを再利用する新しい方法です。これは、規制上の罰金やデータ所有者への見出しの危険を冒すことなく、アナリストにデータへのシンプルかつ制御されたアクセスを提供する方法です。## Bacalhau はデータ共有を可視化および監査可能にしますBacalhau では、データネイティブ コンピューティングがデータ ガバナンスの課題に対する答えであると信じています。データを保存し、計算のためにデータを承認、監査、制御できるようにすることで、悪用のリスクを軽減しながら、より多くのデータを使用できるようになります。さらに、Bacalhau は分散コンピューティング プラットフォームであるため、データを中央ストレージに移動する必要がありません。データは組織内のどこにでも存在できるため、困難な組織変更を回避し、データ所有者から制御を奪うことができます。Bacalhau 1.0 の一部として、ジョブ ガバナンス機能とデータ ガバナンス機能を追加したことを発表できることを誇りに思います。 Bacalhau を使用すると、データ所有者は、プライベート データに対して誰が、何を、どこで、なぜ、どのように計算を実行するかを制御できます。## Bacalhau 制御コードと出力Bacalhau はジョブ管理に 2 段階のアプローチを使用します。まず、データ所有者は、ジョブがポリシーに準拠しているかどうかを確認する機会があります。このプレガバナンス フェーズはジョブの実行が開始される前に発生し、ガバナンスが使用されるデータ、ジョブの要求者、ジョブに対して実行されるコードに基づいて計算を承認または拒否できるようになります。人間は常に制御していますが、すべての決定を人間が行う必要があるわけではありません。ガバナンス前のプロセスは柔軟で、必要に応じて自動化できます。データ所有者は、ポリシーを設定し、今後の計算を詳細に検査し、さまざまな人に異なるポリシーを設定し、セキュリティとリスクを分析する複雑なアルゴリズムを呼び出すことができます。自動制御に適さない業務の場合は、人間が最終判断を行うことも可能です。Bacalhau は、計算用に 2 つのゲートウェイ (計算前と計算後) を提供します。承認されると、Bacalhau はジョブを適切な実行者に送信します。実行者は要求されたデータにのみアクセスでき、ホスト システムから安全に分離されます。 Bacalhau は、ジョブにリソース制約を課して、処理能力とメモリ使用量を制御します。事前制御は信頼を守るための合理的な第一線を提供しますが、一般に、コンピューター プログラムを実行せずにそのプログラムが何を行うかを決定することは難しく、技術的なスキルが必要です。私たちは経験から、ONS およびその他の関連する制御された研究環境が、数十年にわたってデータへの制御されたアクセスを安全に許可しており、デジタル領域での実践から借用してきたことを学びました。したがって、Bacalhau では、実行前の制御に加えて、実行後の結果をタスク送信者にリリースする前に変更することもできます。Bacalhau は計算を完了すると、結果をプライベートのプレリリース フィールドに保存します。次に、管理者はジョブのバックグラウンド チェックの結果を使用して、その結果がジョブに期待されるものであるかどうかを判断します。管理者がコンテンツが共有に適していると判断した場合、結果をダウンロードできます。さらに、プライベート ストレージ領域へのアクセスは厳しくロックダウンされており、ユーザーは Bacalhau のダウンロード機能を介して自分のジョブの結果のみをストリーミングできます。プレコントロールと同様に、結果に対して複雑な一連の分析を実行できます。 Amplify テクノロジーを使用すると、データ所有者は個人を特定できる情報 (PII) を自動的に検出し、CSV などの表形式データを要約し、画像やビデオ クリップ内のコンテンツを分析できます。生成されたメタデータは、結果を自動的に公開したり、人間の意思決定に貴重な情報を提供したりするために使用できます。## 新しい共同学習を開くためのコントロール信頼境界によって分離されたデータをコンピューティングすることで大規模なデータ共有が可能になりますが、現時点では安全な技術的ソリューションはありません。組織が保有するデータをより広範囲に共有して共有価値を生み出す場合、組織は複雑なデータ ガバナンスを必要とせずに、バカリャウ ジョブ モデレーションとオープン データ アクセスを適用できるようになりました。たとえば、大学が市民科学者や外部の研究者にさらに多くのデータを提供したり、ある政府部門が別の部門にデータの分析を許可したり、高度に規制されている金融機関のあるチームが別のチームにデータの詳細な分析を許可したりすることができます。要約すると、生データを信頼性の低いユーザーに公開しないことが重要です。 Bacalhau は、ユーザーが分析結果だけを取得できるようにします。同じ分散制御コンピューティング モデルにより、異なる組織の参加者間のフェデレーテッド ラーニングも可能になります。 Bacalhau を使用すると、独立した組織はデータを共有せずに、集約されたデータから詳細な分析を実行できます。フェデレーテッド ラーニング技術を使用すると、データ サイエンティストは、さまざまな独立組織や競合組織にデータの制御やデータ使用状況の正確な可視性を与えることなく、その組織のデータセット上で機械学習モデルや AI モデルをトレーニングできるようになりました。たとえば、マクロ経済政策の策定を担当する中央政府機関は、地方組織が保有するデータを利用できます。同様に、保険規制当局などの業界団体は、加盟しているすべての保険会社にフェデレーション ラーニングのバカリャウ ジョブを送信することで、モデルをトレーニングできます。データを 1 か所に集中させると、この貴重な集約データの販売や悪用につながる可能性がありますが、データをローカルに保管することで、各保険会社はそのデータが相互利益という相互に合意された目的のみに使用されていることを確認できます。## 特定のテーマ分析のためにアイランドを計算する最後に、Bacalhau が提供するジョブ実行のきめ細かい制御により、管理者がコンピューティング アイランドへのゲートウェイとなることが可能になりました。この構造では、特定の目的にリソースを提供することに関心のある独立系コンピューティング プロバイダーとデータ所有者は、信頼できるコントローラーにジョブの承認を委任できます。たとえば、がんの治療に役立つ可能性のある医療データを収集するために協力する科学者は、信頼する外部キュレーターを通じてデータと計算を提供できます。コントローラーは、合意されたポリシーに準拠するジョブのみを受け入れます。この場合は、がんの新しい治療法に貢献するジョブです。このようにして、科学者は外部アクセス要求を管理者に委任することで、より大きな公共財の目標に集中できます。 Bacalhau の堅牢な監査ログを使用すると、科学者は後で管理者が合意されたポリシーに従って行動したことを検証できます。## Bacalhau はデータ共有の未来ですBacalhau 1.0 でジョブおよびデータ ガバナンス機能をリリースできることを嬉しく思います。私たちは、データ コンピューティングがデータ共有に関する新しい考え方、つまり、データを共有しないことで安全に保つことを表していると信じています。現在、私たちは信頼境界を越えたガバナント コンピューティングの可能性を認識している企業や政府機関と協力しています。これらの機能がどのように機能するかについて詳しく知りたい場合は、Bacalhau Slack に参加するか、直接お問い合わせください。
Bacalhau 1.0 を 1 つの記事で理解する: プライベート データの可能性を解き放つ
出典: ファイルコインネットワーク
*この記事は、2023 年 5 月のボストン サミットでのサイモン ワーシントンによる プレゼンテーションに基づいています。 *
Bacalhau は、データネイティブな計算を可能にすることでデータ処理環境に革命をもたらします。つまり、データをコードに移動するのではなく、データが存在する場所でコードを送信して分析を実行します。データを保存し、計算のためにデータを承認、監査、制御できるようにすることで、悪用のリスクを軽減しながらより多くのデータを使用できるようになり、これがデータ ガバナンスの問題への答えとなります。データ量はネットワーク帯域幅よりも 45% 速く増加しており、データの 57% はクラウドまたは従来のデータセンターの外部に保存されており、大規模に運営する組織にとってデータの移動は遅すぎてコストがかかりすぎます。
データをローカルに保持するもう 1 つの正当な理由があります。それは、制御です。医療保険の相互運用性と責任に関する法律 (HIPAA) や一般データ保護規則 (GDPR) などの強制的な規制を通じて、あるいは機密の財務秘密や企業秘密に対するネイティブの保護を通じて、ほぼ 100% のすべてのデータが何らかの形のガバナンスの下に置かれています。データをコンピューティングに移動すると、データが通常の安全地帯から外れ、悪用のリスクが高まります。
ほとんどのデータは厳密にオープンまたはクローズではなく、特定の範囲内に存在します。この範囲内で、特定の人に特定の目的でアクセスを許可することができます。
出典: ODI
2008 年以来、世界のデータ ガバナンスに関する罰金は総額 2,500 億ドル近くに達しています。したがって、ほとんどの企業がデータ共有を恐れており、その結果、企業データの 68% が活用されていないのは当然のことです。実際、管理されたデータのほとんどは原則として、より効果的な意思決定のために共有および使用できますが、それは適切な人材と適切な目的に限られます。
データ共有には技術的な実施が必要です
ほとんどの組織は、厳格なデータ共有協定や契約によってこのニーズに応えようとしています。これらのプロトコルはセットアップに費用と時間がかかり、中央政府や金融機関などの企業の場合、内部チーム間でのデータ共有を可能にするデータ ガバナンスを通過するのに数か月かかる場合があります。
さらに悪いことに、これらの契約はまったく機能しません。ほとんどのデータ共有契約は完全に法的強制力がなく、誤った安全感を提供するだけです。データが信頼境界を越えると、悪用を防ぐことができるのはソフト メカニズム (全員が合意に従うことを信頼するなど) だけです。データ共有の実際の運用は誰にも見えず、監督するのが困難です。
明らかに、必要とされているのは、信頼境界を越えてデータを再利用する新しい方法です。これは、規制上の罰金やデータ所有者への見出しの危険を冒すことなく、アナリストにデータへのシンプルかつ制御されたアクセスを提供する方法です。
Bacalhau はデータ共有を可視化および監査可能にします
Bacalhau では、データネイティブ コンピューティングがデータ ガバナンスの課題に対する答えであると信じています。データを保存し、計算のためにデータを承認、監査、制御できるようにすることで、悪用のリスクを軽減しながら、より多くのデータを使用できるようになります。
さらに、Bacalhau は分散コンピューティング プラットフォームであるため、データを中央ストレージに移動する必要がありません。データは組織内のどこにでも存在できるため、困難な組織変更を回避し、データ所有者から制御を奪うことができます。
Bacalhau 1.0 の一部として、ジョブ ガバナンス機能とデータ ガバナンス機能を追加したことを発表できることを誇りに思います。 Bacalhau を使用すると、データ所有者は、プライベート データに対して誰が、何を、どこで、なぜ、どのように計算を実行するかを制御できます。
Bacalhau 制御コードと出力
Bacalhau はジョブ管理に 2 段階のアプローチを使用します。まず、データ所有者は、ジョブがポリシーに準拠しているかどうかを確認する機会があります。このプレガバナンス フェーズはジョブの実行が開始される前に発生し、ガバナンスが使用されるデータ、ジョブの要求者、ジョブに対して実行されるコードに基づいて計算を承認または拒否できるようになります。
人間は常に制御していますが、すべての決定を人間が行う必要があるわけではありません。ガバナンス前のプロセスは柔軟で、必要に応じて自動化できます。データ所有者は、ポリシーを設定し、今後の計算を詳細に検査し、さまざまな人に異なるポリシーを設定し、セキュリティとリスクを分析する複雑なアルゴリズムを呼び出すことができます。自動制御に適さない業務の場合は、人間が最終判断を行うことも可能です。
Bacalhau は、計算用に 2 つのゲートウェイ (計算前と計算後) を提供します。
承認されると、Bacalhau はジョブを適切な実行者に送信します。実行者は要求されたデータにのみアクセスでき、ホスト システムから安全に分離されます。 Bacalhau は、ジョブにリソース制約を課して、処理能力とメモリ使用量を制御します。
事前制御は信頼を守るための合理的な第一線を提供しますが、一般に、コンピューター プログラムを実行せずにそのプログラムが何を行うかを決定することは難しく、技術的なスキルが必要です。私たちは経験から、ONS およびその他の関連する制御された研究環境が、数十年にわたってデータへの制御されたアクセスを安全に許可しており、デジタル領域での実践から借用してきたことを学びました。したがって、Bacalhau では、実行前の制御に加えて、実行後の結果をタスク送信者にリリースする前に変更することもできます。
Bacalhau は計算を完了すると、結果をプライベートのプレリリース フィールドに保存します。次に、管理者はジョブのバックグラウンド チェックの結果を使用して、その結果がジョブに期待されるものであるかどうかを判断します。管理者がコンテンツが共有に適していると判断した場合、結果をダウンロードできます。さらに、プライベート ストレージ領域へのアクセスは厳しくロックダウンされており、ユーザーは Bacalhau のダウンロード機能を介して自分のジョブの結果のみをストリーミングできます。
プレコントロールと同様に、結果に対して複雑な一連の分析を実行できます。 Amplify テクノロジーを使用すると、データ所有者は個人を特定できる情報 (PII) を自動的に検出し、CSV などの表形式データを要約し、画像やビデオ クリップ内のコンテンツを分析できます。生成されたメタデータは、結果を自動的に公開したり、人間の意思決定に貴重な情報を提供したりするために使用できます。
新しい共同学習を開くためのコントロール
信頼境界によって分離されたデータをコンピューティングすることで大規模なデータ共有が可能になりますが、現時点では安全な技術的ソリューションはありません。組織が保有するデータをより広範囲に共有して共有価値を生み出す場合、組織は複雑なデータ ガバナンスを必要とせずに、バカリャウ ジョブ モデレーションとオープン データ アクセスを適用できるようになりました。
たとえば、大学が市民科学者や外部の研究者にさらに多くのデータを提供したり、ある政府部門が別の部門にデータの分析を許可したり、高度に規制されている金融機関のあるチームが別のチームにデータの詳細な分析を許可したりすることができます。要約すると、生データを信頼性の低いユーザーに公開しないことが重要です。 Bacalhau は、ユーザーが分析結果だけを取得できるようにします。
同じ分散制御コンピューティング モデルにより、異なる組織の参加者間のフェデレーテッド ラーニングも可能になります。 Bacalhau を使用すると、独立した組織はデータを共有せずに、集約されたデータから詳細な分析を実行できます。フェデレーテッド ラーニング技術を使用すると、データ サイエンティストは、さまざまな独立組織や競合組織にデータの制御やデータ使用状況の正確な可視性を与えることなく、その組織のデータセット上で機械学習モデルや AI モデルをトレーニングできるようになりました。
たとえば、マクロ経済政策の策定を担当する中央政府機関は、地方組織が保有するデータを利用できます。同様に、保険規制当局などの業界団体は、加盟しているすべての保険会社にフェデレーション ラーニングのバカリャウ ジョブを送信することで、モデルをトレーニングできます。
データを 1 か所に集中させると、この貴重な集約データの販売や悪用につながる可能性がありますが、データをローカルに保管することで、各保険会社はそのデータが相互利益という相互に合意された目的のみに使用されていることを確認できます。
特定のテーマ分析のためにアイランドを計算する
最後に、Bacalhau が提供するジョブ実行のきめ細かい制御により、管理者がコンピューティング アイランドへのゲートウェイとなることが可能になりました。この構造では、特定の目的にリソースを提供することに関心のある独立系コンピューティング プロバイダーとデータ所有者は、信頼できるコントローラーにジョブの承認を委任できます。
たとえば、がんの治療に役立つ可能性のある医療データを収集するために協力する科学者は、信頼する外部キュレーターを通じてデータと計算を提供できます。コントローラーは、合意されたポリシーに準拠するジョブのみを受け入れます。この場合は、がんの新しい治療法に貢献するジョブです。
このようにして、科学者は外部アクセス要求を管理者に委任することで、より大きな公共財の目標に集中できます。 Bacalhau の堅牢な監査ログを使用すると、科学者は後で管理者が合意されたポリシーに従って行動したことを検証できます。
Bacalhau はデータ共有の未来です
Bacalhau 1.0 でジョブおよびデータ ガバナンス機能をリリースできることを嬉しく思います。私たちは、データ コンピューティングがデータ共有に関する新しい考え方、つまり、データを共有しないことで安全に保つことを表していると信じています。
現在、私たちは信頼境界を越えたガバナント コンピューティングの可能性を認識している企業や政府機関と協力しています。これらの機能がどのように機能するかについて詳しく知りたい場合は、Bacalhau Slack に参加するか、直接お問い合わせください。