교육

Google Professional Cloud Architect Exam Actual Questions#2

김구티2 2024. 3. 9. 22:22

11. Your customer is moving an existing corporate application to Google Cloud Platform from an on-premises data center. The business owners require minimal user disruption. There are strict security team requirements for storing passwords.
What authentication strategy should they use?

  • A. Use G Suite Password Sync to replicate passwords into Google
  • B. Federate authentication via SAML 2.0 to the existing Identity Provider
  • C. Provision users in Google using the Google Cloud Directory Sync tool
  • D. Ask users to set their Google password to match their corporate password

고객이 기존 기업 애플리케이션을 온프레미스 데이터 센터에서 구글 클라우드 플랫폼으로 이동시키고 있다. 비즈니스 소유자는 최소한의 사용자 중단만 요구하는 상황. 암호를 저장하기 위한 보안 팀의 요구사항도 엄격하다. 어떤 인증 전략이 적합한가?

 

https://support.google.com/a/answer/6120130에서 구글 클라우드 디렉터리 동기화 대상에 비밀번호가 포함된다. GCDS가 조직 단위, 그룹스, 사용자, 이메일 별칭, 사용자 프로필, 캘린더 리소스, 공유 외부 연락처, 비밀번호를 동기화할 수 있음을 알 수 있다. 따라서 C가 정답이 될 것이다.

 

12. Your company has successfully migrated to the cloud and wants to analyze their data stream to optimize operations. They do not have any existing code for this analysis, so they are exploring all their options. These options include a mix of batch and stream processing, as they are running some hourly jobs and live- processing some data as it comes in.
Which technology should they use for this?

  • A. Google Cloud Dataproc
  • B. Google Cloud Dataflow
  • C. Google Container Engine with Bigtable
  • D. Google Compute Engine with Google BigQuery

클라우드로 성공적으로 마이그레이션한 후 데이터 스트림을 분석하여 운영을 최적화하고자 한다. 이 분석을 위한 기존 코드가 없기 때문에 모든 옵션을 탐색하는 상황이다. 이 옵션에는 배치 및 스트림 처리를 혼합하는 것이 포함되며, 일부 시간당 작업을 실행하고 일부 데이터가 들어오는 대로 실시간으로 처리한다. 어떤 기술을 사용해야 하는가.

 

구글 클라우드 데이터플로우는 배치 및 스트림 처리를 위한 완벽한 서비스라고 할 수 있다. Apache Beam을 기반으로 구축되고 통합 프로그래밍 모델을 제공하므로 배치 및 스트림 데이터가 모두 필요한 시나리오에 이상적인 선택이라 할 수 있다. Dataflow는 데이터 병렬 처리의 복잡성을 단순화하여 데이터 처리 파이프라인을 쉽게 개발하고 유지 관리할 수 있다. 분석용 빅쿼리 및 데이터 저장용 클라우드 스토리지와 같은 다른 구글 클라우드 서비스와 잘 통합되어 실시간 및 배치 데이터 처리 요구에 대한 포괄적인 솔루션을 제공한다. 그렇기에 여기서는 이견의 여지가 전혀 없이 B라고 할 수 있다.

 

13. Your customer is receiving reports that their recently updated Google App Engine application is taking approximately 30 seconds to load for some of their users.
This behavior was not reported before the update.
What strategy should you take?

  • A. Work with your ISP to diagnose the problem
  • B. Open a support ticket to ask for network capture and flow data to diagnose the problem, then roll back your application
  • C. Roll back to an earlier known good release initially, then use Stackdriver Trace and Logging to diagnose the problem in a development/test/staging environment
  • D. Roll back to an earlier known good release, then push the release again at a quieter period to investigate. Then use Stackdriver Trace and Logging to diagnose the problem

최근 업데이트된 구글 앱 엔진 애플리케이션이 일부 사용자를 로드하는 데 약 30초나 걸린다고 한다. 업데이트 전에는 없었던 것이 말이다. 이때 무엇을 해야 하는가.

 

업데이트 이후 문제가 생겼다는 것이 핵심이다. A는 이전에 동일한 ISP에서 작동했기에 올바르지 않다. ISP는 이 문제와 무관하다. B에서의 구글 문제도 아니다. D에서 롤백은 완화 차원으로 수행해야 하긴 하다만, 테스트는 Prod 환경에서 수행해서는 안 된다. 그렇기에 non-prod 환경인 C를 고르겠다. 다만, 이 문제가 생산 단계에서만 발생한다고 하면 D가 더 나은 방법일 수도 있다.

 

14. A production database virtual machine on Google Compute Engine has an ext4-formatted persistent disk for data files. The database is about to run out of storage space.
How can you remediate the problem with the least amount of downtime?

  • A. In the Cloud Platform Console, increase the size of the persistent disk and use the resize2fs command in Linux.
  • B. Shut down the virtual machine, use the Cloud Platform Console to increase the persistent disk size, then restart the virtual machine
  • C. In the Cloud Platform Console, increase the size of the persistent disk and verify the new space is ready to use with the fdisk command in Linux
  • D. In the Cloud Platform Console, create a new persistent disk attached to the virtual machine, format and mount it, and configure the database service to move the files to the new disk
  • E. In the Cloud Platform Console, create a snapshot of the persistent disk restore the snapshot to a new larger disk, unmount the old disk, mount the new disk and restart the database service

구글 컴퓨트 엔진의 운영 데이터베이스 가상 머신에 데이터 파일을 위한 ext4 형식의 영구적인 디스크가 있다. 데이터베이스의 저장 공간이 부족하다면, 최소한의 다운타임으로 문제를 해결하는 방법은 무엇인가.

 

최소한의 다운타임이 답의 결정어가 될 것이다. 이것에 적합한 것은 오직 A가 된다. 디스크 크기를 조정하고, 스냅샷을 찍은 다음, 파일 시스템 및 파티션 크기를 조정해야 한다. Azure과 달리, 구글에서는 VM이 실행되는 동안 동적으로 영구적인 디스크의 크기를 조정할 수 있다는 점을 알아야 한다. https://cloud.google.com/compute/docs/disks/resize-persistent-disk에서 추가적인 내용을 확보할 수 있다.

 

15. Your application needs to process credit card transactions. You want the smallest scope of Payment Card Industry (PCI) compliance without compromising the ability to analyze transactional data and trends relating to which payment methods are used.
How should you design your architecture?

  • A. Create a tokenizer service and store only tokenized data
  • B. Create separate projects that only process credit card data
  • C. Create separate subnetworks and isolate the components that process credit card data
  • D. Streamline the audit discovery phase by labeling all of the virtual machines (VMs) that process PCI data
  • E. Enable Logging export to Google BigQuery and use ACLs and views to scope the data shared with the auditor

애플리케이션에서 신용 카드 거래를 처리해야 한다. 거래 데이터 및 결제 방법과 관련된 트렌드를 분석하는 기능을 손상시키지 않으면서, 최소한의 PCI 준수 범위를 유지해야 한다. 디자인 방식은?

 

A에서 설명한 것처럼, 결제 수단과 관련된 트랜잭션 데이터와 트렌드를 분석할 수 있도록 PCI 준수 범위를 최소화하려면, 토큰화 서비스를 이용하고, 토큰화된 데이터만 저장하는 것을 고려해볼 수 있다. 토큰화는 신용카드 번호와 같은 민감 데이터를 고유한 무작위 생성 토큰으로 대체하는 것이다. 이를 통해 부정 목적의 사용을 줄일 수 있을 것이고 말이다. 아무튼 이와 같은 과정을 통하면, PCI 컴플라이언스 범위를 전체 애플리케이션이 아닌 토큰화 서비스로만 줄일 수 있다. 이를 통해 보호해야 하는 민감 데이터의 양을 최소화하고, 그러면 컴플라이언스의 부담도 줄게될 것이다.

 

16. You have been asked to select the storage system for the click-data of your company's large portfolio of websites. This data is streamed in from a custom website analytics package at a typical rate of 6,000 clicks per minute. With bursts of up to 8,500 clicks per second. It must have been stored for future analysis by your data science and user experience teams.
Which storage infrastructure should you choose?

  • A. Google Cloud SQL
  • B. Google Cloud Bigtable
  • C. Google Cloud Storage
  • D. Google Cloud Datastore(*파일스토어)

대규모 웹사이트 포트폴리오에 포함된 클릭 데이터에 대한 저장 시스템을 선택해야 한다. 이 데이터는 분당 평균 6,000회의 클릭 속도로 맞춤형 웹사이트 분석 패키지에서 스트리밍된다. 초당 최대 8,500회의 클릭 속도가 가능하고 말이다. 어떤 스토리지 인프라를 골라야 하는가.

 

이런 대규모 데이터만 보면 자연스레 빅테이블을 떠올리게 된다. 그리고 분석, 스트리밍까지 더해진다면 이는 확신으로 굳어지게 된다. SQL과 스토리지, 파일스토어 모두 이러한 대규모의 고속 데이터 스트리밍에 있어 적합하지 않다.

 

17. You are creating a solution to remove backup files older than 90 days from your backup Cloud Storage bucket. You want to optimize ongoing Cloud Storage spend.
What should you do?

  • A. Write a lifecycle management rule in XML and push it to the bucket with gsutil
  • B. Write a lifecycle management rule in JSON and push it to the bucket with gsutil
  • C. Schedule a cron script using gsutil ls ג€"lr gs://backups/** to find and remove items older than 90 days
  • D. Schedule a cron script using gsutil ls ג€"l gs://backups/** to find and remove items older than 90 days and schedule it with cron

백업 클라우드 스토리지 버킷에서 90일 이상 된 백업 파일을 제거하는 솔루션을 만든다. 현재 진행 중인 클라우드 스토리지 지출을 최적화하려고 한다. 어떻게 해야 하는가.

 

gsutil은 라이프사이클 관리를 위해 json으로만 입력을 받는 https://cloud.google.com/storage/docs/gsutil/commands/lifecycle#examples에서 해당 내용을 확인할 수 있다. API의 경우에는 XML와 json을 모두 이용할 수 있고 말이다. GCP인지 아닌지 여부가 중요한 게 아니다. 라이프사이클 정책이 XML로 작성되지 않았기에 A는 적합하지 않다. C는 스크립트를 실행하기 위해 다른 무언가가 추가로 필요하다. 또한 cron 스크립드도 필요하고 말이다. D도 C와 같은 문제로 인해 정답에서 탈락한다.

 

18. Your company is forecasting a sharp increase in the number and size of Apache Spark and Hadoop jobs being run on your local datacenter. You want to utilize the cloud to help you scale this upcoming demand with the least amount of operations work and code change.
Which product should you use?

  • A. Google Cloud Dataflow
  • B. Google Cloud Dataproc
  • C. Google Compute Engine
  • D. Google Kubernetes Engine

데이터 센터에서 실행 중인 아파치 스파크 및 하둡 작업의 수와 규모가 급격히 증가할 예정이다. 클라우드를 활용해 최소한의 운영 작업과 코드 변경으로 이러한 수요를 확장하도록 지원한다. 어떤 제품을 사용해야 하는가.

 

데이터프록은 관리형 스파크 및 하둡 서비스로, 오픈 소스 데이터 툴을 활용하여 배치 프로세스, 쿼리, 스트리밍 및 머신 러닝을 수행할 수 있다. 데이터프록 자동화는 클러스터를 빠르게 생성하고, 쉽게 관리하며, 필요치 않을 때는 클러스터를 해제하여 비용을 절약할 수 있게 해준다. 따라서 데이터프록이 매우 합리적인 선택이 된다. 데이터플로우는 데이터 스트림과 배치를 위한 것이고, 컴퓨트 엔진은 VM을 위한 것이며, 쿠버네티스 엔진은 컴퓨트 엔진이 있는 쿠버네티스 클러스터를 위한 것이다.

 

19. The database administration team has asked you to help them improve the performance of their new database server running on Google Compute Engine. The database is for importing and normalizing their performance statistics and is built with MySQL running on Debian Linux. They have an n1-standard-8 virtual machine with 80 GB of SSD persistent disk.
What should they change to get better performance from this system?

  • A. Increase the virtual machine's memory to 64 GB
  • B. Create a new virtual machine running PostgreSQL
  • C. Dynamically resize the SSD persistent disk to 500 GB
  • D. Migrate their performance metrics warehouse to BigQuery
  • E. Modify all of their batch jobs to use bulk inserts into the database

구글 컴퓨트 엔진에서 실행되는 새로운 데이터베이스 서버의 성능을 향상시키는 데 도움을 요청한다. 데이터베이스 성능 통계를 가져오고 정규화하기 위해 데비안 리눅스에서 실행되는 MySQL로 구축돼 있다. 이들은 80GB의 SSD 영구적인 디스크가 있는 n1-standard-8 가상 머신을 갖고 있다. 시스템에서 더 나은 성능을 확보하기 위해 변경해야 하는 것은.

 

데이터베이스가 하드웨어의 한계에 접근하고 있다면, A와 C 옵션 모두 성능 향상에 도움이 될 것이다. 그런데 A는 CPU 수와 메모리를 향상시킬 테고, C는 메모리 수를 그보다 더욱 증가시킬 것이다. 그런데 소프트웨어 문제라면, 해싱 문제일 가능성이 높다. 이 문제는 PostgreSQL이나 빅쿼리로 마이그레이션하는 것만으로 해결되지는 않는다. 그런데 그렇다 해도, 인서트를 변경하는 것은 도움이 될 것이다. 데이터 검색에서 변화가 생길 것이기 때문이다. 하지만 그저 인서트만으로는 검색 성능에 도움이 되지는 않고, 정규화에도 도움이 되지 않는다. 그렇기에 B, D, E는 아예 논외가 되는 것이다. 통계는 결국 집합을 기반으로 하기 때문에 집합의 수가 많을 수록 더 나은 예측을 할 수 있다는 것은 기정 사실이다. 단순히 1,000명을 대상으로 한 통계보다는 100만 명을 대상으로 한 통계가 신뢰가 가는 것은 당연한 이치니 말이다. 그리고 이것은 메모리의 양과 이어지는 개념이다. 메모리의 양이 많다는 것은 컴퓨터 성능도 향상되고, 지식도 향상될 수 있다는 것을 의미한다. 그래서 C가 여기서는 A에 비해 더욱 유리한 선택이 될 것이다.

 

20. You want to optimize the performance of an accurate, real-time, weather-charting application. The data comes from 50,000 sensors sending 10 readings a second, in the format of a timestamp and sensor reading.
Where should you store the data?

  • A. Google BigQuery
  • B. Google Cloud SQL
  • C. Google Cloud Bigtable
  • D. Google Cloud Storage

정확한 실시간 날씨 차트 애플리케이션의 성능을 최적화하고자 한다. 데이터는 타임스탬프와 센서 판독 값의 형식으로 초당 10개의 판독 값을 보내는 5만 개의 센서에서 나온다. 데이터를 어디에 저장해야 하는가.

 

일단 무지성으로 대량 데이터를 볼 때는 빅테이블을 의심해본다. 그리고 실시간+ IoT + 시계열 + 대용량의 모든 키워드가 빅테이블을 가리키고 있다. 빅쿼리, SQL, 스토리지는 대량의 실시간 데이터를 처리하는 데 있어 적합하지 않다. 거기에다 빅테이블과 같은 수준의 성능과 확장성을 제공할 수도 없다.

728x90