最近,セキュリティ界隈で就職先を探してる.
今回はIPAが情報処理安全確保支援士検索サービスとして公開している情報を基に,”セキュリティ人材”がどこにいるのか探る.
ただし結果が正確なものである保証はできないので,ご了承ください.
公式情報
IPAから合格率などの統計情報,登録者の属性,情報処理安全確保支援士検索サービス,「情報処理安全確保支援士(登録セキスペ)の活動に関する実態調査」調査報告書が公式な情報として公開されており,これが最も確度が高い情報であると思われる.しかし,勤務先に関する統計は記載されていないようなので,軽く調べてみる.
調査方法
1.データの保存と文字コード変更
1.1.データの取得
情報処理安全確保支援士検索サービスの「一覧表示された内容をExcelファイルでダウンロードする」から,現時点(2020年1月26日,17965人分)のファイル(20200126.xlsx)をダウンロードする.
1.2.csv形式に変換
Excelで開き,[編集を有効にする(E)]を押下した後,[名前を付けて保存]から扱いやすいようにcsv形式で保存する(20200126.csv).
1.3.文字コードと改行コードの変換
Linuxコマンドで扱いやすくするため,Terapadで開いて文字コードをShift-JISからUTF-8,改行コードをLFに上書きする.
2.Linuxコマンドを使ったカウント
Linux環境(今回はBash on Ubuntu on Windows)から,所属や住所を調べてみる.
2.1.ヘッダのスキップ
csvには”登録番号”や”登録年月日”などがヘッダとして1行目に記載されているため,それをtailコマンドでスキップする.
tail -n +2 20200126.csv
2.2.列抽出
csvでは19列目に”勤務先名称”という列が登録されているため,”,”を区切り文字として19番目を切り出す.
cut -d "," -f 19
2.3.表記ゆれなどの修正
目grepで会社名の表記ゆれや勤務先未登録が多数存在することが分かったため,以下の3種を削除
-
- 株式会社,(株)
- 全角スペース,半角スペース
- 勤務先未登録(空行)
削除にはsedコマンドで,以下のようにする.
sed -e "s/株式会社//" -e "s/(株)//" -e "s/ //" -e "s/ //" -e "/^$/d"
2.4.sortとuniq
sortコマンドでソートし,uniqコマンドにcオプションを付けて重複する行をカウントする.その後,sortコマンドにn,rオプションで,行を数値として解釈し降順で並べる.なお,localeの設定によってはsortコマンドが正しく動作しないことがある.export LC_ALL=Cとかすると直ったりする.
sort | uniq -c | sort -nr
2.5.実行結果
実行結果は以下のようになった.なお,結果はheadコマンドでトップ100を表示している.
同様に,5列目の自宅住所については以下のようになる.
勤務先住所はこのようになった.
まとめ
勤務先名称,自宅住所,勤務先住所は以下のようになった.なお,表記ゆれなどによって若干精度が下がっている.正確な人数が必要な場合には情報処理安全確保支援士検索サービスの利用を推奨.また,そもそも勤務先名称を登録していない人が多いようなので,現実とは違うのかも知れない.
感想
結局どこに就職すれば良いんだ…???
でもやっぱり関東圏には人が多いし,北海道から出てきてよかった.
あと勤務先名称の形式を統一してくれ…