파이썬을 활용한 머신러닝 해석 가능성

세르그 마시스 (지은이), 김우현 (옮긴이) | 에이콘출판 | 2023년 6월 정가 45,000원 판매가 40,500원 배송비 0원 (0원 이상 무료) 페이지 840쪽 판형 188*235mm 1596g ISBN 9791161757605 상태 새책 or 중고 수량 합계 40,500

책소개

설명 가능한 인공지능 또는 해석 가능한 머신러닝 모델을 구축하는 다양한 방법론을 소개한다. 최근 이슈가 되고 있는 인공지능 모델의 윤리적 문제를 다루면서도 동시에 높은 성능과 견고성을 유지할 수 있는 비결을 소개한다.

먼저 해석 가능성이란 무엇인지 설명하고 머신러닝 모델의 윤리적 측면인 공정성, 책임성, 투명성이 필요한 이유 그리고 이를 달성할 방법을 설명한다. 그 다음 다양한 상황과 다양한 데이터 형태를 갖는 각 유스 케이스에서 머신러닝 해석방법론을 적용하는 과정을 실제적으로 다루고 있다. 마지막으로 모델의 복잡성을 줄이고, 편향을 완화시키고, 안정성과 견고성을 향상시키기 위해 모델을 튜닝하는 방법을 학습할 수 있다.

저자소개

세르그 마시스 (Serg Masis) (지은이)  
신간알리미 신청
김우현 (옮긴이)  
신간알리미 신청
세르그 마시스(지은이)의 말
"설명 가능한 AI"(eXplainable AI, XAI)라고도 알려진 "해석 가능한 머신러닝"(Interpretable Machine Learning)은 모델로부터 학습해 모두가 모델에 바라는 대로 모델을 안전하고 공정하고 신뢰할 수 있도록 만들기 위해 계속 발전하고 있는 일련의 방법론이다.
그러나 AI가 소프트웨어와 인간을 대체하면서 머신러닝 모델은 더 "지능적인" 형태의 소프트웨어로 여겨진다. 실제로는 1과 0으로 이뤄져 있지만, 머신러닝 모델의 논리가 인간에 의해 프로그래밍되고 디자인돼 의도된 대로 수행된다는 점에서 머신러닝 모델은 소프트웨어가 아니다. 그러므로 해석은 인간이 머신러닝 모델과 그 모델의 실수를 이해하고, 그들이 해를 끼치기 전에 결점을 고칠 수 있게 해 주는 방법이다. 따라서 해석은 신뢰할 수 있고 윤리적인 모델을 만드는 데 중요하다. 또한 머지않아 모델을 학습시킬 때 코드가 아닌 드래그 앤 드롭 인터페이스를 사용하게 될 것이다. 그러므로 파이썬은 매우 인기있기는 하지만 결국 시간의 테스트를 견뎌 낼 기술은 머신러닝 해석이다.
현재로서는 데이터를 준비하고 탐색한 다음 모델을 학습하고 결과를 내기 위해서 여전히 상당한 코드가 필요하고, 이 책의 모든 장에는 자세한 파이썬 코드 예제를 포함하고 있다. 그러나 이 책은 유스 케이스와 목적 의식이 서로 단절된 프로그래밍 "쿡북(cookbook)"으로 설계되지 않았다. 대신 이 책은 패러다임을 뒤집는다. 그 이유는 간단하다. 결국, 해석의 모든 것은 "왜?"라는 질문에 답하기 위해 존재한다. "해석 가능한 머신러닝"이 독자에게 효과적이려면 "어떻게?"보다 "왜?"가 선행돼야 한다.
이런 이유로 대부분의 장은 과제('왜?')와 접근법('어떻게?')으로 시작한다. 그 다음 장 전체에 걸쳐 학습할 방법론('어떻게?')을 사용해 과제를 완료하는 것이 목표이며, 결과를 해석하는 데('왜?')에 초점을 맞춘다. 마지막으로 과제를 완료하면서 어떤 실행 가능한 통찰력을 얻었는지 되짚어 볼 것이다.
책 역시 기초부터 시작해 더 발전된 주제로 넘어가는 구조다. 사용되는 도구는 모두 오픈소스이며 마이크로소프트, 구글, IBM 등과 같은 최첨단 연구소에서 빌드한 것이다. 매우 광범위한 분야이므로 대부분은 아직 연구 단계지만 앞으로 널리 쓰이게 될 것이다. 이 책은 그 모든 분야를 다루진 않을 예정이다. 대신 머신러닝에 관련된 많은 실무자와 전문가에게 유용하도록 많은 해석 가능성 도구를 충분히 깊이 있게 제시하는 게 목적이다.

1부는 해석 가능성(interpretability)에 대한 초급 안내서로, 비즈니스와의 연관성을 다루고 해석 가능성의 주요 측면과 과제를 탐구한다. 2부에서는 다양한 해석 방법론들을 분류나 회귀에 대해서, 테이블 데이터, 시계열, 이미지, 텍스트 등 다양한 유스 케이스에 적용하는 방법을 살펴본다. 3부에서는 해석 가능성을 위해 복잡성을 줄이고, 편향을 완화하고, 가드레일을 배치하고, 안정성을 향상시키면서 모델을 튜닝하고 데이터를 학습하는 방법에 관해 실습한다.
이 책을 끝내면 머신러닝 모델을 더 잘 이해하고, 해석 방법론을 사용한 해석 가능성 튜닝을 통해 모델을 개선할 수 있게 될 것이다.
역자후기
얼마 전 국내의 한 대화형 인공지능 챗봇이 출시된 지 얼마 지나지 않아 혐오 및 차별 발언을 했을 뿐만 아니라 학습 데이터를 불법으로 수집했음이 밝혀진 사건이 일어났다. 이는 훨씬 전에 마이크로소프트의 챗봇인 테이(Tay)가 인종차별 관련 혐오 발언으로 서비스가 중단된 사례가 있었음에도 모델 구축 시 이를 전혀 고려하지 않았기 때문이었다. 이 사건을 통해 국내에서도 'AI 윤리'가 핵심 이슈로 떠올랐다. 또한 등장하자마자 큰 관심을 받고 있는 챗GPT에 대해서도 윤리적 문제를 일으킬 수 있는 답변을 유도하는 질문 방식이 온라인상에 공유되면서 'AI 윤리'에 관한 논란이 다시금 빚어지고 있다.
이 책은 'AI 윤리'에서 중요한 주제인 인공지능 모델의 공정성, 책임성, 투명성을 기반으로 '머신러닝 해석 가능성'이 왜 중요한지 다룬다. 그 다음 머신러닝 해석에 사용되는 전통적인 방법론의 한계를 살펴보고 예측 성능과 모델 해석 가능성 사이에서 어떻게 절충할 수 있을지 고민한다.
모델을 해석하기 위한 방법론으로 먼저 피처 중요도와 피처의 영향력을 기반으로 하는 여러 가지 해석 방법론을 살펴본다. 그 다음 해석 방법론 중에서 가장 두드러진 주목을 받고 있는 SHAP(SHapley Additive exPlanations)과 LIME(Local Interpretable Model-Agnostic dEscriptions)을 활용한 모델 독립적인 해석 방법론을 다룬다. 또한 인간이 해석할 수 있는 방식으로 불공정한 예측을 설명하는 방법론인 대조적 설명 방법론 등을 소개한다.
이미지를 처리하는 컨볼루션 신경망에 대해서도 다양한 해석 방법론을 살펴보며, 더 나아가 신경망 모델을 공격하는 다양한 적대적 공격에 대해서 모델의 견고성을 구축하기 위한 방어법을 설명한다. 또한 예측과 불확실성이 본질적으로 어떻게 연결돼 있는지, 입력과 관련된 모델 출력의 불확실성 측정을 위해 어떤 방법론들이 설계됐는지도 다룬다. 마지막으로 모델의 공정성을 시각화하는 방법과 함께 모델의 편향을 줄이고 공정성과 견고성을 위해 모델을 튜닝하는 방법론을 살펴본다.
이 책을 통해 독자들은 'AI 윤리'의 기초 지식뿐만 아니라 이를 실무에 적용하기 위한 다양한 방법론을 배울 수 있을 것이다. 여러분이 구축하는 인공지능 모델이 머신러닝 해석 가능성 생태계에서 윤리적 문제를 극복하고 고성능의 견고한 서비스가 되기를 기원한다.

출판사소개

목차

1부. 머신러닝 해석 소개

__1장. 해석, 해석 가능성, 설명 가능성: 왜 이 모두가 중요한가?

______기술 요구 사항
______머신러닝 해석이란?
____단순 몸무게 예측 모델의 이해
______해석 가능성과 설명 가능성의 차이점 이해
____해석 가능성이란
____설명 가능성이란
______해석 가능성에 대한 비즈니스 사례
____더 나은 의사결정
____더 신뢰받는 브랜드
____더 윤리적인
____더 많은 수익
______정리
______이미지 소스
______더 읽을거리

__2장. 해석 가능성의 주요 개념
______기술 요구 사항
______미션
____CVD에 대한 상세정보
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
______해석 방법론의 종류와 범위
____모델 해석 가능성 방법론의 종류
____모델 해석 가능성의 범위
____로지스틱 회귀로 개별 예측 해석
______머신러닝 해석 가능성을 저해하는 요인
____비선형성
____상호작용성
____비단조성
______미션 완료
______정리
______더 읽을거리

__3장. 머신러닝 해석의 과제
______기술 요구 사항
______미션
______접근법
______준비
____라이브러리 로드
____데이터의 이해 및 준비
______전통적인 모델 해석 방법론
____다양한 회귀 방법론으로 지연된 시간 예측
____다양한 분류 방법론으로 항공편 지연 여부 분류
____차원 축소 방법으로 지연된 항공편 시각화
______전통적인 모델 해석 방법론의 한계
______본질적으로 해석 가능한 화이트박스 모델
____일반화 선형 모델(GLM)
____의사결정 트리
____RuleFit
____최근접 이웃
____나이브 베이즈
______성능과 해석 가능성 사이의 균형
____특수한 모델 속성
____성능 평가
______최신의 해석 가능한 글래스박스 모델
____설명 가능한 부스팅 머신(EBM)
____Skoped Rules
______미션 완료
______정리
______데이터셋 소스
______더 읽을거리

2부. 해석 방법론 마스터하기

__4장. 피처 중요도와 피처 영향력

______기술 요구 사항
______미션
____성격과 출생 순서
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
______결과에 대한 피처의 영향력 측정
____트리 기반 모델의 피처 중요도
____로지스틱 회귀의 피처 중요도
____LDA의 피처 중요도
____다층 퍼셉트론의 피처 중요도
______PFI 실습
____PFI의 단점
______PDP 해석
____상호작용 PDP
____PDP의 단점
______ICE 플롯
____ICE의 단점
______미션 완료
______정리
______데이터셋 소스
______더 읽을거리

__5장. 글로벌 모델 독립적 해석 방법론
______기술 요구 사항
______미션
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
____데이터 딕셔너리
______섀플리 값 소개
______SHAP 요약 플롯 및 의존도 플롯 해석
____SHAP 요약 플롯 생성
____상호작용 이해하기
____SHAP 의존도 플롯
____SHAP 영향력 플롯
______누적 지역 효과 플롯
______글로벌 대체 모델
______미션 완료
______정리
______더 읽을거리

__6장. 로컬 모델 독립적 해석 방법론
______기술 요구 사항
______미션
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
______SHAP의 KernelExplainer 활용해 SHAP 값으로 로컬 해석
______LIME
______NLP에 LIME 사용하기
______NLP에 SHAP 사용하기
______SHAP과 LIME 비교
______미션 완료
______정리
______데이터셋 소스
______더 읽을거리

__7장. 앵커와 반사실적 설명
______기술 요구 사항
______미션
____재범 위험 평가의 부당한 편향
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
______앵커 설명에 대한 이해
____alibi를 이용해 앵커 및 반사실적 설명 준비하기
____앵커 설명을 위한 로컬 해석
______반사실적 설명 탐색
____프로토타입을 통한 반사실적 설명
____What-If 도구(WIT)를 사용한 반사실적 설명
______CEM과의 비교
______미션 완료
______정리
______데이터셋 소스
______더 읽을거리

__8장. 컨볼루션 신경망 시각화
______기술 요구 사항
______미션
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
____전통적인 해석 방법론으로 CNN 분류기 평가
______활성화 기반 방법론으로 학습 과정을 시각화
____중간 활성화
____활성화 극대화
______그래디언트 기반 귀인 방법론으로 오분류 검증
____돌출 맵
____Grad-CAM
____통합 그래디언트
____종합
______섭동 기반 귀인 방법론으로 분류 이해
____폐쇄 민감도
____LIME의 ImageExplainer
____CEM
____종합
____보너스: SHAP의 DeepExplainer
______미션 완료
______정리
______데이터셋 및 이미지 소스
______더 읽을거리

__9장. 다변량 예측 및 민감도 분석을 위한 해석 방법론
______기술 요구 사항
______미션
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
______전통적인 해석 방법론으로 시계열 모델 평가
______통합 그래디언트로 LSTM 속성 생성
______SHAP의 KernelExplainer로 글로벌 및 로컬 속성 계산
______인자 우선순위화로 영향력 있는 피처 식별
______인자 고정으로 불확실성 및 비용 민감도 정량화
______미션 완료
______정리
______데이터셋 및 이미지 소스
______더 읽을거리

3부. 해석 가능성을 위한 튜닝

__10장. 해석 가능성을 위한 피처 선택과 피처 엔지니어링

______기술 요구 사항
______미션
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
______상관성 없는 피처의 효과 이해
______필터링 기반 피처 선택 방법론
____기본 필터링 기반 방법론
____상관관계 필터링 기반 방법론
____순위 필터링 기반 방법론
____필터링 기반 방법론 비교
______임베디드 피처 선택 방법론
______래퍼, 하이브리드, 고급 피처 선택 방법론
____래퍼 방법론
____하이브리드 방법
____고급 피처 선택 방법론
____모든 피처 선택 모델 평가
______피처 엔지니어링 고려
______미션 완료
______정리
______데이터셋 소스
______더 읽을거리

__11장. 편향 완화 및 인과관계 추론 방법론
______기술 요구 사항
______미션
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
______편향 감지
____데이터셋 편향 시각화
____데이터셋 편향 정량화
____모델 편향 정량화
______편향 완화
____전처리 편향 완화 방법론
____프로세스 내 편향 완화 방법론
____후처리 편향 완화 방법론
____편향 완화 방법론 비교
______인과 모델 생성
____실험 결과 이해
____인과 모델에 대한 이해
____선형 DRL 초기화
____인과 모델 적합
______이질적 처치 효과
____정책 선택
______추정치 견고성 테스트
____무작위 공통 원인 추가
____무작위 변수로 처치 대체
______미션 완료
______정리
______데이터셋 소스
______더 읽을거리

__12장. 해석 가능성을 위한 단조성 제약조건과 모델 튜닝
______기술 요구 사항
______미션
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
______피처 엔지니어링으로 가드레일 배치
____서수화
____이산화
____상호작용 항과 비선형 변환
____범주화 인코딩
____다른 준비 작업
______해석 가능성을 위한 모델 튜닝
____케라스 신경망 튜닝
____인기 있는 다른 모델 클래스 튜닝
____베이지안 하이퍼파라미터 튜닝 및 사용자 정의 메트릭으로 공정성 최적화
______모델 제약조건 구현
____XGBoost에 대한 제약조건
______미션 완료
______정리
______데이터셋 소스
______더 읽을거리

__13장. 적대적 견고성
______기술 요구 사항
______미션
______접근법
______준비
____라이브러리 로드
____데이터 이해 및 준비
____CNN 기본 모델 로드
____CNN 기본 분류기 평가
______우회 공격
______전처리를 통한 표적 공격 방어
______적대적 학습을 통해 우회 공격으로부터 보호
______적대적 견고성 평가 및 인증
____모델 견고성과 공격 강도 비교
____무작위 평활화로 견고성 인증
______미션 완료
______정리
______데이터 소스
______더 읽을거리

__14장. 머신러닝 해석 가능성 그다음 단계는?
______ML 해석 가능성의 현재 상황 이해
____전체 요약
____최신 트렌드
____ML 해석 가능성의 미래에 대한 추측
____ML의 새로운 비전
____종합적인 접근
____적절한 표준화
____규제 시행
____내장된 해석으로 인한 매끄러운 머신러닝 자동화
____MLOps 엔지니어와의 긴밀한 통합
______더 읽을거리

더보기

배송

- 배송비, 무료배송비는 업체 사정에 따라 달라질 수 있습니다.
- 배송은 결제 확인 후 다음날부터 2~3일 이내에 배송됩니다. (단 도서 산간지역은 1~2일정도 더 소요됩니다.)
- 공휴일은 배송기간에 포함되지 않습니다.
- 주문하신 상품이 여러개인 경우 동일한 업체의 상품만 묶음 배송 가능합니다. (업체 사정에 따라 달라질 수 있습니다.)
- 배송정보는 상단 주문조회나 마이페이지 주문목록에서 가능합니다.

상품 품절

- 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드립니다.

주문취소/변경

- 주문 상품에 대한 변경사항(품절,가격변동)이 발생하면 전화나 메일을 통해 변경내용을 알려드립니다.
- 주문 상품의 변경/취소/환불은 배송 시작전 마이페이지에서 직접 신청이 가능합니다.
- 주문 상품이 발송된 시점에서는 변경/취소/환불이 모두 불가능합니다.

반품/교환

- 기간 : 배송받으신 후 7일 이내에 가능합니다.
- 방법 : 홈페이지 마이페이지 > 반품/ 교환 신청 및 조회에서 가능합니다.
- 배송비 부담 : 상품에 이상이 있을시에는 무료, 고객의 단순변심 및 착오구매일 경우 상품 반송비용은 고객 부담입니다.
- 포장 개봉 후 재판매가 불가능한 상품은 반품/교환이 불가능합니다.
- 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우, 반품/교환이 불가능합니다.

반품/교환 불가 사유

- 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우 (단지 확인을 위한 포장 훼손은 제외)
- 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
- 복제가 가능한 상품 등의 포장을 훼손한 경우
- 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우
- 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
- 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
- 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

소비자 피해보상 환불 지연에 따른 배상

- 상품의 불량에 의한 반품, 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 준하여 처리합니다.
- 대금 환불 및 환불 지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리합니다.

Copyright © 2022 이츠북. All Rights Reserved.