Estágio 01 · 01-02

Locked

Sistemas Operacionais, Processes, Threads, Scheduling, Syscalls, FDs

~13 min read2.793 palavras1 code blocks

01-02, Sistemas Operacionais

1. Problema de Engenharia

O sistema operacional (SO) é o software que multiplexa a CPU, a memória, o disco e a rede entre múltiplos programas que pensam que cada um tem a máquina inteira. Sem entender o SO, conceitos como event loop, worker threads, epoll, process.fork, permission denied, EAGAIN, SIGTERM, pipe, mount parecem mágica.

Exemplos onde desconhecimento custa caro:

Sua app Node trava sob carga alta. Causa real: você está abrindo um file descriptor por request e atingiu o ulimit -n. Você não sabia que sockets, files, pipes, todos são FDs e há limite por processo.
Você cria 1000 threads pra "paralelizar" e o servidor fica mais lento. Causa: contention de scheduler + cache thrashing. Você não tinha modelo mental de scheduler, context switch, CPU affinity.
Sua aplicação trava em produção sem erro óbvio. Causa: deadlock entre dois processos com flock no mesmo arquivo. Você não conhecia file locks.
Você lê arquivo gigante com fs.readFile e o Node mata o processo com OOM. Você não sabia distinguir leitura síncrona/buffered vs streaming.

Este módulo te dá o vocabulário e os mecanismos do SO que sustentam toda a stack de runtime (Node, Postgres, Redis, Docker, Kubernetes).

2. Teoria Hard

2.1 O que é um SO, kernel vs user space

O kernel é um programa especial que roda em modo privilegiado da CPU. Ele tem acesso direto a hardware (CPU, RAM, disco, rede). Aplicações rodam em user space, em modo não-privilegiado, e não podem tocar hardware diretamente.

┌────────────────────────────────────────┐
│  User space (apps, libs, runtime)      │
│  Node, postgres, redis, etc            │
└────────────────────┬───────────────────┘
                     │ system calls
                     ▼
┌────────────────────────────────────────┐
│  Kernel (Linux, BSD, etc)              │
│  Scheduler, VM, FS, Network, Drivers   │
└────────────────────┬───────────────────┘
                     │
                     ▼
                Hardware

Quando uma app precisa fazer algo privilegiado (ler arquivo, abrir socket), ela faz uma system call (syscall), uma chamada que passa controle pro kernel via interrupção de software. Após o kernel executar, retorna ao user space.

Custo de syscall: ~100-1000 ns dependendo da operação. Não é grátis. Por isso runtimes como Node fazem batching (uma syscall writev em vez de várias write).

2.2 Processo

Um processo é uma instância em execução de um programa. Cada processo tem:

PID (process ID, número único do kernel)
Espaço de endereços virtual próprio (text, data, heap, stack, ver 01-01)
Um ou mais threads de execução
File descriptors abertos
UID/GID (usuário/grupo dono do processo)
Working directory, environment variables, command line args
Estado: running, sleeping (waiting on I/O), zombie (terminou mas pai não fez wait), stopped

Criação de processo (Linux): fork() cria uma cópia exata do processo atual. O filho recebe um PID novo, herda FDs do pai, e continua a execução do mesmo ponto do código. Geralmente o filho então faz exec() pra trocar o programa em execução por outro (assim que bash roda comandos).

Process tree: Linux tem init (PID 1) como ancestral de todos. pstree mostra a árvore.

Zombie process: quando processo termina, seu exit status fica esperando o pai chamar wait(). Se o pai nunca chama, o filho fica como zombie (consome só uma entrada na process table). Se o pai morre antes do filho, o filho é "adotado" por PID 1.

2.3 Thread

Uma thread é uma sequência de execução dentro de um processo. Threads do mesmo processo:

Compartilham espaço de endereços (heap, código)
Têm stacks separadas
Têm registradores próprios
São escalonadas pelo SO (em Linux, threads são "Lightweight Processes", kernel não distingue muito de processo)

Vantagem: comunicação rápida via memória compartilhada. Custo: sincronização (mutex, semáforos, atomics) é difícil. Race conditions e deadlocks são fáceis de introduzir.

Em Node: o seu código JS roda em uma única thread (a main thread). Mas o Node usa thread pool internamente (libuv) pra I/O bloqueante (filesystem, DNS, crypto). Worker Threads (módulo node:worker_threads) permitem JS paralelo.

2.4 Scheduling

O kernel escalona threads/processos sobre os cores físicos (CPUs). Componentes:

Run queue: lista de threads prontas pra rodar (em Linux, há uma run queue por core).
Scheduler: decide qual thread roda em cada core, por quanto tempo (time slice / quantum, tipicamente 1-100ms).
Context switch: salvar registradores e estado da thread atual, restaurar os da próxima. Custa ~1-10 µs + invalidação parcial de cache.

Linux scheduler atual: CFS (Completely Fair Scheduler). Mantém uma red-black tree de threads runnable, ordenada por vruntime (tempo virtual de CPU acumulado). Sempre escolhe a thread com menor vruntime, daí "fair".

Estados de thread:

Running (executando)
Runnable (na run queue, pronta)
Sleeping/Blocked (esperando algo: I/O, mutex, sleep)
Zombie (processo)

Quando uma thread faz syscall bloqueante (read num socket sem dado), o kernel a coloca em Sleeping. Quando o evento ocorre (dado chega), thread vai pra Runnable.

Implicações práticas:

Mais threads que cores ≠ mais paralelismo. Apenas N threads rodam simultaneamente em N cores. As outras esperam.
Context switching tem custo. 1000s de threads concorrentes em I/O bound podem funcionar, mas em CPU-bound geralmente é melhor ~1 thread por core.
CPU affinity (taskset, sched_setaffinity) trava thread em cores específicos, útil pra cache locality em workloads críticas.

2.4.1 Schedulers modernos: CFS, EEVDF, Windows, BSD

CFS reinou de 2007 até 2024. A partir do Linux 6.6 (out/2023), o kernel mainline adotou EEVDF (Earliest Eligible Virtual Deadline First) substituindo CFS pra workloads não-realtime. Mudança discreta pra usuário comum, relevante pra quem ajusta latência fina.

EEVDF em uma frase: cada thread recebe um deadline virtual; scheduler sempre roda quem está "elegível" (acumulou direito) com menor deadline. CFS minimizava unfairness entre quem rodou; EEVDF agrega slice/lag explícitos, mais fácil raciocinar sobre latência tail.

Por que mudou:

CFS dependia de heurísticas (sched_min_granularity_ns, etc.) pra balancear interatividade vs throughput. EEVDF expressa o trade-off via slice por entidade.
CFS tinha bugs documentados em workloads com burst pequeno (web servers acordando rápido). EEVDF reduz tail latency em ~20% em benchmarks (Phoronix 2024).

Outras classes de scheduler em Linux (não substituídas por EEVDF):

SCHED_FIFO/SCHED_RR (real-time, prioridade fixa). Usada em audio, controle industrial. Sem timesharing, pode ser starver.
SCHED_DEADLINE (EDF, Earliest Deadline First). Real-time hard. Você declara (runtime, deadline, period) e kernel admite só se cabe.
SCHED_IDLE (background, prioridade mais baixa que normal).
chrt muda a classe de um processo.

Windows scheduler: multilevel feedback queue com 32 prioridades. Foreground apps recebem boost (UI responsivo), I/O-bound idem. Não é "fair" no sentido CFS, é "responsivo". A partir do Windows 11, há Thread Director que coopera com Intel hybrid CPUs (P-cores + E-cores) pra colocar work certo no core certo.

macOS/BSD scheduler: Mach + BSD scheduler layer. Threads têm quality of service class (QOS_CLASS_USER_INTERACTIVE, ..._USER_INITIATED, ..._UTILITY, ..._BACKGROUND). Apple Silicon tem heterogeneous cores (P/E), scheduler decide energy/perf.

Implicações práticas pra Senior:

Latency-sensitive workload em Linux: considere SCHED_FIFO ou SCHED_DEADLINE em vez de só nice. Cuidado com starvation.
Container scheduling: containers herdam scheduler do host. cgroups v2 com cpu.weight é o que você ajusta em K8s resources.requests.cpu.
Hybrid CPUs (Intel 12th+, Apple M-series): taskset em P-core/E-core importa. Background scrapers em E-core, hot path em P-core.
Não adivinhe: use perf sched, bpftrace (eBPF), ou schedviz pra ver decisões reais do scheduler.

2.5 System calls e standard library

Aplicação não chama syscalls diretamente, chama wrappers da libc (em C, libc é a implementação que faz a syscall). Em outras linguagens, há equivalente (Node usa libuv que chama syscalls).

Syscalls clássicas que você precisa saber existir:

Categoria	Syscalls	O que faz
Process	`fork`, `execve`, `wait`, `exit`, `getpid`	Criar/finalizar processos
Memory	`mmap`, `munmap`, `brk`, `mprotect`	Alocar memória virtual
File I/O	`open`, `read`, `write`, `close`, `lseek`, `stat`	Ler/escrever arquivos
Filesystem	`mkdir`, `unlink`, `rename`, `chmod`, `chown`	Manipular FS
Network	`socket`, `bind`, `listen`, `accept`, `connect`, `send`, `recv`	TCP/UDP
I/O multiplex	`select`, `poll`, `epoll_*`, `kqueue` (BSD), `IOCP` (Windows)	Gerenciar muitos FDs
Signals	`kill`, `signal`, `sigaction`	Inter-process signaling
Time	`clock_gettime`, `nanosleep`	Relógio, sleep
IPC	`pipe`, `socketpair`, `shmget`, `mq_open`	Inter-process communication

Use strace -f em qualquer processo Linux pra ver as syscalls que ele faz. Faça isso uma vez com node script.js: você vai entender o que o runtime está realmente fazendo.

2.6 File descriptors

Tudo no Linux é arquivo: ou pelo menos é exposto via API de arquivo. Sockets, pipes, terminais, arquivos regulares, dispositivos, tudo é representado por um file descriptor (FD): um inteiro pequeno que indexa uma tabela por processo.

FDs especiais:

0 = stdin
1 = stdout
2 = stderr

Quando você abre arquivo (open), o kernel retorna o FD numericamente menor disponível. Quando faz socket, idem. Quando faz pipe, retorna dois FDs (read end + write end).

Limite de FDs por processo: ulimit -n (default 1024 ou 65536, varia). Servidores de alta concorrência aumentam pra milhões. Cada socket aberto consome 1 FD.

Closing FDs é responsabilidade do processo. Não fechar = leak. Use try/finally (em qualquer linguagem) ou RAII (C++/Rust).

Tabela de FDs após fork: o filho herda cópia da tabela. Os mesmos FDs apontam pras mesmas entries no kernel, então pai e filho compartilham posição em arquivos abertos!

2.7 I/O bloqueante vs não-bloqueante vs assíncrono

Imagine read(fd, buf, 1024):

Bloqueante (default): se não há dado disponível, a thread fica em Sleep até dado chegar. Simples, mas escala mal, uma thread por conexão pra um servidor web é caro.
Não-bloqueante (O_NONBLOCK): se não há dado, retorna imediatamente com EAGAIN/EWOULDBLOCK. Aplicação tem que pollar/voltar depois. Permite uma thread gerenciar muitos FDs.
I/O multiplex (select/poll/epoll): thread bloqueia em muitos FDs ao mesmo tempo, acorda quando qualquer um tem dado pronto. epoll (Linux) é eficiente até 100k+ conexões, usado pelo libuv (Node), nginx, redis.
AIO (assíncrono real, Linux io_uring): kernel faz a operação em background, acorda app quando termina. Mais eficiente mas mais complexo.

Por que isso importa pra Node:

O Node não bloqueia a thread principal em I/O. Usa epoll/kqueue/IOCP (via libuv) pra esperar muitos FDs.
Operações de filesystem em Linux ainda são feitas com thread pool (libuv) porque a kernel API histórica é bloqueante. Por isso fs.* tem variantes blocking/non-blocking.

2.8 Signals

Signal é uma notificação assíncrona enviada pelo kernel a um processo. Lista clássica:

SIGINT (Ctrl+C), interrupção
SIGTERM, pedido educado pra terminar (default kill <pid>)
SIGKILL (9), terminação forçada, não captável
SIGSEGV, segmentation fault (acesso a memória inválida)
SIGCHLD, filho terminou
SIGPIPE, escreveu em pipe sem leitor
SIGUSR1, SIGUSR2, definidos pelo usuário

Aplicações podem capturar signals (exceto SIGKILL e SIGSTOP) com signal() ou sigaction(). Em Node: process.on('SIGTERM', handler).

Padrão importante: graceful shutdown. Captura SIGTERM, fecha conexões abertas, espera in-flight requests terminarem, depois encerra. Kubernetes envia SIGTERM, espera terminationGracePeriodSeconds, depois SIGKILL.

2.9 IPC, Inter-Process Communication

Mecanismos pra processos se comunicarem:

Pipes (| no shell): stream unidirecional, criada com pipe() ou ao spawnar com popen. Usado em Node via child_process.
Named pipes (FIFOs): pipes acessíveis por nome no FS.
Unix domain sockets: like sockets TCP/UDP mas locais. Mais rápido (não passa pela network stack). Usado em Docker (socket /var/run/docker.sock), Postgres (default usa Unix socket pra conexões locais).
Shared memory (shmget, mmap com MAP_SHARED): regiões de memória mapeadas em múltiplos processos. Mais rápido, mas exige sincronização manual.
Message queues (POSIX, System V).
Sockets de rede (TCP/UDP loopback).

2.10 Permissões e usuários

Cada arquivo tem owner (UID), group (GID) e bits de permissão:

Read (r), Write (w), Execute (x) pra cada um de: owner, group, others.
Notação numérica: chmod 755 file = rwxr-xr-x.

Bits especiais:

setuid (4xxx): ao executar, processo roda com UID do owner do arquivo (não do invocador). É como sudo funciona internamente.
setgid (2xxx): idem pra grupo. Em diretórios, novos arquivos herdam grupo.
sticky (1xxx): em diretórios (ex: /tmp), só owner pode deletar arquivos.

Princípio de menor privilégio: rode aplicações com usuário não-root (Docker USER appuser). Capabilities Linux (CAP_NET_BIND_SERVICE, etc.) permitem dar permissões granulares sem dar root inteiro.

3. Threshold de Maestria

Pra passar o Portão Conceitual, sem consultar:

4. Desafio de Engenharia

Implementar um mini-shell Unix em TypeScript.

Especificação

Construa um REPL que aceite comandos e execute como um shell (bash-like). Suporte:

Comandos externos: ls, cat foo.txt, node script.js, etc. Use child_process.spawn ou equivalente.
Pipes: cat foo.txt | grep bar | wc -l, encadeamento de processos.
Redirecionamento: ls > out.txt, cat < in.txt, command 2> err.log.
Background jobs: sleep 10 &, não bloqueia o prompt.
Built-ins: cd <path>, exit, pwd, export VAR=value.
Sinais: Ctrl+C deve enviar SIGINT ao processo em foreground sem matar o shell.
Tratamento de zombies: shell deve fazer wait em filhos terminados.

Restrições

Não use libs de shell parsing (shelljs, execa com complex modes). Apenas node:child_process, node:readline, e Node API base.
Você pode usar libs apenas pra parsing do input (ex: yargs-parser), mas o controle de processos tem que ser seu.

Threshold

Suporta corretamente pipes de 3 ou mais comandos sem perder dados.
Background jobs continuam após o foreground terminar.
Ctrl+C não mata o shell em hipótese nenhuma.
Documentar (no README) quais syscalls são feitas em cada feature (rode strace no shell e analise).

Stretch goals

Job control completo: jobs, fg, bg, kill %1.
History persistente (arquivo ~/.myshell_history).
Tab completion de paths.

5. Extensões e Conexões

Conecta com 01-01, Computation Model: virtual memory, page tables, mmap são features do kernel. Stack/heap layout é mantido pelo kernel ao iniciar processo.
Conecta com 01-03, Networking: sockets são FDs. epoll esperando em N sockets é o fundamento do servidor Node.
Conecta com 01-09, Git Internals: Git usa file locks (*.lock files) pra serializar escritas no .git/. Falhas em fork+exec são origem de "git stuck on lock" issues.
Conecta com 01-10, Unix CLI & Bash: o que você usa no shell é orquestração de processos via syscalls.
Conecta com 02-07, Node.js Internals: event loop do Node é construído sobre epoll (Linux), kqueue (BSD/macOS), IOCP (Windows). Worker threads são threads kernel.
Conecta com 03-02, Docker: containers são processos com namespaces (PID, net, mount, IPC, UTS, user) e cgroups isolados, features do kernel Linux.
Conecta com 03-03, Kubernetes: pods são grupos de containers compartilhando network namespace.

Ferramentas satélites

strace: trace de syscalls de um processo.
ltrace: trace de chamadas a libraries (libc).
lsof -p <pid>: lista todos FDs abertos por um processo.
htop, top: estado de processos, threads, scheduling.
ps -ef, ps auxf: snapshot de processos.
pidstat, vmstat, iostat: estatísticas finas.
/proc/<pid>/: filesystem virtual com info de cada processo (status, fd, maps, etc).
bpftrace, eBPF: tracing avançado low-overhead.

6. Referências de Elite

Livros canônicos

Operating Systems: Three Easy Pieces (Remzi Arpaci-Dusseau), free em pages.cs.wisc.edu/~remzi/OSTEP. Leitura obrigatória. Capítulos 4-5 (processes), 26-32 (concurrency), 35-43 (persistence).
Advanced Programming in the UNIX Environment (Stevens & Rago, "APUE"), bíblia. Use como referência.
The Linux Programming Interface (Michael Kerrisk), alternativa moderna a APUE, mais Linux-specific.
Linux Kernel Development (Robert Love), quando quiser entender o lado kernel.

Artigos

"The C10K problem": Dan Kegel. Histórico, mas o fundamento conceitual de servidores high-concurrency. Leia.
"The C10M problem": sequência moderna.
"Understanding the Linux Kernel CFS".

Repos

Linux kernel source: kernel/sched/ pra scheduler, fs/ pra filesystems.
libuv: implementação de event loop C que o Node usa.
busybox: implementações minimal de quase todos comandos Unix. Excelente pra ler código.
xv6: SO didático do MIT. Pode ler inteiro.

Documentação primária

man pages: man 2 <syscall> (seção 2 = syscalls). Use sempre.
Linux man pages online.

Talks

"Linux Scheduler": várias talks de LinuxCon.
Brendan Gregg performance talks: brendangregg.com/talks.html.

Comunidade

r/linux, r/kernel.
LWN.net: jornalismo técnico de kernel de altíssima qualidade.

Encerramento: após 01-02 você consegue raciocinar sobre runtime: por que o Node escala bem em I/O e mal em CPU-bound, por que Postgres usa multi-process em vez de multi-thread (até versão recente), por que Docker é "leve" comparado a VMs. Esse modelo mental é a base de toda discussão de operação em escala.

Destrava

01-02 é prereq dos seguintes módulos: