● Utilizza i suoi demoni nel cluster● Non usa map reduce● Non materiallizza processi intermedi● Usa il più possibile istruzioni macchina● Usa la memoria per salvare i dati intermedi● Non ha l’update
11
Hadoop Summit - Tez
12
Hadoop Summit – Perchè Tez?
● MR● Uso intensivo di file
temporanei e scritture in HDFS
● API espressive● Non è necessario
persistere passi intermedi
13
Hadoop Summit – Tez API
● Esecuzione● Logica + risorse ● Trasferimento Dati
● DAG● Nodo● Arco
Deve essere aciclico per meccanismo di fault tollerance
14
Hadoop Summit – Tez API
● Nodi
15
Hadoop Summit – Tez API
● Archi– Data-movement:
● One to One● Broadcast● Scatter Gather
– Scheduling● Sequenziale● Concorrente
– Data source property● Peristed● Peristed reliable● Ephimeral