Apple patrocina la Conferencia Internacional sobre Acústica, Procesamiento de Señales y Habla (ICASSP), que se llevará a cabo en persona del 4 al 10 de junio en la isla de Rodas, Grecia. ICASSP es la conferencia insignia de la IEEE Signal Processing Society sobre procesamiento de señales y sus aplicaciones. A continuación se muestra el calendario de talleres y eventos patrocinados por Apple en ICASSP 2023.
Calendario
martes, 6 de junio
- PRESENTACIÓN ORAL
- Veo lo que escuchas: un método inspirado en la visión para localizar palabras
- 10:50 a. m. – 12:20 p. m. LT en el Salon des Roses A
- Mohammad Samragh, Arnav Kundu, Ting-Yao Hu, Aman Chadha, Ashish Srivastava, Minsik Cho, Oncel Tuzel, Devang Naik
- PRESENTACIÓN DE POSTER O CARTEL
- Enmascaramiento de atención variable para reconocimiento de voz de transductor de transformador configurable
- 10:50 a. m. – 12:20 p. m. LT en el Área de exhibición 4 – Jardín
- Pawel Swietojanski, Stefan Braun, Dogan Can, Thiago Fraga da Silva, Arnab Ghoshal, Takaaki Hori, Roger Hsiao, Henry Mason, Erik McDermott, Honza Silovsky, Ruchir Travadi, Xiaodan Zhuang
- PRESENTACIÓN DE POSTER O CARTEL
- El texto es todo lo que necesita: personalice los modelos ASR usando texto a voz controlable
- 2:00 p. m. – 3:30 p. m. LT en el Área de Exhibición 2 – Jardín
- Karren Yang, Ting-Yao Hu, Jen-Hao Rick Chang, Hema Swetha Koppula, Oncel Tuzel
- PRESENTACIÓN DE POSTER O CARTEL
- Entrenamiento de transductores neuronales: consumo de memoria reducido gracias al cálculo por muestra
- 2:00 p. m. – 3:30 p. m. LT en el Área de Exhibición 3 – Jardín
- Stefan Braun, Erik McDermott, Roger Hsiao
- PRESENTACIÓN DE POSTER O CARTEL
- ¿Más palabras o más hablantes?
- 2:00 p. m. – 3:30 p. m. LT en el Área de Exhibición 3 – Jardín
- Dan Berrebbi, Ronan Collobert, Navdeep Jaitly, Tatiana Likhomanenko
- PRESENTACIÓN DE POSTER O CARTEL
- Audio-to-Intent usando representaciones de subpalabras acústicas a textuales de un ASR de extremo a extremo
- 2:00 p. m. – 3:30 p. m. LT en el Área de Exhibición 4 – Jardín
- Pranay Dighe, Prateeth Nayak, Oggi Rudovic, Erik Marchi, Xiaochuan Niu, Ahmed Tewfik
miércoles, 7 de junio
- PRESENTACIÓN DE POSTER O CARTEL
- HEiMDaL: método altamente eficiente para detectar y localizar palabras de activación
- 8:15 a. m. – 9:45 a. m. LT en el área de exhibición 8 – Domo
- Arnav Kundu, Mohammad Samragh Razlighi, Minsik Cho, Priyanka Padmanabhan, Devang Naik
- COMIDA
- Mujeres en el procesamiento de señales
- 12:20 p. m. – 2:20 p. m. LT en el restaurante Ambrosia
jueves, 8 de junio
- PRESENTACIÓN ORAL
- Generar movimiento naturalista de la cabeza a partir del habla
- 10:50 a. m. – 12:20 p. m. LT en el Salon des Roses A
- Trisha Mittal, Zakaria Aldeneh, Masha Fedzechkina, Anurag Ranjan, Barry-John Theobald
- FERIA DE CARRERAS
- Feria de trabajo para estudiantes y almuerzo
- 12:00 p. m. – 3:00 p. m. LT en el restaurante Ambrosia
- PRESENTACIÓN DE POSTER O CARTEL
- Representaciones de modelos pre-entrenados y su robustez al ruido para el análisis de las emociones del habla
- 2:00 p. m. – 3:30 p. m. LT en el Área de Exhibición 4 – Jardín
- Vikramjit Mitra, Vasudha Kowtha, Hsiang-Yun Sherry Chien, Erdrin Azemi, Carlos Avendano
- PRESENTACIÓN DE POSTER O CARTEL
- Sobre el papel de la articulación de los labios en la percepción visual del habla
- 2:00 p. m. – 3:30 p. m. LT en el área de observación 10 – Domo
- Zakaria Aldeneh, Masha Fedzechkina, Skyler Seto, Katherine Metcalf, Miguel Sarabia, Nicholas Apostoloff, Barry-John Theobald
- PRESENTACIÓN DE POSTER O CARTEL
- Aprenda a detectar secuencias acústicas nuevas y finas utilizando representaciones de audio preentrenadas
- 3:35 p. m. – 5:05 p. m. LT en el Área de Exhibición 2 – Jardín
- Vasudha Kowtha, Miquel Espi, Jonathan J Huang, Yichi Zhang, Carlos Avendano
viernes 9 de junio
- PRESENTACIÓN DE POSTER O CARTEL
- Mejoras en la integración de coincidencia de palabras acústicas ASR mediante integraciones basadas en pronunciación de hipótesis múltiples
- 8:15 am – 9:45 am en el área de exhibición 4 – Jardín
- Hao Yen, Woojay Jeon
Documentos aceptados
Audio-to-Intent usando representaciones de subpalabras acústicas a textuales de un ASR de extremo a extremo
Pranay Dighe, Prateeth Nayak, Oggi Rudovic, Erik Marchi, Xiaochuan Niu, Ahmed Tewfik
HEiMDaL: método altamente eficiente para detectar y localizar palabras de activación
Arnav Kundu, Mohammad Samragh Razlighi, Minsik Cho, Priyanka Padmanabhan, Devang Naik
Veo lo que escuchas: un método inspirado en la visión para localizar palabras
Mohammad Samragh, Arnav Kundu, Ting-Yao Hu, Aman Chadha, Ashish Srivastava, Minsik Cho, Oncel Tuzel, Devang Naik
Mejoras en la integración de coincidencia de palabras acústicas ASR mediante integraciones basadas en pronunciación de hipótesis múltiples
Hao Yen, Woojay Jeon
Aprenda a detectar secuencias acústicas nuevas y finas utilizando representaciones de audio preentrenadas
Vasudha Kowtha, Miquel Espi, Jonathan J Huang, Yichi Zhang, Carlos Avendano
¿Más palabras o más hablantes?
Dan Berrebbi, Ronan Collobert, Navdeep Jaitly, Tatiana Likhomanenko
Generar movimiento naturalista de la cabeza a partir del habla
Trisha Mittal, Zakaria Aldeneh, Masha Fedzechkina, Anurag Ranjan, Barry-John Theobald
Entrenamiento de transductores neuronales: consumo de memoria reducido gracias al cálculo por muestra
Stefan Braun, Erik McDermott, Roger Hsiao
Sobre el papel de la articulación de los labios en la percepción visual del habla
Zakaria Aldeneh, Masha Fedzechkina, Skyler Seto, Katherine Metcalf, Miguel Sarabia, Nicholas Apostoloff, Barry-John Theobald
Representaciones de modelos pre-entrenados y su robustez al ruido para análisis de emociones del habla
Vikramjit Mitra, Vasudha Kowtha, Hsiang-Yun Sherry Chien, Erdrin Azemi, Carlos Avendano
El texto es todo lo que necesita: personalice los modelos ASR usando texto a voz controlable
Karren Yang, Ting-Yao Hu, Jen-Hao Rick Chang, Hema Swetha Koppula, Oncel Tuzel
Enmascaramiento de atención variable para reconocimiento de voz de transductor de transformador configurable
Pawel Swietojanski, Stefan Braun, Dogan Can, Thiago Fraga da Silva, Arnab Ghoshal, Takaaki Hori, Roger Hsiao, Henry Mason, Erik McDermott, Honza Silovsky, Ruchir Travadi, Xiaodan Zhuang
Manifestación
Comprensión contextual en Siri
Esta es una demostración de la tecnología de comprensión del contexto proporcionada por Siri. Los usuarios pueden referirse a una entidad antes mencionada usando anáforas o puntos suspensivos, referirse a una entidad en pantalla o corregir un error anterior de Siri o del usuario. La comprensión del contexto para Siri aprovecha múltiples soluciones de ML de back-end, como la reescritura de consultas y la resolución de referencias. Este trabajo es un paso hacia conversaciones más naturales con Siri y se ha entregado en iOS 16.
Todos los asistentes a ICASSP están invitados a pasar por el stand de Apple (el stand número 16, ubicado junto a la entrada principal del Dome Bar en el Rodos Palace Luxury Convention Resort) para experimentar esta demostración en persona.
Gracias
Tatiana Likhomanenko, Arnav Kundu, Stefan Braun, Vikram Mitra y Pawel Swietojanski son los revisores de ICASSP 2023.
Yannis Stylianou es presidente de la Escuela Estacional y Cursos Cortos para ICASSP 2023.
Innovemos juntos. Cree increíbles experiencias de aprendizaje automático con Apple. Descubra oportunidades para investigadores, estudiantes y desarrolladores visitando nuestra página Trabaja con nosotros.