Degravação Automática de Fala

Automático. Integrável. Flexível.

O sistema AUDIMUS.SERVER da VoiceInteraction é a resposta às suas necessidades de degravação de arquivos de media. De uma forma automática, é agora possível transfomar os seus arquivos audio-visuais em documentos de texto. De integração simples e flexível com o seu fluxo de trabalho e estrutura atuais, alcance a execelência de uma degravação otimizada à sua situação particular.

Descrição Geral

Suportado por um motor de reconhecimento de fala em constante evolução, o Audimus Server pode receber qualquer tipo de arquivo de media, gerando metadata dos conteúdos falados. É feita uma degravação total do discurso, agregando ainda, anotações semânticas e a identificação temporal das intervenções de todos os oradores. É possível exportar o resultado final num número extenso de formatos de texto, com o objetivo de otimizar para agilizar o fluxo de trabalho do cliente.

Principais Características

Com este produto proporcionamos aos nossos clientes um conjunto de novas oportunidades e facilidades para lidar com o problema da degravação manual de arquivos media pré-gravados. Em termos de exportação, fornecemos uma grande variedade de outputs. Aqui irá encontrar o formato que necessita e agilizará o workflow que possui. Pode, por exemplo, utilizar os formatos que disponibilizamos para importar o resultado da degravação para um editor NLE.
Em termos de integração de metadata é importante, também, realçar a ligação e cooperação com diferentes MAMs. O apriomoramento da metadata aqui produzida é um dos fatores de maior relevância do Audimus Server. O arquivamento dos resultados gerados para rápida consulta sempre foi um dos nossos objetivos com este produto. Assim, um grande arquivo de media fica totalmente indexado e com o seus conteúdos completamente pesquisável.
Por outro lado, a criação, em tempo inferior ao tempo de ficheiro, de uma degravação completa diminuiu o esforço necessário para realizar a tradução de um qualquer conteúdo indicado. Se tem demanda para este serviço e não quer começar do zero, esta é a solução que procura.
 

Sumariamente, o Audimus Server permite:

  • Exportar a degravação em múltiplos formatos
  • Enriquecimento de metadata de MAMs
  • Arquivamento indexada em base de dados
  • Importação direta para editores textuais
  • Integração rápida e eficiente no fluxo de trabalho do cliente
  • Redução drástica do tempo de produção das transcrições
O Audimus Server pode ser útil para uma ampla variedade de empresas e clientes. As utilizações mais relevantes estão presentes nas seguintes áreas de negócio:

  • Emissoras de Televisão
  • Criadores de transcrições e legendas
  • Tradutores de transcrições e legendas
  • Produtores de conteúdos
  • Instituições públicas e privadas, Tribunais, Câmaras e Assembleias Municipais

Descrição Detalhada

Não tendo necessidade do tempo de processamento que o modo online exige, o Audimus Server proporcionará utilizações mais abrangentes. Em ambientes de jornalismo os resultados serão melhores , visto que são ambientes controlados. Saindo deste universo existe uma compreensível perda de qualidade do resultado, visto a falar ser mais espontânea e menos preparada.
Para responder as estas necessidades, desenvolvemos uma solução que recebe qualquer tipo de arquivo de media e, através de reconhecimento de fala automático, produz uma degravação completa do conteúdo fornecido. Este resultado é aprimorado por uma completa descrição semântica do que foi reconhecido, além da indicação das zonas de fala e zonas de silêncio.
Nas zonas de fala é indicado o orador responsável pela seção. O texto de saída é normalizado, formatado e pode ser otimizado para um grande conjunto de extensões disponíveis. Tudo isto é feito em um tempo inferior à duração do arquivo original.
 

audimusServer 1

Sendo um sistema dependente da língua, são disponibilizados diferentes modelos para diferentes regiões. Estes são treinados com grandes quantidades de áudio e texto, onde o volume total do vocabulário ultrapassa as 100.000 palavras.
Os modelos de linguagem resultam da interpolação de vários submodelos associados a diferentes fontes, estando disponível um Serviço de Adaptação dos Modelos de Linguagem que permite a sua adaptação diária às diferentes temáticas novas. Este sistema trabalha em conjunto com um Módulo de Segmentação Acústica para distinguir das zonas acústicas relevantes para a legendagem. Entre as línguas suportadas podemos citar: Português Europeu, Português Africano, Português do Brasil, Espanhol, Francês, Alemão, Italiano, Suíço, Basco, Inglês Americano e Inglês Britânico.
 
O Audimus Server possui uma interface de administração e utilização, podendo ser facilmente integrado com aplicações através de interface Webservices (SOAP/WSDL). Este sistema recebe um arquivo áudio/vídeo, coloca-o numa lista para processamento e notifica o utilizador após a sua conclusão, para que este possa consultar e utilizar o resultado do reconhecimento. Trabalha com vocabulários >100.000 palavras e modelos de linguagem treinados com textos de jornais. Nas zonas de fala, faz uma transcrição completa do que foi dito, com a indicação de níveis de confiança no reconhecimento.

audimusServer4

 

CREA-SP – Caso de sucesso

O Conselho de Engenharia e Agronomia do Estado de São Paulo – CREA-SP é um dos bons exemplos da utilização do sistema de degravação da VoiceInteraction – Audimus Server.
Utilizado para fazer a degravação das reuniões plenárias e de câmaras especializadas deste Conselho, o nosso produto comtemplas as necessidades exigidas para as transcrições aqui necessárias.Pela voz dos próprios, a escolha pela nossa solução foi feita pelo fato da VoiceInteraction ser a única autora e fornecedor no Brasil de software de transcrição de voz, com modelo de linguagem em português do Brasil.